Mendeley TY _ JOUR ID - 13960422204086925 TI - بهبود یادگیری Q با استفاده از هم‌زمانی به روز رسانی و رویه تطبیقی بر پایه عمل متضاد JO - فصلنامه مهندسی برق و مهندسی کامپيوتر ايران JA - ES LA - fa SN - 16823745 AU - پویان مریم AU - گلزاري شهرام AU - موسوی امین AU - حاتم احمد AD - دانشگاه هرمزگان AD - دانشگاه هرمزگان AD - دانشگاه هرمزگان AD - دانشگاه هرمزگان Y1 - 1395 PY - 1395 VL - 2 IS - 14 SP - 137 EP - 146 KW - رویه تطبیقی سرعت همگرایی عمل متضاد هم‌زمانی به روز رسانی یادگیری Q DO - N2 - روش یادگیری Q یکی از مشهورترین و پرکاربردترین روش‌های یادگیری تقویتی مستقل از مدل است. از جمله مزایای این روش عدم وابستگی به آگاهی از دانش پیشین و تضمین در رسیدن به پاسخ بهینه است. یکی از محدودیت‌های این روش کاهش سرعت همگرایی آن با افزایش بعد است. بنابراین افزایش سرعت همگرایی به عنوان یک چالش مطرح است. استفاده از مفاهیم عمل متضاد در یادگیری Q، منجر به بهبود سرعت همگرایی می‌شود زیرا در هر گام یادگیری، دو مقدار Q به طور هم‌زمان به روز می‌شوند. در این مقاله روشی ترکیبی با استفاده از رویه تطبیقی در کنار مفاهیم عمل متضاد برای افزایش سرعت همگرایی مطرح شده است. روش‌ها برای مسئله Grid world شبیه‌سازی شده است. روش‌های ارائه‌شده بهبود در میانگین درصد نرخ موفقیت، میانگین درصد حالت‌های بهینه، متوسط تعداد گام‌های عامل برای رسیدن به هدف و میانگین پاداش دریافتی را نشان می‌دهند. UR - rimag.ir/fa/Article/28185 L1 - rimag.ir/fa/Article/Download/28185 ER -