سال انتشار: ۱۳۸۲

محل انتشار: یازدهمین کنفرانس مهندسی برق

تعداد صفحات: ۸

نویسنده(ها):

جواد عبدی – گروه مهندسی برق وکامپیوتر دانشکده فنی دانشگاه تهران
کارو لوکس – مرکز تحقیقات فیزیک نظری ایران
علی خاکی صدیق – گروه مهندسی برق و کامپیوتر دانشکده فنی دانشگاه صنعتی خواجه نصیرالدین طوسی
اعظم فامیل خلیلی – گروه مهندسی کامپیوتر دانشکده فنی دانشگاه آزاد اسلامی واحد کرج

چکیده:

ترکیب الگوریتم یادگیری تقویتی ۳ با تقریب زننده های تابعی برای تعمیم فضای حالت اخیراً از توجه ویژه ای برخوردار شده و به صورت گسترده ای این اعتقاد وجود دارد که یکی از موارد تعیین کننده برای سنجش میزان یادگیری تقویتی به قلمروهای جالب عملی، است . این مقاله ترکیب TTD یک پیاده سازی تقریبی مؤثر محاسباتی از روشهای TD(λ باCMAC یک تقریب گر تابع به ویژه مناسب برای یادگیری تقویتی درخور کارآیی محاسباتی آن و توانایی یادگیری پیوسته را مورد بررسی قرار می دهد . اکثر مطالعات قبلی ترکیب CMAC با الگوری تمهای براساس TD(0که معمولا برای λ >0یادگیری بسیار آهسته تر صورت می گیرد ، یا با پیاده سازی مرسوم TD(λ که بر اساس آثار صلاحیت است به همر اه هزینه های محاسباتی بالا مورد بررسی قرار داده اند . مطالعه فعلی، سعی دارد با ترکیب TTD و CMAC یادگیری سریع با کارآیی محاسباتی و توانمندی های تعمیم ی را بیان کند . نتایج تجربی ارائه شده، عملکرد موفقیت آمیز الگوریتم یادگیری Q را که با استفاده از دستورالعمل CMAC و TTD در دو کار با فضاهای حالت پیوسته پیاده سازی شده اند، را نشان می دهد