سال انتشار: ۱۳۸۴

محل انتشار: یازدهمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۷

نویسنده(ها):

فاطمه سعادت جو – گروه کامپیوترموسسه آموزش عالی جهاد دانشگاهی یزد
ولی درهمی – بخش مهندسی برق- دانشکده فنی دانشگاه تربیت مدرس
وحید جوهری مجد – بخش مهندسی برق- دانشکده فنی دانشگاه تربیت مدرس

چکیده:

تعادل بین مکاشفه و استفاده از تجربیات به دست آمده درانتخاب عمل یکی از موضوعات مهم در آموزش تقویتی است. این مقاله به بررسی کارایی معروفترین سیاست های انتخاب عمل greedy, (greedy,e – softmax و ارائه ایده هایی برای بهبود انتخاب عمل، از لحاظ برقراری تعادل مناسب می پردازد. این ایده ها از پارامترهایی چون نرخ تغییرات مقادیرQ حذف عمل ها با Qی منفی در انتخاب عمل، و تعداد دفعات ملاقات هر حالت در تعیین مقدار ضریب دما برایروشsoftmax بهره می برند. برای مقایسه عملکرد روش ها از شبیه سازی حرکت یک ربات در یک محیط مارپیچ قطعی و نیز یک محیط تصادفی استفاده شده است. کارایی و نحوه عملکرد روش های ارائه شده و روشهای موجود از لحاظ تعداد گام های رسیدن به هدف، سرعت آموزش، دفعات انتخاب راه بهینه و … با هم مقایسه می گردند. نتایج شبیه سازی حاکی از بهبود کارآیی در صورت بکارگیری راهکارهای ارائه شده در این مقاله می باشد.