سال انتشار: ۱۳۸۵

محل انتشار: دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۴

نویسنده(ها):

علی اکبر آقامحمدی –
مجید نیلی احمدآبادی –
طاهر شهبازی میرزاحسنلو –

چکیده:

مشکل عمده رو شهای یادگیری مبتنی بر یادگیری تقویتی ، طولانی شدن زمان یادگیری در اثر افزایش ابعاد فضای مسئله است . یادگیری تقویتی سلسله مر اتبی با تجزیه مسئله به اجزای کوچ کتر سعی در حل چنین مشکلی دار د. در این مقاله نیز با تجزیه مسئله به اجزای کوچک تر که آنها را رفتار م ینامیم، از ساختارهای BB به عنوان ساختارهای سلسله مراتبی برای یادگیری رفتارها
استفاده می شود و روشی برای تجدید توابع ارزش و تقسیم پاداش دریافتی پیشنهاد می شو د. در این روش دانش طراح بیشتر در ساختار کد می شود و مزایایی مانند سرعت بالای همگرایی، روش های یادگیری سلسله مراتبی و کاهش فضای حالت را با مزایایسیستمهایBBیکجا جمع می کنیم . به علاوه در چنین ساختاری قابلیت یادگیری خود ساخ تار نیز امکان پذیر است. نتایج شبیه
سازی روی مسئله هدایت تاکسی، کارایی روش را بهتر نشان می دهد.