سال انتشار: ۱۳۸۳

محل انتشار: دهمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۸

نویسنده(ها):

محسن طلایی – آزمایشگاه هوش مصنوعی و رباتیک قطب علمی کنترل و پردازش هوشمند گروه مه
مجید نیلی احمدآبادی –
حسین امینایی –

چکیده:

از یادگیری تقویتی تاکنون برای حل مساله زیادی که خاصیت مارکوف دارند استفاده شده است اما با کمی تغییر در مشخصههای این نوع یادگیری می توان آن را برای حل مسائلی که خاصیت نیمهمارکوف دارند نیز به کار برد اغلب مسائلی که دردنیای واقعی با آنها سروکار داریم بطور کامل خاصیت مارکوفی ندارند و مسائل مربوط به تولید manufacturing و زنجیره تامین supply chain که امروزه در هوش مصنوعی جایگاه خاصی پیدا کرده اند نیز از نمونه های بارز این دسته می باشند دراین مقاله روشی برای استفاده از یادگیری Q معمولی با استفاده از پاداشهای جزئی و تاخیری برای حل یک مساله کنترل سطح بهینه انبار که دارای خاصیت مارکوفی است و می تواند به عنوان لایه ای از زنجیره تامین مورد استفاده قرار گیرد ارایه و بررسی میشود