سال انتشار: ۱۳۸۷

محل انتشار: دومین کنگره مشترک سیستم های فازی و سیستم های هوشمند

تعداد صفحات: ۹

نویسنده(ها):

بهروز معصومی – دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران و مرکز تحقیقات
محمدرضا میبدی – دانشگاه صنعتی امیرکبیر تهران
برنا جعفرپور –

چکیده:

بازی های غیر قطعی(اتفاقی) برای مدل سازی سیستمهای چند عامله بسیار مورد استفاده قرار گرفته اند.این بازیها توسعه ای از فرآیندهای تصادفی مارکوف با چندین عامل و بازی های ماتریسی با چندین حالت هستند.هدف هرعامل پیدا کردن سیاستبهینه ای است بطوریکه امید ریاضی مجموع کاهشیافته پاداشها را بیشینه نماید. در این مقاله یک مدل یادگیری تقویتی مبتنی بر اتوماتاهای یادگیر برای حل بازی های اتفاقی با مجموع کلی برای یافتن خطمشی بهینه پیشنهاد شده است.بازای هر حالت در محیط یک اتوماتا قرار داده شده بطوریکه تعداد اعمال هر اتوماتا با توجه به همسایگانش تعیین میگردد.هر اتوماتا مسوول انتخاب حالتبعدی محیط است. آزمایشهای انجام گرفته نشان دادهاند که الگوریتم ارائه شده از کارایی مناسبی از هر دو جنبه هزینه و سرعت رسیدن به راهحل بهینه برخوردار است