سال انتشار: ۱۳۸۲

محل انتشار: اولین کنفرانس بین المللی فناوری اطلاعات و دانش

تعداد صفحات: ۱۱

نویسنده(ها):

محمدرضا آیت اله زاده شیرازی – آزمایشگاه محاسبات نرم، دانشکده مهندسی کامپیوتر و فناوری اطلاعات
محمدرضا میبدی –

چکیده:

یکی از مشکلاتی که الگوریتمهای یادگیری تقویتی در سیستمهای چند عامله با آن مواجه هستند وجود چندین نقطه موازنه می باشد. در یادگیری تقویتی سیستمهای چند عامله، بیشترین تمرکز بر روی تضمین همگرایی الگوریتمهای یادگیری به نقطه موازنه مطلوب است. این روشها با این مشکل مواجه هستند که عاملها باید انتخاب نقطه موازنه را با یکدیگر هماهنگ کنند. در این مقاله، رفتار اتوماتای یادگیر به عنوان استراتژی تصمیم گیری عاملها در سیستمهای چند عامله به منظور دستیابی به رفتاری هماهنگ مورد بررسی و ارزیابی قرار می گیرد. بدین منظور همگرایی الگوریتم یادگیری اتوماتای یادگیر به عنوان استراتژی تصمیم گیری عاملهایی که در ساختار یک بازی همکاری فعالیت می کنند،در دو حالت وجود یادگیرنده های مستقل و یادگیرنده های مشترک ارزیابی و کارآیی آن با الگوریتم یادگیری Qمقایسه شده است. نتایج حاصل نشان می دهند که استراتژی اتوماتای یادگیر با سرعت خوبی به عمل مشترک بهینه همگرا می شود. دیده می شود که اتوماتای یادگیر در مقایسه با یادگیری Q با سرعت بیشتری احتمالات عمل مشترک بهینه را یاد می گیرد. در رابطه با یادگیرنده های مشترک نیز که بر اعمال یکدیگر نظارت دارند، اتوماتای یادگیر و یادگیری Qدر هر دو حالت کارآیی یکسانی از خود نشان می دهند. همچنین، در این مقاله، ایده به کارگیری اتوماتای یادگیر به منظور پیاده سازی استراتژی مذاکره در عاملهای مذاکره کننده ارائه و مورد بررسی قرار می گیرد.