سال انتشار: ۱۳۸۱

محل انتشار: هشتمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۷

نویسنده(ها):

احد هراتی – قطب علمی کنترل و پردازش هوشمند – ازمایش
مجید نیلی احمدآبادی – قطب علمی کنترل و پردازش هوشمند – ازمایش
بابک نجاراعرابی – قطب علمی کنترل و پردازش هوشمند – ازمایش

چکیده:

به طور سنتی در غالب پژوهش های مربوط به یادگیری تقویتی چند عامله،تعیین بازخوردی فردی عالم ها بر عهده محیط گذارده میشود . درحالیکه در بسیاری از موارد عملی،نقاط محیط هوشمندی لازم برای انجام این کار را ندارد. به عبارت دیگر محیط قادر به تعیین نقش هر عامل در نتیجه گروهی کسب شده نیست. درحالت کلی در چنین مواردی صرفا یک بازخورد گروهی از طرف محیط مهیا می شود که باید به نحوی بین عامل ها تقسیم شود . در این تحقیق مساله مذکور هنگامی که عامل ها به صورت موازی و همزمان وظایف خود را انجام می دهند و موفقیت تیمی صرفا با تصمیم گیری درست تک تک آنهاحاصل میشود مد نظر است.
مقاله حاضر ایده استفاده از سوابق یادگیری عامل ها به منظور ارزیابی دانش هر یک و نهایتا قضاوت درمورد نقش انها در نتیجه گروهی رامطرح می کند. سه معیار به نام های خبرگی، خبرگی نسبی و اطمینان معرفی شده اندو دو الگوریتم برای انتسابامتیازات فردی ارائه شدهاست. توانایی ها و چگونگی عملکرد هر یک از معیارها در تخمین درست نقش عامل ها در غالب یک محیط قطعی مناسب مورد بررسی و مقایسهقرار گرفته است، در شرایطی که عامل ها با روش Q-learning به یادگیری وظیفه تک مرحله ای خود میپردازند. در نهایت نتایج حاصل از شبیه سازی ها نیز برای نشان دادن کارایی روش های پیشنهادی در عمل ذکرشده اند.