سال انتشار: ۱۳۸۷

محل انتشار: دومین کنگره مشترک سیستم های فازی و سیستم های هوشمند

تعداد صفحات: ۶

نویسنده(ها):

سیدمصطفی کلامی هریس – دانشکدهی مهندسی دانشگاه فردوسی مشهد
محمدباقر نقیبی سیستانی – استادیار

چکیده:

مسألهیMAB کاربردهای وسیعی در علوم مهندسی، آمار، اقتصاد و روانشناسی دارد و در شاخههای مختلف علمی و فنی به اشکال متفاوتی ظاهر میشود. یکی از چالشهایی که در حل این مسأله وجود دارد، لزوم برقراری تعادل میان بهرهجویی از اطلاعات فعلی کسب اطلاعات جدید از محیط میباشد. این دو پدیده، به ترتیب به نامهای بهرهبرداریExploitation) و جستجوExploration) معروف هستند. روشی که در این مقاله برای حل مسألهی MAB به کار رفته است، روش یادگیری تقویتی است. این روش، که نوعی رویکرد یادگیری غیر نظارت شده را پیادهسازی میکند، این امکان را فراهم میکند که با تغییر پارامترهای تصمیمگیری، تعادل مطلوب بین پدیدههای جستجو و بهرهبرداری به وجود بیایند. در این نوشتار، با انجام آزمایشهای متعدد، ارتباط میان پارامترهای تصمیمگیری و طول بازهی زمانی برای حل مسأله، که به طول عمر کنترل کننده یا عامل یادگیرنده معروف است، مورد بررسی قرار گرفته است.