مقاله مدلي مبتني بر آنتروپي و اتوماتاهاي يادگير براي حل بازي هاي تصادفي که چکیده‌ی آن در زیر آورده شده است، در تابستان ۱۳۸۹ در مهندسي برق و مهندسي کامپيوتر ايران از صفحه ۹۷ تا ۱۰۶ منتشر شده است.
نام: مدلي مبتني بر آنتروپي و اتوماتاهاي يادگير براي حل بازي هاي تصادفي
این مقاله دارای ۱۰ صفحه می‌باشد، که برای تهیه‌ی آن می‌توانید بر روی گزینه‌ی خرید مقاله کلیک کنید.
کلمات مرتبط / کلیدی:
مقاله آنتروپي
مقاله اتوماتاهاي يادگير
مقاله بازي هاي تصادفي
مقاله سيستم هاي چندعامله

نویسنده(ها):
جناب آقای / سرکار خانم: معصومي بهروز
جناب آقای / سرکار خانم: ميبدي محمدرضا

چکیده و خلاصه‌ای از مقاله:
بازي هاي غير قطعي (تصادفي) به عنوان توسعه اي از فرآيندهاي تصادفي مارکوف با چندين عامل در سيستم هاي چندعامله و مدل سازي آنها حايز اهميت بوده و به عنوان چارچوبي مناسب در تحقيقات يادگيري تقويتي چندعامله به کار رفته اند. در حال حاضر اتوماتاهاي يادگير به عنوان ابزاري ارزشمند در طراحي الگوريتم هاي يادگيري چندعامله به کار رفته اند. در اين مقاله مدلي مبتني بر اتوماتاي يادگير و مفهوم آنتروپي براي حل بازي هاي غير قطعي و پيداکردن سياست بهينه در اين بازي ها ارايه شده است. در مدل پيشنهادي به ازاي هر عامل در هر حالت از محيط بازي يک اتوماتاي يادگير با ساختار متغير از نوع S قرار داده شده است که اعمال بهينه را در هر حالت ياد مي گيرند. تعداد اعمال هر اتوماتا با توجه به همسايگان مجاور هر حالت تعيين شده و ترکيب اعمال اتوماتاها حالت بعدي محيط را انتخاب مي کند. در مدل پيشنهادي از آنتروپي بردار احتمالات اتوماتاي يادگير حالت جديد براي کمک به پاداش دهي اتوماتاها و بهبود يادگيري استفاده شده است. براي بررسي و تحليل رفتار الگوريتم يادگيري پارامتري به نام آنتروپي کلي تعريف گرديده که ميزان همگرايي را در الگوريتم يادگيري بيان مي کند. در نهايت الگوريتمي اصلاح يافته با ايجاد تعادل بين جستجو و استناد بر تجربيات پيشنهاد شده است. نتايج آزمايش ها نشان مي دهد الگوريتم ارايه شده از کارايي مناسبي از هر دو جنبه هزينه و سرعت رسيدن به راه حل بهينه برخوردار است.