سال انتشار: ۱۳۸۶

محل انتشار: پانزدهیمن کنفرانس مهندسی برق ایران

تعداد صفحات: ۵

نویسنده(ها):

مازیار احمدشعربافی – دانشگاه تهران و دانشگاه صنعتی خواجه نصیرالدین طوسی
آیدا محمدی نژاد رستی – دانشگاه تهران و دانشگاه صنعتی خواجه نصیرالدین طوسی

چکیده:

با توجه به مبتنی بودن روش های کنترل بهینه بر برنامه ر یزی پویا (DP) و همچنین استفاده یادگیری تقویتی از این مفهوم، تلفیق این دو روش و استفاده از مزایای یکی در دیکگری امری مورد انتظار است که در ادبیات این دو رشته نیز به وفور یافته می شود. در این زمینه اکثر تحقیقات انجام شده در جهت استفاده از یادگیری به عنوان وسیله ای در جهت افزایش کارایی کنترل کننده های بهینه تظیر کنترل کننده خطی مربعی گوسی (LQG) و رگولاتور خطی مربعی (LQR) و در راستای بر خط شدن (online) شدن آنها و همچنین تخمین گر فیلتر کالمن انجام شده است. به این ترتیب سعی می شود تا یک کنترل کننده بهینه تطبیقی به دست آید. در این مقاله با استفاده یادگیری کیو (Q-learning) در به روز کردن مقادیر بهره فیدبک دو نتیجه قابل توجه حاصل شده است. نخست آنکه تطبیقی شدن کنترل کننده سبب پاسخ به بروزاتفاقات غیر قابل پیش بینی ، نظیر ورود اغتشاشی که از پیش اطلاعی از آن نداریم. می شود . همچنین کنترل کننده در مقابل تغییرات محدود سیستم که سبب ناپایدار در کنترل کننده LQC متداول می شود مقاوم شده است. به عبارت دیگر مشکل اصلی کنترل کننده LQC که مقاوم بودن آن است که تا حدودی حل شده است.