سال انتشار: ۱۳۸۵

محل انتشار: سیزدهمین کنفرانس مهندسی پزشکی ایران

تعداد صفحات: ۷

نویسنده(ها):

رضا شالباف – دانشکده مهندسی پژشکی دانشگاه صنعتی امیرکبیر
منصور وفادوست –
احمد شالباف –

چکیده:

افراد زیادی هستند که دچار آسیب در سیستم صوتی بوده و قادر به برقراری ارتباط با دیگران نیستند این افراد معمولا توانایی انجام صحیح حرکات لب به شکلی که برای تکلم لازم است را داشته و میتوان با انجام لب خوانی به مقصود آنها پی برد. فرآیند بازشناسی تصویری گفتار راه حلی است که محققین برای غلبه بر مشکل فوق یافته اند و شامل دو مرحله استخراج ویژگی از دنباله تصاویر لب و دسته بندی ویژگی های بدست آمده می باشد. در این الگوریتم، ابتدا یک مدل لب یا محدودیت های هندسی مشخص تعریف می شود. سپس، اطلاعات تصاویر از فضای رنگی RGB به فضای رنگی CIELAB تبدیل شده و الگوریتمK_means و عملگرهای مورفولوژیک برای جداسازی ناحیه لب استفاده شده و مدل پیشنهادی بر روی مرز این ناحیه، انطباق داده می شود و در نهایت برای یکسان سازی بعد بردار ویژگی، از روش درون یابی و برای کاهش بعد بردار ویژگی از روش های PCA و FLD استفاده می گردد. برای دسته بندی ۶ واژه، از الگوریتم HMM استفاده شده است و ارزیابی بر روی مجموعه دادگان جمع آوری شده از تصاویر لب ۲۰ گوینده مختلف، صورت گرفته که بیشترین نرخ شناسایی ۹۱% می باشد که علاوه بر رفع عیوب روشهای متداول، حدود ۳% نیز نرخ بازشناسی را بهبود می دهد.