سال انتشار: ۱۳۸۶

محل انتشار: سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۸

نویسنده(ها):

باقر باباعلی – مربی دانشگاه آزاد اسلامی واحد دشتسنان
حسین صامتی – استادیار دانشکده کامپیوتر، دانشگاه صنعتی شریف
هادی ویسی – دانشجوی دکتری دانشکده کامپیوتر، دانشگاه صنعتی شریف

چکیده:

مقاوم سازی سیستم های بازشناسی در مقابل تغییرات بین گوینده های مختلف جهت حفظ کارایی از جمله مسایل مطرح در مبحث بازشناسی گفتار می باشد. یکی از عوامل اصلی تغییرات بین گوینده های مختلف ناشی از تفاوت موجود در طول مجرای صوتی می باشد . روش نرمال سازی طول مسیر صوتی از روش های رایج برای از بین بردن و یا حداقل کم اثر کردن تغییرات ناشی از طولهای مختلف مسیر صوتی در افراد مختلف است که مورد توجه قرار گرفته است. در این مقاله روش های متداول استخراج و اعمال ضریب پیچش بر روی طیف گفتار جهت نرمال سازی اثر طول مسیر صوتی مورد بررسی و مقایسه قرار گرفته اند. سپس تأثیر استخراج ضریب پیچش با رویکرد مبتنی بر جستجو و اعمال آن بر طیف گفتار به روش پیچش فرکانسی در یک سیستم بازشناسی گفتار پیوسته فارسی مبتنی بر مدل مخفی مارکوف با واژگان بزرگ بررسی شده است. دادگان گفتاری بکار گرفته شده جهت آموزش سیستم، فارس دات تمیز می باشد و دادگان آزمون شامل ۱۴۰ جمله از فارس دات تمیز بهمراه ۴ مجموعه نویزی است. بر مبنای نتایج بدست آمده از انجام آزمایشات بکارگیری نرمال سازی اثر طول مسیر صوتی بر روی دادگان آزمون تمیز ۲% بهبود دقت و بررخی از مجموعه ها ی نویزی تا ۷% بهبود دقت را بهمراه داشته است. همچنین مشاهده شد که هرچه مقدار ضریب پیچش از مقدار پیش فرض ۱ فاصله بیشتری داشته باشد، بکارگیری نرمال سازی اثر طول مسیرصوتی بهبود بیشتری را به دنبال خواهد داشت چون مقدار پیچش ۱ معادل عدم اعمال پیچش است.