سال انتشار: ۱۳۸۲

محل انتشار: اولین کنفرانس بین المللی فناوری اطلاعات و دانش

تعداد صفحات: ۱۱

نویسنده(ها):

محمد مهدی همایون پور – استادیار دانشکده مهندسی کامپیوتر و فناوری اطلاعات
ابراهیم شریف نبوی – کارشناس ارشد مهندسی کامپیوتر

چکیده:

بیشتر تشخیص دهنده های گفتار از سکوت، از انرژی سیگنال استفاده می نمایند. چگونگی استفاده از معیار انرژی و ترکیب آن با معیارهای دیگر مانند نرخ عبور از صفر و یا انتروپی، الگوریتم های متفاوتی را پدید می آورد. الگوریتمهای دیگری نیز وجود دارند که از اطلاعات و ویژگیهائی مانند اطلاعات طیف فوریه و یا ضرائب کپسترال و مانند آن استفاده می نمایند. این الگوریتمها معمولا از جهت میزان کارائی در شرایط مختلف مانند میزان نسبت سیگنال به نویز، نوع نویز، تلفنی بودن یا نبودن و پهنای باند سیگنال، عملکرد و کارائی های متفاوت دارند. همچنین این الگوریتمها از جهت سرعت اجرا و بلادرنگ بودن و امکان استفاده بصورت برخط متفاوت هستند. اغلب این الگوریتم ها با داشتن پارامترهای سطح آستانه متعدد بر اساس هر پایگاه داده گفتاری نیاز به تنظیم و تغییر دارند تا نتیجه مطلوب حاصل آید. در این مقاله بعضی از این الگوریتم ها پیاده سازی و اصلاحاتی برای بهبود عملکرد آنها صورت داده ایم. ارزیابی های صورت گرفته گویای آن است که روش مبتنی بر ضرائب کپسترال، با و بدون اعمال فیلتر میانه و در بین روشهایی که از انرژی استفاده می نمایند روش ساده مبتنی بر انرژی از کارائی بهتری برخوردار می باشند. این مقاله به مقایسه روشهای پیاده سازی شده از جنبه های مختلف می پردازد.