سال انتشار: ۱۳۸۶

محل انتشار: چهاردهمین کنفرانس مهندسی پزشکی ایران

تعداد صفحات: ۸

نویسنده(ها):

یاسر شکفته – آزمایشگاه پردازش گفتار، دانشکده مهندسی پزشکی، دانشگاه صنعتی امیرکبیر
فرشاد الماس گنج –
ایوب دلیری –

چکیده:

یکی از روش های مقاوم سازی بازشناسی گفتار نسبت به انواع نویز، استفاده از الگوهای زمانی موجود در ویژگی های استخراج شده می باشد. با الهام گرفتن از سیستم شنوایی انسان، می توان با استفاده از الگوهای زمانی به دست آمده از ویژگی های هر زیرباند و همچنین ترکیب غیرخطی این اطلاعات با استفاده از یک مدل چندباند، به بازشناسی مقاو متری در شرایط نویزی دست یافت. در این مقاله به بررسی انواع روش استخراج ویژگی های در برگیرنده الگوهای زمانی، با نگاه پردازش چندبانده می پردازیم و نشان می دهیم که چگونه این رویکرد می تواند باعث بهبود بازشناسی در شرایط نویزی گردد. نتایج به دست آمده در این تحقیق نشان می دهد که مدل چندباند تمام ترکیب "HATS"، با استفاده از روش ترکیب احتمال، باعث بهبود نتایج بازشناسی برای ویژگی های LHCB تخریب شده با نویز باند محدود می شود. از طرفی دیگر، برای بهبود بازشناسی ویژگی های تخریب شده با نویز باند پهن، استفاده از روش چندباند "TMLP" با روش ترکیب ویژگی، نتایج بهتری به همراه خواهد داشت. همچنین با بررسی و تحلیل رفتار مد لهای چندباند با ویژگی های MFCC، نشان می دهیم چگونه استفاده از این ویژگی ها که معادل با استفاده از تعداد باند کمتری است، منجر به بهبود بازشناسی تا ۳۰,۷ % در شرایط نویز شدید، نسبت به استفاده از ویژگی های LHCB می گردد.