سال انتشار: ۱۳۸۴

محل انتشار: سیزدهیمن کنفرانس مهندسی برق ایران

تعداد صفحات: ۶

نویسنده(ها):

آزاده حاجی حسینی – دانشگاه صنعتی امیرکبیر، دانشکدۀ مهندسی پزشکی پژوهشکده پردازش هوشمن
فرشاد الماس گنج – دانشگاه صنعتی امیرکبیر، دانشکده مهندسی پزشکی پژوهشکده پردازش هوشمن

چکیده:

در سالهای اخیر تلاشهایی در جهت محاسبه معیا رهای اطمینان برای کلمات خروجی سیستم های بازشناسی گفتار انجام شده است . این معیارها می توانند جدا از مدلهای زبانی رایج که در
سیستم های بازشناس به کار می روند، با استفاده از اطلاعا ت زبانیدیگر همانند اطلاعات معنایی به بهبود عملکرد این سیستم هاکمک کنند . در این مقاله از روش« آنالیز معنایی پنهان » یا ۱ LSAبرای استخراج یک معیار اطمینان که گویای میزان » شباهت معنایی « میان کلمات زبان فارسی است ، استفاده می شود . لازمه انجام این کار دسترسی ب ه بیان برداری هر یک از کلمات وا ژگان مورد بررسی می باشد . در این مقاله ۲۰۰۰ متن فارسی برداشته شده از مقالات روزنامه ها، از نظر تعداد تکرار وا ژگان در این متون مورد بررسی قرار گرفته، یک ماتریس بسیار بزرگ و تُنُک ۲ از این تعداد تکرار تهی ه شده است . سپس با استفا ده از تکنیک SVD3 یا » تجزیه به مقادیر تکین « ، یک ماتریس دیگر که شامل بیانهای برداری کلمات وا ژگان می باشد از تجزیه این ماتریس به دست می آید و » میزان شباهت معنایی « که به صورت کسینوس زاویه بین بردارها تعریف شده است، برای همه کلمات محاسبه می گردد ( ماتریسشباهت ). معیار اطمینان مستقیماً با استفاده از این ماتریس استخراج می گردد . برای آ زمایش مفید بودن استفاده از این معیار در بازشناسی گفتار ، از معیار مذکور در سیستم بازشناسی گفتار پیوستۀ فارسی » شنوا « به طور محدود شده استفاده گردید و برای یک مجموعۀ تست ۲۶ جمله ای از جملا ت فارسی، % ۲/۵ کاهش نرخ خطای بازشناسی کلمات به دست آمد .