سال انتشار: ۱۳۸۵

محل انتشار: دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۵

نویسنده(ها):

سعیده ممتازی –
حسین ثامتی –
محمد بحرانی –
نازیلا حافظی –

چکیده:

استفاده از مدل زبانی به صورت n-gram مبتنی بر کلمه در سیستم های بازشناسی گفتار پیوسته بسیار رایج می باشد. به منظور استفاده از این مدل زبانی نیاز به استخراج آن از دادگان متنی غنی می باشد. دادگان های متنی موجود در زبان فارسی آنقدر غنی نیستند که بتوان با کمک آن ها مدل های آماری مبتنی بر کلمات معتبری را استخراج کرد. به همین منظور سعی بر این است که به جای به دست آوردن احتمال دنبا لهم امدن کلمات، احتمال دنبال هم آمدن خوشه هایی که آن کلمات به آن ها متعلق هستند استخراج شود.دراین پژوهش یک ایده فازی برای خوشه بندی کلمات فارسی به منظور ایجاد مدل زبانی مبتنی بر خوشه بررس شده است که دران هر کلمه با درجات عضویت متفاوت به خوشه های مختلف تعلق دارد. الگوریتم خوشه بندی C-mean فازی می باشد. بر همین مبنا پارامترهای مختلفی در این الگوریتم مورد بررسی قرار گرفته و نهایتا بر روی ۲۰۰۰۰ کلمه پر کاربرد از دادگان متنی زبان فارسی اعمال شده است. مدل زبانی حاصل از آن در سیستم بازشناسی گفتار پیوسته مستقل از گوینده فارسی مورد آزمایش قرار گرفته و در نهایت باعث بهبود در دقت بازشناسی گردیده است.