سال انتشار: ۱۳۸۵

محل انتشار: چهارمین کنفرانس ماشین بینایی و پردازش تصویر

تعداد صفحات: ۸

نویسنده(ها):

سیدعباس باقری یزدی – دانشگاه تهران, دانشکده مهندسی برق و کامپیوتر قطب علمی کنترل و پردازش
بابک نجاراعرابی – دانشگاه تهران, دانشکده مهندسی برق و کامپیوتر قطب علمی کنترل و پردازش

چکیده:

این مقاله به توصیف سامانه شناسایی متون چاپی فارسی اختصاص دارد که با هدف دست یابی به دقت بالا طراحی و پیاده سازی شده است . بدنه اصلی سامانه با الهام از برخی پژوهش های پیشینر حوزه شناسایی متون (انگلیسی و عربی) و مبتنی بر مدل مخفی مارکف ۱ ایجاد شده که به نوع کاربرد آن در شناسایی گفتار پیوسته بسیار نزدیک است . با این حال برای افزایش دقت سامانه , بسته به نوع خطا , دو پیشنهاد جدید ارائه شده است . علاوه بر استفاده از یک گرامر مناسب منتج از ویژگی های حروف فار سی برای کاهش خطای جایگزینی, طرحی برای مشارکت ماشین بردار پشتیبان ۲ در حذف خطاهای حذف و درج ارائه شده که علیرغم کاهش سرعت شناسایی , این نوع از خطا را به صورت چشمگیر کاهش میدهد. این نکته بخصوص از آن جهت اهمیت دارد که خطاهای درج و حذف (نسبت به خطای جایگزینی م تداول در این سامانه که عمدتا به اشتباه در تشخیص تعداد نقاط مربوط است), باعث کاهش بیشتر خوانایی متن به دست آمده شده و بنابراین نامطلوب ترند. عملکرد ماشین بردار پشتیبان , بر اساس ارزیابی ۳ نتایج دو سامانه مبتنی بر مدل مخفی مارکف با همبستگی کم در محل وقوع خطا , استوار است . به این منظور از برنامه ریزی پویا ۴ برای ترازبندی ۵ جواب های دو سامانه استفاده شده و با استفاده از آن, به ازای هر کلمه , جواب یکی از سامانه ها توسط ماشین بردار پشتیبان انتخاب شده است . همچنین از برنامه ریزی پویا برای برچسب گذاری داده های آموزش برای این مرحله استفاده شده است . نوع استخراج ویژگیها به گونه ای است که علیرغم تعریف آنها در سطح کلمه, باعث وابستگی سامانه به تعداد محدودی کلمه نشده و همچنان مقاومت سامانه نسبت به تغییر نوع متن و ظهور کلمات خارج از لغتنامه, محفوظ میماند.