سال انتشار: ۱۳۸۵

محل انتشار: دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۸

نویسنده(ها):

سیدعباس باقری یزدی – دانشجوی کارشناسی ارشد هوش ماشین و رباتیک، دانشگاه تهران، دانشکده مه
بابک نجاراعرابی – دانشیار دانشگاه تهران، دانشکده مهندسی برق و کامپیوتر، قطب علمی کنتر

چکیده:

این مقاله به توصیف سامانه بازشناسی مقاوممتون چاپی فارسی اختصاص داردکه بر اساس مدل مخفی مارکف بنا شده است. گذشته از مقاومت نسبی در برابر نویزهای متداول،نکته اصلی مورد توجه، مقاومت در برابر تغییر نوع متن و عدم حساسیت در برابر ظهور کلماتی است که به طور معمول در لغت نامه یافت نمی شوند. به علاوه سامانه می تواند در برابر تغییر نوع و اندازه قلم های متداول و نیزکجی متداول صفحات اسکن شده ، مقاومت کند. بدنه اصلی این سامانه با الهام از برخی پژوهش های پیشین (انگلیسی و عربی) پیاده سازی شده است. در عین حال برای بهبود عملکرد سامانه، سه پیشنهاد جدید ارائه شده است. اولین پیشنهادی استفاده از ویژگی های حروف فارسی برای تعریف یک گرامر مناسب است که خطا را بدون هیچهزینه ای به شکل قابل توجه کاهش می دهد. ایده دوم، به شناسایی قلم با استفاده از مدل مخفی مارکف و پیشنهاد سوم به افزایش مقاومت در برابر کجی صفحات اسکن شده اختصاص دارد. بخصوص نتایج حاصل از کاربرد مدل مخفی مارکف در شناسایی قلم قابل توجه است. این در حالی است که ظاهرا پیشتر پژوهشی در زمینه شناسایی قلم های فارسی صورت نگرفته است. بر خلاف بسیار ی از پژوهش های حوزخ زبان فارسی که برای تست کارایی از بانک کلمات (که در عمل وجود خارجی ندارد و استخراج انها خود با خطا همراه است) استفاده کرده اند، ورودی این سامانه صفحات متن است و بنابراین نتایج واقعی تر هستند.نتایج تجربی کاهش چشمگیر خطا به میزان ۴۸ درصد را تایید می کنند.