سال انتشار: ۱۳۸۵

محل انتشار: چهارمین کنفرانس ماشین بینایی و پردازش تصویر

تعداد صفحات: ۸

نویسنده(ها):

محمدجواد فدایی اسلام – دانشگاه علم و صنعت ایران
ناصر مزینی – دانشگاه علم و صنعت ایران

چکیده:

در زبان فارسی اتصال حروف به هم باعث میشود که کلمات به شکل دنبالهای از حروف درآیند. بنابراین استفاده از روشی که بتواند دنباله زیرحروف فارسی را شناسایی کند میتواند منجر به بازشناسی بهتر کلمات فارسی شود. در این مقاله، از شبکه عصبی با انتشار هدایتیافته برای شناسایی دنبالهها استفاده شده است. زیرکلمات بدون نقطه، با استفاده از روشی به زیرحروف شکسته میشوند. هریرحرف با زیرحرفهای به دست آمده از فونت لوتوس مقایسه شده و میزان شباهت آن با استفاده از معیار فاصله اقلیدسی و ویژگی گشتاور مرکزی نرمالشده سنجیده میشود. سپس این مقادیر برای شناخت دنباله زیرحروف به شبکه داده می شود. شبکه با انتشار هدایت یافته با استفاده از این دادهها و همچنین اطلاعات آماری که از ساختار زیرکلمات فارسی و تعداد تکرار آنها دارد به شناسایی دنباله میپردازد. این شبکه یک ساختار درختی دارد و به صورت بدون ناظر عمل میکند و برای هر زیرکلمه ممکن است چندین پیشنهاد با درجه شباهت گوناگون ارایه کند. پایگاه داده، زیرکلمات متداول روزنامههای فارسی بودند که در معرض نوعی از اعوجاج قرار گرفتند. نتایج شناسایی پس از اعمال شبکه در مقایسه با معیار فاصله اقلیدسی بهبود چشمگیری یافت