سال انتشار: ۱۳۸۶

محل انتشار: اولین کنفرانس داده کاوی ایران

تعداد صفحات: ۸

نویسنده(ها):

بهروز مینایی بیدگلی – استادیار دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر
احمد اکبری – دانشیار دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر
مهدی محسنی – رشته مهندسی کامپیوتر ، دانشگاه علم و صنعت ایران

چکیده:

هم نویسه ها کلمات با ساختار نوشتاری یکسان و تلفظ متفاوت در زبان های مختلف یکی از مهم ترین لایه های ابهام را در متن کاوی ایجاد می کنند . بارزترین کاربرد بازشناسی هم نویسه ها از یکدیگر در سیستم های تبدیل متن به گفتار است . اگرچه تعداد کلمات هم نویسه نسبت به کل کلمات موجود و مورد استفاده در یک زبان بسیار کم است ولی تلفظ ناصحیح هم نویسه ها به جای یکدیگر موجب ابهام زیادی در درک متن می گردد . سیستم های تبدیل متن به گفتار در زبان های مختلف از این مشکل رنج میبرند، ولی در برخی از زبان ها مانند انگلیسی تعداد هم نویسه ها اندک، و مشکلی که ایجاد می کنند نسبتا حاد نیست ولی در برخی از زبان ها مانند زبان فارسی به دلیل ساختار خاص آن، تعداد هم نویسه ها نسبتا زیاد است و مشکلی که ایجاد می کنند قابل اغماض نیست . تعداد زیادی از هم نویسه ها از ساختار زبان ناشی می شوند به عبارت دیگر هم نویسه ها در هر زبان به آن زبان خاص وابسته اند . با این اوصاف می توان دریافت بازشناسی هم نویسه ها نیز تا حدود زیادی وابسته به زبان خواهد بود . در زبان های دیگر روش های متن کاوی زیادی برای ابهام زدایی از هم نویسه ها تجربه شده است ولی تلاشی در این زمینه برای زبان فارسی انجام نشده است .
در این مقاله به مبحث بازشناسی هم نویسه های غیر تکیه ای در زبان فارسی می پردازیم . ابتدا مشکلات موجود در بازشناسی خودکار هم نویسه ها را در زبان فارسی بررسی می کنیم و سپس روشی مبتنی بر لیست های تصمیم گیری حاصل از پیشامد های مدل های زبانی هم جواری ) ) n-gram و مدل های زبانی باهم آیی را برای بازشناسی خودکار هم نویسه ها در زبان فارسی به کار می بریم و با ارزیابی نتایج حاصل از این روش کارایی روش را بررسی خواهیم کرد . چون تاکنون مبحث بازشناسی خودکار هم نویسه در زبان فارسی مورد توجه نبوده و فعالیتی در این حوزه انجام نشده است، فعالیت اخیر می تواند راهگشای انجام این امر و به تبع آن بهبود دقت سیستم های تبدیل متن به گفتار فارسی باشد