سال انتشار: ۱۳۸۶

محل انتشار: سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۶

نویسنده(ها):

مسعود فیض بخش – دانشگاه صنعتی شریف
رضا صدرائی – دانشگاه صنعتی شریف
غلامرضا قاسم ثانی – دانشگاه صنعتی شریف

چکیده:

در این مقاله، روشی جدید برای تجزیهی بیمربی کلمات زبان فارسی به واژهای سازنده، پیشنهاد میشود. در تئوری ریختشناسی زبان، به کوچکترین اجزای یک کلمه که هنوز دارای معنی باشند، واژ
گفته میشود. در نظر گرفتن واژ به عنوان واحد حاوی اطلاعات، الگوریتمهای پردازش زبان طبیعی را قادر میسازد تا اطلاعات آماری کاملتری از دادههای آموزشی به دست آورند. تاکنون تحقیقات بسیار کمی در زمینه تجزیهی خودکار و بیمربی کلمات زبان فارسی به واژها انجام گرفته و نتایج به دست آمده چندان مطلوب نیست. روش پیشنهادی دراین مقاله دارای دو مرحله است. در هرکدام از مراحل روی خاصیت مشخصی از مفهوم واژ تأکید شده است. در مرحلهی اول، تعدادی از زیررشتهها با استفاده از ساختمان دادهی ترای و معیار توان پیشبینی، برای برگزیده شدن به عنوان واژ، کاندید میشوند. در مرحلهی دوم، از بین زیررشتههای کاندید شده با استفاده از ساختمان دادهی گراف جهتدار بدون دور، زیر رشتههایی که میتوان آنها را در تعداد بیشتری کلمه مشاهده کرد، به عنوان واژ انتخاب میشوند. نتایج عملی نشان میدهد که الگوریتم پیشنهادی، معیارهای دقت و پوشش را حدود ۲۰ % نسبت به تنها روش پیشین بکار رفته برای زبان فارسی، بهبود میدهد.