سال انتشار: ۱۳۸۶

محل انتشار: سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۸

نویسنده(ها):

شهریار عیسی پور – دانشجوی کارشناسی ارشد آزمایشگاه سیستم های هوش صوتی – گفتاری، دانشگاه م
محمدمهدی همایون پور – عضو هیات علمی آزمایشگاه سیستم های هوش صوتی – گفتاری، دانشگاه مهندسی کا
محمود بی جن خان – عضو هیات علمی دانشکده ادبیات و علوم انسانی، دانشگاه تهران

چکیده:

در این مقاله به ارائه روشی برای شناسایی کسره اضافه در متون فارسی، با استفاده از گرامر مستقل ازمتن احتمالاتی و آمار کلمات، همراه با آنالیز لغوی پرداخته می شود. پس از تبیین اهمیت مسئله با ارائه چند جمله نمونه و توضیح نظریات زبانشناسی پیرامون حوضه اضافه و بررسی این حوضه از نظر تلحیل نحوی و قواعد دستوری زبان فارسی، به بیان روش پیشنهادی و ارائه نتایج حاصل از تست آن با استفاد ه از ۱۰۰۰ جمله معیار پرداخته ایم. در روش بکار رفته، ابتدا با توجه به قوانین گرامری زبان فارسی و خصوصیات کسره اضافه که از بررسی نتایج بدست امده توسط زبانشناسان در رابطه با حوزه اضافه حاصل گردیده، سعی شده است تا با تولید بانک درختی ازگروه های اسمی در زبان فارسی و آموزش گرامر مستقل از متن احتمالاتی با استفاده از این بانک درخت، و همچنین پارسر پایین به بالا، کلیه گروه های اسمی جملات ورودی استخراج شده و گروه های با احتمال بالاتر انتخاب شوند. سپس با استفاده از آنالیز لغوی کلماتو استفاده از احتمال کسره دار بودن هر کلمه و همچنین استفاده از گروه های اسمی انتخاب شده در فاز قبل و کمک گرفتن ازکلمات قبل و بعد کلمه مورد نظر و با استفاده از دو درخت تصمیم، کسره دار بودن یا نبودن هر کلمه موجود درجمله ورودی مشخص می گردد، کارایی بدست امده بر اساس ضریب کاپا برابر ۰/۷۴ است که بهتر از نتایج بدست امده در تحقیقات قبلی در این زمینه می باشد، ضمن اینکه مجموعه تست مورد استفاده با داشتن ۱۰۰۰ جمله نسبت به مجموعه تست تحقیقات قبلی دارای تعداد جملات و تنوع بیشتر موضوعات می باشد.