سال انتشار: ۱۳۸۸

محل انتشار: پانزدهمین کنفرانس بین المللی سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۴

نویسنده(ها):

سیدمجید غفوری – دانشگاه آزاد اسلامی واحد مشهد دانشکده مهندسی گروه هوش مصنوعی
سعید راحتی – دانشگاه آزاد اسلامی واحد مشهد دانشکده مهندسی گروه هوش مصنوعی
محمدرضا پهلوان نژآد – دانشگاه فردوسی مشهددانشکده ادبیات و علوم انسانى گروه زبان شناسی
علی عظیمی زاده – دانشگاه آزاد اسلامی واحد مشهددانشکده مهندسی گروه برق

چکیده:

افزایش کاربردهای زبان فارسی در سامانه های رایانه ای موجب بروز چالشهای جدیدی در حوزهی پردازش متون شده است. یکی از این چالشها مشکل تشخیص صحیح کلمات و بهخصوص کلماتچندقسمتی و مرکب است. اکثر کاربران به فاصله گذاریها توجه نمیکنند و همچنین قواعد دقیقی در نوشتن کلمات چندقسمتی، وجود ندارد که باعث بروز مشکلات متعدد نشانه گذاری (Tokenizing) می شوند. در این مقاله، روشی برای اصلاح نشانه های (Tokens) فارسی ارائه شده است. متون فارسی جهت استفاده در هر سیستم باید دارای کلمات مشخص و مجزا باشند. در روش پیشنهادی برای نشانه گذاری، مشکل تصریفی ها و مرکبها حل میشود و هر کلمه مرکب یا چندقسمتی یک نشانه است. این روش با تهیه ی لغتنامه های مربوط به کلمات مرکب و برخی استثنائات، متون دارای دستورالعملهای متفاوت نوشتاری را به نشانه هایی منطبق بر استاندارد مینگارد. نتایج نهایی، عملکرد بسیار خوب این روش را به صورت مجزا و به عنوان پیش پردازش سایر فعالیتها، بالای ۹۹ % و بسیار موثر نشان میدهند.