سال انتشار: ۱۳۸۶

محل انتشار: سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۶

نویسنده(ها):

مسلم محمدی جنقرا – عضو هیئت علمی دانشگاه آزاد اسلامی واحد ملکان
مرتضی آنالویی – استادیار دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران

چکیده:

این مقاله، یک روش آماری ترکیبی، برای استخراج کلمات کلیدی ١ اسناد فارسی، پیشنهاد کرده است. روش پیشنهادی مبتنی بر پیکره متنی ٢ میباشد. ابتدا عمل ریشه یابی و حذف کلمات عم می ٣انجام میگیرد. سپس ویژگی های آماری برای کلمات مختلف محاسبه شده و با استفاده از فازی سازی و اعمال قواعد فازی، کلمات کلیدی محتمل، انتخاب می شوند. گام بعدی محاسبه رخداد ه مزمان ٤ پیشین و پسین کلمات کلیدی محتمل، با کلمات تکرار شونده، ٥ در جملات سند است. با اعمال یک آستانه وفقی ٦ روی رخداد همزمان کلمات، کلمات کلیدی دو کلمهای را مشخص می- کنیم. بر خلاف اکثر روش های آماری که فقط کلمات کلیدی یک کلمهای را استخراج می کنند، استفاده از این روش کلمات کلیدی دو کلمهای نیز استخراج می شوند. استفاده از ترکیب روش فازی و رخداد همزمان کلمات بهبود خوبی را نشان می دهد و کلمات کلیدیبامعنیتری پیشنهاد می کند