سال انتشار: ۱۳۸۴

محل انتشار: یازدهمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۸

نویسنده(ها):

آزاده نعمت زاده – دانشگاه شهید بهشتی
سارا مطیعی – دانشگاه شهید بهشتی
مهرنوش شمس فرد – دانشگاه شهید بهشتی

چکیده:

با گسترش روز افزون شبکه جهانی اینترنت و افزایش حجم اطلاعات ، نیاز به توسعه رو ش هایی برای بازیابی خودکار اسناد و رتبه بندی آنها براساس میزان ارتباط با پرس و جوی کاربر مشهود است . رتبه بندی اسناد یکی از زیر شاخ ههای بازیابی اطلاعات است که در آن پرس و جوی کاربر و اسناد به طو ر جداگانه پردازش و سپس اطلاعات استخراج شده از آنها با هم مورد مقایسه قرار می گیرند و به مرتبط ترین سند رتبه بالاتری تخصیص داده می شود.در این مقاله پس از بررسی اجمالی مدل های رتبه بندی، روشی جدید، مبتنی بر هستان شناسی برای رتبه بندی اسنادHTML پیشنهاد و نت ا یج ارزیابی آن در حالت های مختلف ارائه می گردد. در مدل پیشنهادی به منظور برقراری توازن بین دو معیار سرعت و دقت، از ترکیب تکنیک های مفهومی، آماری و پردازش زبان طبیعی استفاده م ی شود. در این مدل، از پردازش مفهومی مبتنی بر هستا ن شناسی جهت برچسب گذاری اسناد و گس ترش پرس و جو، و از تکنی کهای پردازش زبان طبیعی برای استخراج عبارات سند و پرس و جو و ریشه یابی آنها استفاده می شود. همچنین از روش های آماری برای پردازش سند برچسب خورده و پردازش پرس و جوی گسترش یافته و محاسبه میزان ارتباط میان آنها بهره گرفته می شود برای بخ ش پردازش مفهومی تغییراتی در الگوریتم SA اعمال شده که بر اساس آن عمل گسترش می تواند در جنبه های مختلف و به صورت منعطف صورت پذیرد . در بخش پردازش آماری، روش مورد استفاده مشابه مدل فضای بردار است که به جهت متغیر و منعطف بودن تعداد ابعاد بر روش اولیه برتری دارد . نکته بدیع دیگر این روش استخراج عبارات سند و پرس و جو با استفاده از هستا ن شناسی و رتبه بندی اسنادبر اساس مفاهیم معادل عبارات پرس و جو می باشد