سال انتشار: ۱۳۸۷

محل انتشار: دومین کنفرانس داده کاوی ایران

تعداد صفحات: ۱۵

نویسنده(ها):

حبیب اله عبدالحسین پور فرد –
غلامحسین مزدورانی شیرازی –

چکیده:

صفحات وب با سرعت زیادی در حال گسترش هستند ولی تمام اسناد موجود در وب، از جمله مقالات علمی بصورت منطقی سازماندهی نشده اند. و این مورد باعث شده تا استفاده و بازیابی آنها با مشکل مواجه شود. طبقه بندی موضوعی صفحات وب و به ویژه مقالات علمی دسترسی به اطلاعات را بسیار آسانتر، سریعتر و دقیق تر می سازد. در حال حاضر طبقه بندی موضوعی مقالات فارسی به صورت پراکنده، محدود به صورت دستی و غیر خودکار صورت می گیرد که با توجه به وفور اطلاعات و رشد روزافزون با مشکل مواجه است به خاطر ذات صفحات وب که به صورت نیمه ساخت یافته هستند می توان اطلاعاتی از ساختار صفحات وب استخراج کرد که به روشهای معمول طبقه بندی متون کمک می کند. در این مقاله روشی پیشنهاد شده که الگویی برای تشخیص مقالات فارسی در وب به وسیله ربات خزنده ارائه می دهد و درگام بعدی با کمک وب کاوی ساختار رابطه موضوعی بین صفحات وب کشف و از آن در حدس زدن بهتر موضوع مقاله بهره گرفته می شود.