سال انتشار: ۱۳۸۲

محل انتشار: یازدهمین کنفرانس مهندسی برق

تعداد صفحات: ۱۰

نویسنده(ها):

سعید جلیلی – دانشگاه تربیت مدرس، دانشکده فنی و مهندسی، گروه کامپیوتر
مهدی بیطرفان –

چکیده:

در دسته بندی متون، معمولا از کلمات یک تائی متون بعنوان خصیصه استفاده می شود. در این مقاله تاثیر استفاده از کلما ت دوتائی، روی کارائی الگوریتم های دسته بندی بررسی می شود. نتایج بدست آمده نشان می دهد استفاده از ترکیبات دوتا ئی کلمات در متون، اطلاعات ارزشمندی در رابطه با دسته بندی به مجموعه اطلاعات اولیه اسناد (کلمات یک تائی) اضافه می کند و به این طریق کارائی روش های دسته بندی افزایش می یابد. بنابراین استفاده از روش نمایش اسناد به صورت مجموعه ای از خصیصه های یک تائی و دوتائی می تواند بعنوان روشی مناسب جهت نمایش اسناد در دست هبندی متون استفاده گردد. همچنین با توجه به وجود تعداد بسیار زیاد خصیصه متنی، روش هائی نیز به منظور کاهش تعداد خصیص ه ها و انتخاب خصیصه های مرتبط، پیشنهاد شده است. اکثر روش های انتخاب خصیصه از دو رابطه مثبت و دو رابطه منفی بین خصیصه های سندها و دسته استفاده می کنند که در این مقاله با در نظر گرفتن کلیه روابط مثبت و منفی بین خصیصه های سندها و دسته ها در ضابط ههای انتخاب خصیصه، یکبار کلیه روابط مثبت و منفی را با اثر مثبت و بار دیگ ر روابط مثبت را با اثر مثبت و روابط منفی را با اثر منفی در ضابطه انتخاب خصیصه لحاظ می کند . ضمن ارزیابی های انجام گرفته روی مجموعه های داده ای رویتر و نیگام، ملاحظه می شود که کلیه روابط مثبت و منفی، نقش موثری را در تعیین دسته سندها دارند و همچنین بهتر بودن نتایج ضابطه دوم، نشان دهنده تاثیر بیشتر روابط مثبت، نسبت به روابط منفی م یباشد