سال انتشار: ۱۳۸۶

محل انتشار: سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۴

نویسنده(ها):

محمداحسان بصیری – گروه کامپیوتر دانشگاه اصفهان
شهلا نعمتی – دانشکده برق و کامپیوتر دانشگاه صنعتی اصفهان
ناصر قاسم آقایی – گروه کامپیوتر دانشگاه اصفهان

چکیده:

در این مقاله به بررسی دستهبندی متن فارسی با استفاده از الگوریتمهایfkNN و kNNخواهیم پرداخت. آزمایشها بر رویششصد سند متنی که به شش دسته تقسیم میشوند، انجام شدهاند.
هدف اساسی این بررسی، مقایسه دو الگوریتم مذکور برای دستهبندیمتن فارسی و ترکیب آنها با روشهای انتخاب ویژگی بهره اطلاعات IG و فرکانس سندDF است. از این دو روش برای انتخاب ویژگیها وکاستن از ابعاد فضای ویژگیها استفاده شده است. نتایج نشان میدهند که دقت الگوریتمfkNN از الگوریتم kNN بهتر است. همچنین دقت دستهبندی با استفاده از ترکیبIG و fkNNاز سایر ترکیبها بیشتر میباشد. دقت دسته بندی در بهترین حالت به ۰/۸۰۴دقت میکرو- ۱F و ۰/۷۵۵دقت ماکرو- F1رسید . همچنین میتوان نتیجه گرفت کهIG بیشتر از DF دقت را بالا میبرد . در بین
دستههای موجود بهترین دستهبندی در مورد بزرگترین دسته یعنی اسناد مربوط به دسته اقتصادی انجام گرفت. دقت دستهبندی برای این