سال انتشار: ۱۳۸۷

محل انتشار: دومین کنفرانس داده کاوی ایران

تعداد صفحات: ۱۱

نویسنده(ها):

سیدمهدی نقیبی –
مرتضی آنالویی –

چکیده:

با گسترش روز افزون حجم متون الکترونیکی، استفاده از روش های دسته بندی اسناد متنی، به یک مسئل هی ضروری تبدیل گشته است. در این مقاله روش های مختلف انتخاب ویژگی جهت کاهش ابعاد بالای فضای ویژگی در مسئل هی دسته بندی اسناد متنی بررسی شده است. این رو شها عبارتند از: بسامد سند، بهره اطلاعات، اطلاعات متقابل، آزمون χ۲ و روش پیشنهادی بسامد سندموضوعی. به این ترتیب مشکل مربوط به استفاده از شبکه های عصبی پرسپترون چند لایه (MLP) برای دسته بندی متون، یعنی ابعاد بالای فضای ویژگی، با استفاده از رو شهای گوناگون حل شده است. بهترین نتایج با استفاده از روش کم هزینه اما موثر بسامد سند موضوعی حاصل شده است. همچنین شبکه های عصبی MLP معمولی و باینری، برای دسته بندی متون مورد آزمایش قرار گرفتهاند. بر مبنای این ایده که برای تعیین دسته ی یک متن می توان از اطلاعات مربوط به عضویت آن در سایر دسته ها استفاده نمود، با استفاده از یک شبکه ی ترکیب کننده ی نتایج، میانگین دقت الگوریتم دسته بندی بهبود یافته است. نتایج نشان می دهد استفاده از شبکه های عصبی MLP باینری به علاوه ی یک شبکه عصبی MLP ترکیب کننده ی نتایج، بالاترین میانگین دقت را دربین روش های مورد بررسی دارد و با کاهش ۹۹ درصدی فضای ویژگی، میانگین دقت ۹۱ درصدی در مسئله دسته بندی متون، حاصل می نماید