سال انتشار: ۱۳۸۷

محل انتشار: دومین کنفرانس داده کاوی ایران

تعداد صفحات: ۷

نویسنده(ها):

مسلم محمدی –
بهروز مینایی بیدگلی –
مرتضی آنالویی –

چکیده:

در این مقاله رده بندی اسناد و متون فارسی با استفاده از شبکه عصبی CC4 پیشنهاد شده است. CC4 یک نوع از الگوریتم یادگیری رده بندی کناره ای برای شبکه های سه لایه رو به جلو می باشد. از مهمترین مزایای استفاده از این شبکه ها می توان به غیرتکراری بودن این نوع شبکه در مرحله آموزش اشاره کرد. افزایشی بودن مرحله آموزش مزیت دیگری است که استفاده از این شبکه را برای رده بندی اسناد حجیم فارسی مناسب می کند. در واقع اضافه نمودن داده های آموزشی جدید به شبکه CC4 بهسادگی امکان پذیر است. همچنین، اگر مقیاس بین فایل های متنی نزدیک به هم باشد، شبکه عصبی CC4 نتایج رده بندی بهتری را ارائه می دهد. در این مقاله ابتدا پیش پردازش های ریشه یابی کلمات و حذف کلمات عمومی ۱ انجام می گیرد. سپس ویژگی های آماری برای کلمات مختلف محاسبه شده و از یک روش مبتنی بر فراوانی کلمات برای نمایه گذاری اسناد استفاده می شود که اسناد با انداره های متفاوت را به یک فضای K بعدی با اندازه ثابت نگاشت می کند. با اعمال استخراج ویژگی های مناسب و تغییراتی که در این الگوریتم اعمال کرده ایم، توانسته ایم دقت این رد ه بند را روی متون فارسی بهبود دهیم. برای آزمایش این روش از مجموعه اخبار خبرگزاری ایسنا استفاده شده است. این پیکره شامل تعداد ۹۰۰۰ سند فارسی می باشد. رده های موجود در این پیکره شامل سیاسی، اجتماعی، فرهنگی و ورزشی است. با به کارگیری روش پیشنهادی ، اسناد پیکره با دقت حدود ۹۰ % رده بندی شدند