سال انتشار: ۱۳۸۷

محل انتشار: دومین کنفرانس داده کاوی ایران

تعداد صفحات: ۶

نویسنده(ها):

محمد حمزه ئی – دانشجوی کارشناسی ارشد، دانشگاه علم و صنعت ایران
مجتبی اکبرزاده – دانشجوی کارشناسی ارشد، دانشگاه علم و صنعت ایران

چکیده:

اخیراً مشکل نامتوازن بودن کلاسها مورد توجه محققان در زمینهی دادهکاوی قرار گرفته است. در موارد متعددی کلاسی که از نقطه نظر دامنهی کاربردی اهمیت زیادی دارد(کلاس اصلی) شامل تعداد حالات کمتری نسبت به کلاسی است که کلاس اکثریت میباشد. این مجموعهی دادهها نامتوازن نامیده میشود. رویکرد سنتی دادهکاوی توانایی خوبی برای پیشبینی نمونههای اقلیت که مورد توجه است ندارند. متأسفانه در اکثر موارد دادههای واقعی دارای این خصوصیت هستند. به عنوان مثال در تشخیص بیماریهای نادر، حملات شبکه، متنکاوی و … معمولاً توزیع دادهها نامتوازن می باشد . در این مقاله روشی بر مبنای خوشهبندی دادهها برای کلاسبندی دادههای نامتوازن پیشنهاد شده است . در روش پیشنهادی با استفاده از خوشه بندی، خوشه هایی از داده ها ایجاد میشود. سپس این خوشه ها مجدداً توصیف میشوند و کلاس بندی بر مبنای این خوشه ها انجام میشود. در این مقاله نشان دادیم که با استفاده از این روش بر روی مجموعه های مختلفی از داده های نامتوازن معیارهای مورد نظر به اندازهای قابل توجه بهبود یافته است.