سال انتشار: ۱۳۸۷

محل انتشار: دومین کنفرانس داده کاوی ایران

تعداد صفحات: ۱۸

نویسنده(ها):

محمد خودی زاده نهاری –
محمدکاظم اکبری –

چکیده:

ناهنجاری اطلاعاتی به آن دسته از اطلاعات گفته می شود که بنحو بارزی با بقیه اطلاعات متفاوت باشد. تشخیص ناهنجاریها کاربردهای مختلفی دارد: مانند تشخیص تقلبهای کارتهای اعتباری و پولشویی، تحقیقات پزشکی ، پیش بینی وضع هوا، بازاریابی و تقسیم بندی مشتریان، برای تشخیص ناهنجاریها ابزارهای متفاوتی وجود دارد: از جمله می توان به داده کاوی اشاره کرد که سعی در استخراج دانشهای مفید از میان انبوه اطلاعات دارد. یکی از مهمترین تکنیکهای داده کاوی، خوشه بندی است که مجموع داده ها را به گروه هایی تقسیم می کند بطوریکه عناصر داخل هر گروه بیشترین شباهت را با هم و کمترین شباهت را با سایر اعضای گروههای دیگر داشته باشند. خوشه های با چگالی کم و فاصله زیاد از بقیه ناهنجاری محسوب می شوند. حجم زیاد و توزیع شدگی اطلاعات از جمله مسائلی هستند که همواره مشکلاتی برای الگوریتم های تشخیص ناهنجاری ایجاد می کنند. در این مقاله ابتدا یک الگوریتم خوشه بندی موازی بنام «K-window» موازی را معرفی کرده و سپس آن را بمنظور مقابله با حجم زیاد و توزیع شدگی اطلاعات و در جهت تشخیص ناهنجاریها بهبود می دهیم. برای این منظور گره های پردازشگر را در یک ساختار سلسله مراتبی سازماندهی می کنیم تا ترافیک اطلاعاتی را کنترل کنیم. از آنجایی که هدف تشخیص داده های غیر طبیعی است. داده های طبیعی را در هر مرحله تشخیص داده و حذف می کنیم تا ترافیک اطلاعاتی را کاهش دهیم از طرف دیگر انتخاب هوشمندانه پنجره های اولیه و نیز تشخیص خوشه هایی با اشکال نامنظم توان الگوریتم را بالا برده است. با استفاده از یک مکانیزم جدید از همپوشانی بیش از حد خوشه ها جلوگیری می کنیم و با ادغام خوشه ها اساس نزدیکی مرز خوشه ها با همدیگر، سرعت مرحله ادغام را نیز بالا برده ایم. نتایج آزمایشات مانشان میدهد که کلیه تغییر ات انجام یافته در الگوریتم پایه، باعث بالارفتن کارایی گشته است بطوریکه با حذف آنها نتایج بسیار ضعیفی حاصل می شود.