سال انتشار: ۱۳۸۷

محل انتشار: دومین کنفرانس داده کاوی ایران

تعداد صفحات: ۱۴

نویسنده(ها):

Zahra Taghikhaki – Iran University of Science and Technology (IUST), IUST, Sharif University of Technology
Behrouz Minaei – Iran University of Science and Technology (IUST), IUST, Sharif University of Technology
Alireza Masoum – Iran University of Science and Technology (IUST), IUST, Sharif University of Technology

چکیده:

خوشهبندی یک روش دسته بندی کردن داده براساس شباهت میباشد. الگوریتم خوشه بندی K-means نسبت به نویز بسیار حساس است زیرا که میزان تاثیر نویز و دادههای واقعی، یکسان میباشد و این امر برروی محاسبات خوشه ها و مراکز آن ها تاثیرگذاراست و دقت آن ها را کاهش میدهد، در نتیجه این الگوریتم در محیطهایی که مستعد نویز هستند غیرقابل اعمال بوده و در صورت اعمال، نتایج آن قابل اعتماد نیست. از طرفی K-means بسیار ساده و دارای سرعت بالایی م یباشد . روش پیشنهاد ی ما از ای ن الگوریتم در محیطهایی که مستعد تولید مقدار قابل توجهی نویز و برون هشت ۱ است استفاده کرده و با دقت بالایی عمل خوشه بندی را انجام دهد. با استفاده از یک الگوریتم K-means وزنگذاری شده چندسطحی که این وزن، می زان اعتبار و خوش نام ی منبع تولیدکننده آن داده است، اثر نویز را کم و در برخی موارد این اثر را کامل حذف می نماید. این الگوریتم با معرفی دو سطح که توسط دو حدآستانه جداگانه مشخص میشود میزان تاثیر دادههای معتبر را هم متفاوت می کند. الگوریتم پیشنهادی، اولین الگوریتم بهبود یافته K-means میباشد که با در نظر گرفتن میزان شهرت و خوشنامی منبع تولیدکننده داده به عنوان یک معیار اعتماد و درست ی داده، عمل می کند و در نتیجه دادههای نویزدار و غیرقابل اعتماد را از همان ابتدا وارد محاسبات الگو ر یتم نم ی کند بنابر این در
مواقعی که میزان نویز در داده زیاد میباشد با توجه به این که منبع تولیدکننده نویزها از همان ابتدا جریمه شده و کنار گذاشته می-
شوند به میزان قابل توجهی از سربارهای محاسباتی الگوریتم کاسته شده و در نهایت در افزایش سرعت الگوریتم تاثیرگذار اس ت .
حال آن که در الگوریتم های دیگر، داده وارد محاسبات شده بعد برون هشتها کنار گذاشته میشود. محیط نویزداری که در این مقاله
از دادههای آن استفاده کرده ایم یک شبکه حس گر بی سیم بوده که میزان دما و فشار محیط را گزارش میکند. نتایج شبی ه سازی
صحت و دقت بالای روش پیشنهادی را نمایش م یدهد