سال انتشار: ۱۳۸۶

محل انتشار: سومین کنفرانس بین المللی فناوری اطلاعات و دانش

تعداد صفحات: ۸

نویسنده(ها):

محمد رحیمی – دانشکده مهندسی کامپیوتر دانشگاه صنعتی امیرکبیر
حسن ابوالحسنی – دانشکده مهندسی کامپیوتر دانشگاه صنعتی شریف
مرتضی حقیرچهرقانی – دانشکده مهندسی کامپیوتر دانشگاه صنعتی شریف

چکیده:

یکی از مسائل بسیار با اهمیت مطرح در خوشه بندی داده ها، محاسبه ی میزان فاصله ی میان اشیاء (عدم شباهت ) است که می تواند دارایهزینه های پردازشی و ورودی / خروجی بسیار زیادی باشد. در این مقاله روشی برای کاهش این هزینه ها در خوشه بندی مبتنی بر چگالی پیشنهاد شده که بر پایه ی ذخیره داده ها در ساختاردرختی خاصی استوار است و تاکنون در مورد مستندات وب اعمال نشده است. همچنین با انجام عملیات پیش پردازشی بر روی درخت مستندات، سرعت الگوریتم در حذف نویزها و عملیات خوشه بندی ، بهبود داده شده است. درنهایت مقایسه ای میان این روش با حالت معمول خوشه بندی مبتنی بر چگالی(بدون استفاده از ساختار درختی)، انجام گرفته است که کارایی روش ارائه شده را نشان می دهد.