سال انتشار: ۱۳۸۶

محل انتشار: سومین کنفرانس بین المللی فناوری اطلاعات و دانش

تعداد صفحات: ۶

نویسنده(ها):

احسان عسگریان – دانشگاه صنعتی شریف
جعفر حبیبی – دانشگاه صنعتی شریف
شهروز معاون – دانشگاه صنعتی شریف
حسین معین زاده – دانشگاه علم و صنعت

چکیده:

امروزه خوشه بندی نقش حیاتی در روشهای بازیابی اطلاعات برای سازمانبندی مجموعه های بزرگ مستندات متنی مانند وب، درون تعداد کمی خوشه معنادار دارد . معمولا در خوشه بندی مستندات متنی با خوشه بندی ابعاد بسیار بالای فضای داده مواجه هستیم که بندی به این شکل، مشکل بنظر می رسد . علاوه بر این، معمولا با استفاده از الگوریتم های خوشه بندی متفاوت، نتایج متفاوتی بدست می آید و مستندات درون خوشه های بدست آمده نیز ارتباط معنایی لازم را با هم ندارند . برای حل این مشکلات ما هسته انجام خوشه آنتولوژی مانند وردنت را به عنوان دانش پس زمینه، درون فرایند خوشه بندی مستندات متنی جایگذاری نمودیم . سپس به صورت تجربی روش جدید را با تکنیکهای خوشه بندی ساده برای مجموعه داده خبرگزاری رویتر مقایسه نمودیم . نتایج بدست آمده از خوشه بندی متن همراه با استفاده از دانش پس زمینه در مقایسه با خوشه بندی متن بدون دانش پس زمینه، بهبود داشته است .