سال انتشار: ۱۳۸۵

محل انتشار: دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۷

نویسنده(ها):

طاهره امامی آزادی – دانشجوی کارشناسی ارشد مهندسی پزشکی، بیوالکتریک– دانشگاه صنعتی امیرکبیر
فرشاد الماس گنج – استادیار دانشکده مهندسی پزشکی – دانشگاه صنعتی امیرکبیر

چکیده:

با توجه به رشد روزافزون حجم متون و لزوم دستیابی مناسب و استخراج اطلاعات از آنها، دسته بندی بدون سرپرست متون اهمیت زیادی پیدا کرده است. روش« آنالیز معنایی پنهان احتمالاتی »(PLSA) یکی از روشهایی است که در سالهای اخیر در دستهبندی ،متون مورد توجه قرار گرفته است. روشPLSA که بر پایة « آنالیز معنایی پنهان » یا (LSA) است، دارای زیربنای آماری محکمی بوده و در زمینههای مختلف کار با متون عملکرد بسیار خوبی داشته است. در این مقاله روشPLSA به منظور بیان مناسب متون در فضای کاهش بعد یافتة معنایی و نیز دسته بندی متون مورد استفاده قرار گرفت و روشی برای بهبود مدل PLSA با حذف متغیرهای پنهان نامناسب در حین تعلیم پیشنهاد شد. آزمایشات بر روی تعدادی متن فارسی شامل ۶ موضوع کلی و دارای برچسب موضوعی که از پیرة متنی« فار سدات » انتخاب شده بودند، صورت گرفت. با استفاده از روشPLSA به همراه الگوریتم سادهk-means به ۸۷,۲۳ % بیشتر از روش۶,۰۹ %صحت دستهبندی دست یافتیم که LSA در کنار مدلk-meansبود. همچنین توانستیم با استفاده از روشPLSAبهبود یافتة پیشنهادی صحت دستهبندی را نسبت به روش PLSA ، ۳,۷۵ % افزایش دهیم.