سال انتشار: ۱۳۹۲
محل انتشار: اولین همایش ملی کاربرد سیستم های هوشمند (محاسبات نرم) در علوم و صنایع
تعداد صفحات: ۸
نویسنده(ها):
محسن زمانی – دانشجوی کارشناسی ارشد علوم و تحقیقات بوشهر
روح الله دیانت – عضو هیئت علمی دانشگاه قم
مهدی صادق زاده – عضو هیئت علمی دانشگاه آزاد اسلامی واحد ماهشهر

چکیده:
دسته بندی موضوعی، محتمل ترین موضوعی که محتوای متن بدان اشاره دارد را مشخص می کند. برای نیل به این هدف، در مقاله حاضر با استفاده از روش آنالیز معنایی پنهان احتمالاتی که بر پایه روش آنالیز معنایی پنهان پایه گذاری شده است و از مبانی احتمالات و قوانین بیزین استفاده می کند، برای عملیات دسته بندی متون فارسی که از پایگاه داده همشهری تهیه شده است و با استفاده از روش فاصله یابی اقلیدسی در فضای ماتریس های کاهش بعد یافته دست آمده از روش فوق بهره گرفته شده است. همچنین از روش TF-IDF جهت تهیه کلمات کلیدی موجود در مجموعه متون مورد استفاده ، به کار گرفته شده است. در مرحله هرس، علاوه بر کلمات دستوری مانند حروف اضافه و ربط، کلمات کلیدی زاید نیز به صورت دستی حذف می شوند. پس از مشخص شدن کلمات کلیدی تمام متون پیمایش شده و برای هر متن یک بردار تهیه شده و ماتریس ورودی مربوط به روش آنالیز معنایی پنهان احتمالاتی فراهم می آید. پس از اعمال روش بر روی داده های آموزش و داده های آزمون ، بردارهای حاصل را با بردار های مرحله آموزش مقایسه کرده، برداری که کمترین فاصله را با بردار متن مرحله آموزش دارد، بر چسب دسته مربوط به متن را مشخص یم نماید. نتایج حاصل شده در این مقاله نشان میدهد که روش بکار رفته در بهبود عملکرد سیستم نقش موثری دارد.