سال انتشار: ۱۳۸۷

محل انتشار: دومین کنگره مشترک سیستم های فازی و سیستم های هوشمند

تعداد صفحات: ۴

نویسنده(ها):

محسن مشکی – دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران
مرتضی آنالویی –

چکیده:

در این مقاله، یک روش آماری مبتنی بر پیکره برای شناسایی واژههای به هم چسبیده معرفی شد. این روش، با استفاده از معیاراحتمال شرطی متقارن تعیین میکند که آیا یک عنصر متنی، یک واژهی کامل است یا مجموعهای از واژههای به هم چسبیده است. روشپیشنهادی روی یک مجموعهی ۱۸۰۰۰ تایی از اخبار ورزشی مورد آزمایش قرار گرفت و نتایج قابل قبولی را نشان داد. به ازای هر دوآستانهی ۰,۰۰۱ و ۰,۰۰۰۱ تعداد نمونههایی که به درستی از هم جدا شدند به کل نمونههای جداشده نسبت قابل قبولی (بیش از ۸۰ درصد در مورد نمونههای جداشده به دو بخش) را نشان داد.