سال انتشار: ۱۳۸۷

محل انتشار: دومین کنفرانس داده کاوی ایران

تعداد صفحات: ۴

نویسنده(ها):

امیرحسین جدیدی نژاد –
فریبرز محمودی –

چکیده:

بررسی تاثیر برچسبزنی کلمات و تعیین ادات سخن بر کارایی و دقت بازیابی و همچنین حجم نمایه سیست م های بازیابی اطلاعات یکی از مباحث داغ در زمینه پردازش زبانهای طبیعی میباشد. تحقیقات گوناگونی تاکنون در زبان انگلیسی جهت بررسی نقشِ ادات سخن و اهمیت آن در حجمِ نمایه و دقت بازیابی صورت گرفته است. در این نوشتار برآنیم تا با برچسبزنی خودکار اسناد پیکره همشهری، بعنوان بزرگترین پیکره استاندارد فارسی، نقش هر یک از ادات سخن را در حجمِ نمایه و همچنین دقت بازیابی بررسی نماییم. برای این منظور ابتدا پیکره همشهری برچسبگذاری شده و سپس از پیکره برچسبگذاری شده جهت تعیین نقش هر برچسب در بازیابی اسناد و پرسوجوهای فارسی استفاده شده است. نتیجه این تحقیق، زمینهساز بسیاری از پژوهشها در حوزه- ی بازیابی اطلاعات فارسی با رویکرد زبانشناسی خواهد بود