سال انتشار: ۱۳۸۵

محل انتشار: چهاردهمین کنفرانس مهندسی برق ایران

تعداد صفحات: ۹

نویسنده(ها):

محمد اکبری – دانشکده ریاضی و علوم کامپیوتر، دانشگاه صنعتی امیرکبیر
رضا عرمی – دانشکده فنی و مهندسی، دانشگاه الزهرا

چکیده:

در این مقاله، یک روش برای بازیابی اطلاعات از تصاویر اسناد فارسی بدون استفاده از بازشناسی نوری حروف معرفی کرده ایم. ابتدا برای ریز کلمات سند یک ویژگی به نام برچسب کانتور بالایی استخراج شده سپس بر مبنای این ویژگی یک دیکشنری تصویری برای ریز کلمات ایجاد شده است. به کمک این روش برای دو مسئله مختلف در بازیابی اسناد با استفاده از جستجوی کلمات کلیدی و بازیابی بر اساس شباهت اسناد راه حل ارائه شد. روشهای ارائه شده بر روی یک پایگاه تصاویر اسناد فارسی ارزیابی شد. نتایج بدست آمده توانایی این روش ها در بازیابی اطلاعات از تصاویر اسناد را تایید کرده است.