سال انتشار: ۱۳۸۶

محل انتشار: سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۵

نویسنده(ها):

مهدی فارسی عباس آبادی – کارشناس ارشد،گروه مهندسی کامپیوتر دانشگاه آزاد اسلامی واحد تهران جن
نصرا… مقدم چرکری – استادیار،گروه مهندسی کامپیوتر دانشگاه تربیت مدرس،تهران،ایران

چکیده:

تبدیل اسناد کاغذی به صورت نسخه الکترونیکی برا یذخیره سازی، بازیابی و جستجو بر اساس محتوی مسأله مهمی به شمار می رود،از طرف دیگر در سال های اخیر جهان با رشد فزاینده ای به سمت انتقال و ذخیره سازی اسناد به صورت دیجیتالی درحال پیشروی است.در این مقاله ما به آنالیز نواحی متنی از غیر متنی در سند می پردازیم.برای رسیدن به این مقصود، ابتدا سند قطعه بندی می شود،زیرا قطعه بند ی مرحله مهمی در آنالیز و تشخیص نوع نواحی(متن/تصویر)در سند است، سپس شناسایی مناطق متنی و تصویری توسط طبقه بندها انجام می گیرد،در این راستا برای شناسایی نوع قطعات از ویژگ ی ها ی بافت تصویر استفاده می شود.بدلیل اینکه ابعاد استفاده شده برا ی شناسا ییقطعات توسط طبقه بندها (شبکه عصبی وSVM ) زیاد می باشد،ازالگوریتم های تکاملی مانند ژنتیک برای کاهش ابعاد استفاده می کنیم. آزمایشات بر روی ۹۷۷ سند که از اینترنت گرفته شده است انجام شده است .اسناد مورد آزما یش از زبان های مختلف شاملارسی،انگلیسی،چینی،ژاپنی و یونانی انتخاب شده و در ۹ دسته طبقه بندی شده است.نتایج آزمایشات نشان می دهد که با روش ارا ئه شده قطعات متنی داخل تصاویر یا چسبیده به تصاویر بهتر از سند جدا شده و همچنین باعث کاهش خطا ی تشخیص قطعات متنی می شود،مزیت دیگر ا ی ن روش شناسا یی قطعات تصو یری در سند می باشد. الگوریتم ارائه شده حدود ۹۷.۵ % قطعات را به درستی تشخیص می دهد.