سال انتشار: ۱۳۸۴

محل انتشار: دومین کنفرانس بین المللی فناوری اطلاعات و دانش

تعداد صفحات: ۱۰

نویسنده(ها):

احمد عبداله زاده – دانشیار، هیئت علمی دانشکده کامپیوتر دانشگاه صنعتی امیرکبیر – دانشکده
مجتبی شکری – کارشناسی ارشد نرم افزار دانشگاه صنعتی امیرکبیر، هیئت علمی دانشگاه آز

چکیده:

با رشد سریع حجم متون قابل دسترس به خصوص در شبکه ی جهانی اینترنت کار استخراج اطلاعات از متن اهمیت ویژه ای یافته است. خروجی سیستم استخراج اطلاعات، پایگاه داده ای ازاطلعات موجود در متن می باشد. از طرفی تکنیک های داده کاوی این امکان را به ما می دهند که دانشیرا به شکل مجموعه ای از قواعد از محتویات پایگاه داده و ارتباط بین آنها بدست آوریم. در این مقاله از تکنیک تولید قواعد تداعی گر در داده کاوی استفاده می کنیم. بدین منظور با استفاده از الگوریتم استاندارد C4.5RULES و اعمال ان بر روی خروجی سیستم استخراج اطلاعات، دانشی (مجموعه ی قواعد پیشگو) بدست می آوریم که از ان برای بالاتر بودن احتمال درستی اطلاعات استخراج شده، پیشگویی اطلاعات استخراج نشده و مقایسه بین قواعد استخراج اطلاعات استفاده می کنیم. در ادامه، طرحی برای معماری سیستم هایاستخراج اطلاعات پیشنهاد می کنیم تا بتوانند از این تکنیک برای بهبود کارایی شان استفاده کنند. سپس نتایج پیاده سازی این تکنیک را بر روی سیستم WHISK (یکی از سیستم های باز استخراج اطلاعات موجود) مورد ارزیابی قرار می دهیم.