سال انتشار: ۱۳۸۶

محل انتشار: اولین کنفرانس داده کاوی ایران

تعداد صفحات: ۸

نویسنده(ها):

بهرام امینی – مدرس گروه کامپیوتر، دانشگاه آزاد اسلامی واحد نجف آباد، دانشکده فنی و
حسن ابوالحسنی – استادیار، دانشگاه صنعتی شریف، دانشکده مهندسی کامپیوتر

چکیده:

روشهای متعددی برای استخراج داده از صفحات وب مطرح شده است که نوعا بدلیل وابستگی به ساختار گرامری متن صفحات، دارای پیچیدگی و نقاط ضعف مخصوص به خود هستند. اخیرا رویکرد استفاده ازآنتولوژی وب معنایی مطرح شدهکه در مراحل اولیهخود می باشد. در این مقاله یک روش مبتنی بر آنتولوژی برایاستخراج داده از صفحات وب پیشنهاد شده است. این روش با استفاده از مفاهیم موجود در آنتولوژی دامنه پژوهش در علوم کامپیوتر و تکنیکهای پردازش زبان طبیعی، داده های موجود در صفحات وب را به فرم ساخت یافته و قابل پرس و جو استخراج می نماید. روش ما انعطاف پذیر و مستقل از گرامر متن صفحات وب بوده و مشکلات ناش از تغییر ساختار صفحات وب را بطور قابل توجهی برطرف نموده است. نتایج حاصل از استخراج داده نشان میدهد که این روش با دقت بالایی آیتم های داده را شناسایی و استخراج می نماید.