سال انتشار: ۱۳۸۷

محل انتشار: دومین کنفرانس داده کاوی ایران

تعداد صفحات: ۷

نویسنده(ها):

محمد داورپناه جزی –
شهره اجودانیان –

چکیده:

وب رسانهای است برای رسیدن به اطلاعات زیاد و متنوعی که در سایتهای مختلف در شبکه گسترده جهانی ذخیره شده است. رشد گسترده وب مسبب رشد ثابت اطلاعات شده است که با خود چندین مشکل را به همراه دارد؛ بدست آوردن اطلاعات مرتبط به هم، استخراج دانش مفید و یادگیری در مورد عملکردهای مشتریان یا کاربران نمونهای از این مشکلات است. وبکاوی سعی دارد که این مشکلات را برطرف سازد. به طور کلی، وبکاوی از تکنیکهای دادهکاوی استفاده میکند تا به طور خودکار اطلاعات را از مستندات شبکه گسترده جهانی و سرویسهای آن کشف و استخراج نماید. وبکاوی به سه شاخه محتواکاوی وب، ساختارکاوی وب و کاربردکاوی وب تقسیم میشود که هر کدام در تلاشند از داده موجود در وب به اطلاعات و دانش ویژهای برسند. روشهای کاوشی که در محتواکاوی وب موجود است بیشتر روی استخراج اطلاعات و یکپارچهسازی آنها متمرکز است. این روشها معمولا برمبنای wrapper های ساده هستند که فقط قادر به جمعآوری اطلاعات ساختیافته میباشند. اخیرا تلاشهایی در جهت استفاده از تکنیکهای NLP شده است که توسط آنها میتوان اطلاعات مفید ناشناختهای که از قبل وجود داشته است و به روشهای معمولی قابل بازیابی نبوده را از دادههای جمع-
آوری شده کشف کرد.
اغلب روشهای موجود روی تحلیل وبسایتهای ایستا متمرکز شدهاند و نمیتوانند با وبسایتهایی که دائم در حال تغییر هستند،
روبهرو شوند. در این مقاله سیستمی ارائه شده است که با خزیدن در طول وب و رفتن از یک ابرمتن به ابرمتن دیگر، وب عمیق را
محتواکاوی میکند و پس از استخراج اطلاعات آنها، با استفاده از روش دادهکاویکلاسترینگ هر صفحه وب را در یک دامنه موضوعی
خاص قرار میدهد. پرسوجوی کاربر که در یک دامنه موضوعی خاص وارد شده است در کلاستر منطبق با آن، در واسطهای پرسوجوی
متفاوت تطبیق داده میشود و واسطی که بیشترین تطبیق را با پرسوجوی کاربر دارد به عنوان بهترین واسط پرسوجو برای پاسخگویی
به پرسوجوی کاربر انتخاب میشود. به این ترتیب اطلاعات درخواستی کاربر با استفاده از پرسوجوی انتخاب شده، استخراج و در اختیار
او قرار میگیرد