سال انتشار: ۱۳۸۶

محل انتشار: اولین کنفرانس داده کاوی ایران

تعداد صفحات: ۸

نویسنده(ها):

فرید سیفی – دانشجوی کارشناسی ارشد، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ا
محمدرضا کنگاوری – استادیار، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران

چکیده:

تا کنون روشهای متعددی برای تولید درختهای تصمیمِ دسته بند ابداع شده اند که معمولا برای تصمیم گیری و پیش بینی بکار می روند. این روشها سعی در بهینه سازی پارامترهایی چون دقت، سرعت دسته بندی، اندازه درختهای ساخته شده، سرعت یادگیری و میزان حافظه بکار رفته دارند. بین پارامترهای ذکر شده تناقض وجود دارد، بدین معنی که بهینه سازی یک پارامتر، ممکن است موجب
تغییرات نامناسب سایر پارامترها شود، به همین دلیل است که تمام روشهای موجود سعی در ایجاد توازن بین این پارامتر ها دارند. در این تحقیق – با در نظر گرفتن تاثیر تمام مجموعه داده های یادگیری بروی تخصیص کلاس به هر نمونه داده – روشی جدید برای ایجاد درختهای تصمیم ارائه کرده ایم که درختهایی با دقت نسبتا مناسب و با پیچیدگی بسیار کم را در زمانی بسیار کوتاه و با بکار گیری حافظه ای اندک تولید می کند. به منظور رسیدن به این هدف یک فرایند چند مرحله ای بکار برده ایم. در هر مرحله این فرایند مجموعه داده های یادگیری یکبار از ابتدا به انتها و بار دیگر در جهت عکس مورد بررسی قرار می گیرد تا الگوی کلاسها برای انتخاب متغیر استخراج شود. سپس با استفاده از متغیر منتخب – در هر مرحله – شاخه های جدید در درخت ایجاد می شوند. در پایان هر مرحله و پس از ایجاد شاخه های جدید در درخت، متغیر منتخب و تعدادی از نمونه داده ها از مجموعه داده های یادگیری حذف می شوند. این عملیات در مراحل مختلف و بصورت متناوب بروی داده ها و متغیر های باقی مانده ادامه می یابد تا زمانیکه درخت بطور کامل ساخته شود. در این تحقیق مجموعه داده های شناخته شده ای که قبلا در تحقیقات مختلف بکار گرفته شده اند را بکار برده ایم و دقت و اندازه درخت ایجاد شده توسط این روش را با سایر روشهای مطرح مقایسه کرده ایم.