سال انتشار: ۱۳۸۷

محل انتشار: دومین کنفرانس داده کاوی ایران

تعداد صفحات: ۲۴

نویسنده(ها):

ونوس شکورنیاز –
جمال شهرابی –

چکیده:

از متداولترین الگوریتمهای دسته بندی ، درخت تصمیم و الگوریتم نیوبیز می باشند که ازاجزای اصلی یادگیری ماشین مدرن می باشند. مقصود اصلی در درخت تصمیم گیری، تقسیم داده ها به صورت بازگشتی به زیرمجموعه هایی است بگونه ای که هر هر زیرمجموعه دربرگیرنده وضعیت همگنی از متغیر هدف می باشد. این الگوریتم پیش بینی هایی را برمبنای روابط بین ستونهای ورودی در یک مجموعه داده انجام می دهد و از مقادیر و وضعیت های این ستونها برای پیش بینی وضعیت یک ستون که به عنوان ستون قابل پیش بینی انتخاب شده است استفاده می نماید. الگوریتم نیوبیز یک الگوریتم دسته بندی است که در مدلسازی پیش بینی استفاده می شود این الگوریتم احتمالات شرطی را بین ستونهای ورودی و قابل پیش بینی محاسبه می نماید و معین می سازد که کدامیک از ستونهای ورودی با احتمال بیشتری نقش تعیین کننده ای در پیش بینی ستون هدف دارند. از آنجایی که پیش بینی یکی از اهداف و وظایف مهم در مدل های دسته کننده می باشد، از این جهت انتخاب ستون پیش بینی کننده، نقش مهمی در ساخت مدل بهینه دارد. محدوده ی داده های مورد استفاده در این تحقیق اطلاعات هویتی و بدهی کارگاهها و کارفرمایان سازمان تامین اجتماعی برای یک اداره کل نمونه می باشد با توجه به این که این اطلاعات دارای مقادیر از دست رفته فراوانی هستند بنابراین ال الگوریتم نیوبیز استفاده شده تامهمترین ستونهای پیش بینی کننده در ابتدا مشخص شوند و سپس با استفاده از الگوریتم درخت تصمیم برمبنای آنتروپی به دسته بندی اطلاعات هویتی کارگاهها و کارفرمایان سازمان تامین اجتماعی پرداخته شده تا با ساخت یک مدل دسته کننده مناسب دو هدف اصلی محقق گردد: ۱- دسته بندی اطلاعات و استخراج قوانین تصمیم ۲- استفاده از مدل در پیش بینی مقادیر از دست رفته دراین تحقیق ساخت پایگاه اطلاعاتی داده کاوی، پیاده سازی راه حل پروژه داده کاوی ،تنظیم منابع داده مورداستفاده و اجرای الگوریتمهای کاوش با استفاده از پایگاه داده ,SQL Server 2005 انجام گردیده است