سال انتشار: ۱۳۸۶

محل انتشار: اولین کنفرانس داده کاوی ایران

تعداد صفحات: ۱۱

نویسنده(ها):

محمدسعید زائری – دانشجوی کارشناسی ارشد مهندسی صنایع دانشگاه امیرکبیر
جمال شهرابی – استادیار دانشکده مهندسی صنایع دانشگاه صنعتی امیرکبیر
محمود پری آذر – دانشجوی کارشناسی ارشد مهندسی صنایع دانشگاه امیرکبیر

چکیده:

های بشر در چند دهه اخیر در زمینه جمع آوری و ذخیره نتایج و داده ها باعث شده است که ابعاد پایگاه داده ها به طور چشم گیری افزایش پیدا کند. صنعت پزشکی جزء معدود صنایعی است که با پایگاه داده های بسیار بزرگ همراه با داده های زیاد مواجه است. نکته مهم در این پایگاه داده های بزرگ اطلاعات و دانشی است که از آن استخراج می شود و نیاز به استفاده از روش های هوشمند و ساختارمند وجود دارد. داده کاوی یک رشته علمی جدید در زمینه بازیابی اطلاعات از پایگاه داده ها می باشد. تکنیک های مختلفی به لحاظ خطی و غیر خطی برای کاهش ابعاد و رسیدن به ویژگی های مفید از یک پایگاه داده ها وجود دارد. در این مقاله سه الگوریتمNon-negative Matrix Factorization ،Random Projection وPrincipal Component analysis جهت کاهش ابعاد پایگاه داده ها بر روی سه مجموعه داده با ساختار خطی، غیر خطی و گسسته متنی پیاده سازی شدهاست. در انتها مشخص می شود که الگوریتمPrincipal Component Analysisبا توجه به سه ماهیت مختلف مجموعه داده هابهترین نتیجه را نسبت به دو الگوریتم دیگر در کاهش ابعاد و نمایش ویژگی های داده ها ارائه می کند.