سال انتشار: ۱۳۸۶

محل انتشار: پانزدهیمن کنفرانس مهندسی برق ایران

تعداد صفحات: ۶

نویسنده(ها):

محسن هاشمی – دانشکده مهندسی برق و کامپیوتر دانشگاه شهید بهشتی
محمدحسن ساوجی – دانشکده مهندسی برق و کامپیوتر دانشگاه شهید بهشتی

چکیده:

در این مقاله فشرده سازی متن فارسی و تحلیل های آماری متن فارسی مورد بررسی قرار گرفته اند و دو الگوریتم معروف هافمن و حسابی از انواع و مراتب مختلف مدلها برای فشرده سازی متن فارسی پیاده سازی و از لحاظ میزان و سرعت فشرده سازی با هم مقایسه شده اند. این بررسی ها همچنین در مورد متن انگلیسی نیز انجام شده اند و نتایجآنها با هم مقایسه شده است. نتایج بدست آمده نشان می دهد که با وجود میزان فشرده سازی کمتر الگوریتم هافمن نسبت به الگوریتم حسابی (در حد ۲-۳ درصد) سرعت اجرای آن در حدود ۴۰-۵۰ برابر بیشتر از سرعت اجرای الگوریتم حسابی می باشد. همچنین این نتایج نشان می دهد که با توجه آنتروپی بالاتر متن فارسی نسبت به متن انگلیسی، متن فارسی دارای قابلیت فشرده پذیری کمتری نسبت به متن انگلیسی است. با استفاده از این نتایج برای الگوریتم حسابی وفقی طول بهینه ی هر بلوک برای کدگذاری متن با تقسیم بندی آن به بلوک های با طول ثابت، بدست آمد.