سال انتشار: ۱۳۸۴

محل انتشار: دومین کنفرانس بین المللی فناوری اطلاعات و دانش

تعداد صفحات: ۶

نویسنده(ها):

محمدمهدی همایونپور – دکترای مهندسی برق، آزمایشگاه سیستم های هوشمند صوتی و گفتاری، دانشکده
شاهرخ فرخی راد – کارشناسی ارشد مهندسی کامپیوتر، آزمایشگاه سیستم های هوشمند صوتی و گفت

چکیده:

به منظور انجام تعیین هویت گوینده از طریق اینترنت لازم است که داده های گفتاری از طریق اینترنت منتقل شوند. حین این انتقال ممکن است که بسته های داده گم شده و یا دچار خرابی شوند. همچنین از آنجا که میتوان گفتار انتقالی از طریق اینترنت را بهمنظور کاهش حجم اطلاعات و صرفه جویی در استفاده از ظرفیت اینترنت فشرده نمود، لذا لازم می گردد که تاثیر فشرده سازی و روشهای کدینگ بر راندمان تعیین هویت مورد بررسی قرار گیرند. در این مقاله با استفاده از پروتکل های انتقال رسانه ها روی شبکه اینترنت، یک دادگان گفتار اینترنتی شامل گفتار ۵۰ گویند (۳۷ مرد و ۱۳ زن) را برای آموزش و آزمایش سیستم تعیین هویت گوینده ضبط نموده و آنگاه با استفاده از انواع ویژگی ها و دو نوع شبکه عصبی با نظارت LVQ و بی نظارت SOM مدل های گویندگان را اموزش داده و در مرحله ی آزمون با مقایسه گفتار گوینده با مدل های موجود، نزدیکترین گوینده به آن گفتار را مشخص نموده ایم. آزمایش های بسیاری برای بررسی تاثیر ناشی از عبور گفتار از روی خطوط اینترنت بر راندمان تعیین هویت گوینده صورت گرفت که از آن جمله می توان به تاثیر ناشی از خراب شدن بسته های داده، از بین رفتن بسته های داده و نیز فشرده سازی گفتار اشاره نمود. بطور خلاصه می توان گفت برای ۵۰ گوینده با حدود ۲ دقیقه گفتار برای آموزش و ۵ ثانیه سیگنال گفتار آزمون به بازدهی تقریبا برابر ۹۶% و ۱۰۰%برای تعیین هویت گوینده، بازاء گفتار کد و کدگشایی شده به روش MPEG-Layer 3 و گفتار بدون فشرده سازی رسیده ایم.