سال انتشار: ۱۳۸۶

محل انتشار: سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۷

نویسنده(ها):

معصومه بحرینی – کارشناسی ارشد، دانشگاه صنعتی امیرکبیر، دانشکده مهندسی کامپیوتر و فن
محمدمهدی همایون پور – عضو هیئت علمی، دانشگاه صنعتی امیرکبیر، دانشکده مهندسی کامپیوتر و فن

چکیده:

کیفیت صدای سنتز شده از یک سیستم تبدل متن به گفتار، تا حد زیادی وابسته به طبیعی بوودن نوای آن می باشد. تا به امروز، بیشتر کنترل ها روی دیرش و فرکانس پایه متمرکز شده و به مدلسازی انرژی گفتار، اهمیت کمتری داده شده است. در این مقاله به مدلسازی انرژی برای تخمین منحنی انرژی گفتار فارسی پرداخته می شود. بدین منظور از روش منحنی های قطعه قطعه، استفاده می شود.در این روش، برای هر واج یک تکه منحنی تولید میشود و از اتصال کلیه این منحنی ها، منحنی انرژی برای کل گفتار بدست می آید. برایمدل کردن منحنی هر واج،چند جمله ای درجه دوم بکار گرفته می شود و از شبکه عصبی، ماشین پشتیبان بردار و مارس، برایتخمین ضرائب این چند جمله ای ها، استفاده میشود. به منظور ایجاد مدل ها، تعدادی ویژگی متنی مانند نوع جمله، نوعاسترس هجا، نوع واج و … به کار گرفته شد. برای بهبود تخمین کنتور انرژی ، دیرش واج و اطلاعات پیچهجا نیز به عنوان ویژگی های غیر متنی به کار گرفته شدند. برای ارزیابی نتایج، معیارهای ضریب همبستگی و میانگین مربع خطا به کار گرفته شدند. که نتایج پیاده سازی ، بهتر وبدن ماشین پشتیبان بردار را نسبت به دیگر روش های بکار گرفت ه شدهدر این مقاله، نشان می دهد. به منظور کاهش مجموعه ویژگی ها، نتایج مارس استفاده شد. همچنین در این مقاله تعامل بین یکسری ویژگی و میزان انرژی واج مورد تحلیل واقع شد، نتایج حاکی از آن است که فرکانس پایه بیشترین تعامل را با انرژی گفتار دارا است.