سال انتشار: ۱۳۸۶

محل انتشار: سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۶

نویسنده(ها):

محمدمهدی همایون پور – عضو هیات علمی دانشکده مهندسی کامپیوتر، و فناوری اطلاعات دانشگاه صنع
معصومه بحرینی – کارشناسی ارشد، دانشگاه صنعتی امیرکبیر، دانشکده مهندسی کامپیوتر و فن
سینا ایران نژاد – کارشناسی ارشد، دانشگاه صنعتی امیرکبیر، دانشکده مهندسی کامپیوتر و فن

چکیده:

یکی از روش های تولید منحنی گام، برای سیستم های تبدیل متن به گفتار، روش تیلت می باشدکه بر اساس نظریه واج شناسی لایه ای پایه گذاری شده است و در آن، رویدادهای آهنگین گفتار به صورت مستقل از هم در نظر گرفته می شوند. مدل تیلت با تولید رویدادهای کنتور گام و اتصال انها، به یکدیگر، کنتورگام را تولید می نماید. هر رویدداد دارای تعدادی پارامتر می باشد که باید تخمین زده شوند. این مقاله سهروش متفاوت شبکه عصبی، ماشین پشتیبان بردار و مارس را برای تخمین پارامترهای مدل تیلت، با هم مقایسه می کند.در هر سه روش، از دادگان یکسان برای مدلسازی استفاده شده است. در انتخاب ویژگی ها سعی شده است، ویژگی هایی بکار گرفته شوند که قادر به تخمین شکل ابتدا و انتهای کنتور گام و همچنین زیر و بمی های محلی آن، باشند. ویژگی های بکار گرفته شده ، تعدادی ویژگی متنی مانند نوع هجا، هجای تکیه بر، فاصلههجا تا انتهای گفتار و … و همچنین میزان دیرش واج می باشند. به منظور مقایسه نتایج، میزان کورولیشن بین منحنی اصلی گام و منحنی های سنتز شده با استفاده از پارامترهای تخمینی، محاسبه شدهکه بهترین نتیجه را شبکه عصبی با مقدار کورولیشن ۸۵/۶۶ تولید نموده است. کلیه روش ها، در تخمین شکل انتهای کنتور گام یکسان عمل نموده اند و در بیش از ۸۸ درصدموارد، آن را درست تخمین زده اند. به منظور ارزیابی بهتر نتایج،تست شنوایی MOS نیز روی گفتار تولید شده انجام گرفته است. همچنین از نتایج مدلسازی مارس، برای شناخت بهتر عوامل تاثیرگذار در تخمین کنتور گام، استفاده شده است.