سال انتشار: ۱۳۸۴

محل انتشار: دومین کنفرانس بین المللی فناوری اطلاعات و دانش

تعداد صفحات: ۸

نویسنده(ها):

محمدمهدی همایونپور – دکترای مهندسی برق ، آزمایشگاه سیستم های هوشمند صوتی و گفتاری، دانشکد
سیدمصطفی موسوی – کارشناسی ارشد مهندسی کامپیوتر، آزمایشگاه سیستم های هوشمند صوتی و گفت

چکیده:

مدل مخفی مارکوف یکی از مدلهای اماری مناسب برای مدل کردن دنباله پارامترهای گفتار می باشد که استفاده از آن در سیستم تبدیل متن به گفتار، موفقیت امیز بوده است. در این مقاله، برای پیاده سازی سیستم سنتز، از مدل مخفی مارکوف (HMM) برای مدل کردن پارامترهای مربوط به واحدهای گفتاری استفاده شده است. برای تبدیل ضرائب کپسترال به سیگنال صحبت ، از فیلتر MLSA استفاده نموده ایم. برای استخراج فرکانس گام، روش اتوکورلیشن مورد استفاده قرار گرفته است. برای تولید پارامترهای سنتز گفتار توسط HMMها از الگوریتمی استفاده نموده ایم که در آن برای در نظر گرفتن اطلاعات بافت، علاوه بر ویژگی های ضرائبکپستروم و فرکانس گام، مشتق اول و دوم انها نیز، مورد استفاده قرار گرفته اند. برای بدست آوردن مدل طول زمانی واجها، مشاهدات موجود از هر ترایفون را در پایگاه داده، طبق الگوریتم ویتربی با مدل HMM آن مقایسه نموده و دنباله حالات طی شده را بدست آورده و با میانگین گیری از تعداد دفعات حضور در هر حالت مدل HMM ترایفون، متوسط طول زمانی حضور در هر حالت را برای هر ترایفون بدست آورده ایم. زمانهای میانگین حاصل، مدلهای طول زمانی برای هر ترایفون را تشکیل می دهند. در هنگام سنتز با توجه به مدل طول هر حالت از مدل HMM هر ترایفون ، پارامترهای هر کدام ازحالتهای HMM، شامل بردار میانگین و بردار واریانس آن حالت تکرار و با استفاده از این پارامترها، دنباله ضرائب کپسترال و گام مورد نیاز برای سنتز گفتار بدست امده و توسط فیلتر MLSA به گفتار تبدیل شده اند. برای ارزیابی سیستم از تستس MOS استفاده شده است. امتیازات بدست آمده برای تست MOS در مورد سنتز با استفاده از مدلهای ترایفون برای تعیین طول زمانی ترایفون و گام، برای پارامترهای قابل فهم بودن، طبیعی بودن و خوشایند بودن برای جملات آموزشی به ترتیب ۳/۸، ۳/۹ و ۳/۵ می باشد.