ХММ, синтез также называют статистическим параметрическим синтезом речи. Система HTS одновременно моделирует возбуждение и продолжительность речи с помощью контекстно-зависимых HMM и, таким образом, генерирует речевые сигналы из самих HMM. Основное преимущество статистического параметрического синтеза заключается в том, что он может синтезировать речь с различными характеристиками голоса, такими как индивидуальность говорящего, стили речи, эмоции и т. д. Такие параметры, как характеристики голоса, стили речи и эмоции, легко изменяются в статистическом параметрическом синтезе путем преобразования его модели. параметры. Для этого есть три основных метода, а именно адаптация, интерполяция и выставление счетов.

Основным преимуществом упомянутых методов синтеза на основе HMM по сравнению с методом выбора единиц и объединения является тот факт, что изменение голоса может быть выполнено без больших баз данных, не уступая по качеству выбору единиц и объединению. На рисунке показана архитектура системы синтеза речи на основе HMM. В обучающей части параметры спектра и возбуждения извлекаются из речевой базы данных и моделируются контекстно-зависимыми HMM. В части синтеза контекстно-зависимые HMM объединяются в соответствии с текстом, который необходимо синтезировать. Затем из HMM генерируются спектр и параметры возбуждения с использованием алгоритма генерации речевых параметров. Наконец, модуль генерации возбуждения и модуль фильтра синтеза синтезируют форму речевого сигнала, используя сгенерированные параметры возбуждения и спектра. Учебная часть выполняет оценку максимального правдоподобия с использованием алгоритма максимизации ожидания (EM). В этом процессе спектр (например, Mel-кепстральные коэффициенты) и их дельта- и дельта-дельта-коэффициенты, а также параметры возбуждения (например, log F0 и его динамические характеристики) извлекаются из базы данных естественной речи и моделируются набором мульти- потоковые контекстно-зависимые HMM (с учетом фонетического, лингвистического и просодического контекстов).

Во временной структуре речи каждый HMM имеет свое распределение длительности состояния, а именно распределение Гаусса и гамма-распределение. Они оцениваются по статистическим переменным, полученным на последней итерации алгоритма «вперед-назад». Поскольку они имеют свою собственную зависимость от контекста, каждый спектр, возбуждение и продолжительность группируются индивидуально с использованием деревьев фонетических решений. Следовательно, система может моделировать спектр, возбуждение и продолжительность в единой структуре. В части синтеза данная последовательность слов преобразуется в контекстно-зависимую последовательность меток, а затем HMM высказывания строится путем объединения контекстно-зависимых HMM в соответствии с последовательностью меток. Затем для генерации спектра и параметров возбуждения HMM использовались различные виды алгоритмов генерации параметров речи. Наконец, модуль генерации возбуждения и фильтр модуля фильтра синтеза, такой как фильтр аппроксимации логарифмического спектра Мела (MLSA), синтезируют форму речевого сигнала с использованием сгенерированных параметров возбуждения и спектра. Минусы и плюсы системы синтеза речи на основе HMM