Скрытая модель Моркова

ХММ, синтез также называют статистическим параметрическим синтезом речи. Система HTS одновременно моделирует возбуждение и продолжительность речи с помощью контекстно-зависимых HMM и, таким образом, генерирует речевые сигналы из самих HMM. Основное преимущество статистического параметрического синтеза заключается в том, что он может синтезировать речь с различными характеристиками голоса, такими как индивидуальность говорящего, стили речи, эмоции и т. д. Такие параметры, как характеристики голоса, стили речи и эмоции, легко изменяются в статистическом параметрическом синтезе путем преобразования его модели. параметры. Для этого есть три основных метода, а именно адаптация, интерполяция и выставление счетов.

Основным преимуществом упомянутых методов синтеза на основе HMM по сравнению с методом выбора единиц и объединения является тот факт, что изменение голоса может быть выполнено без больших баз данных, не уступая по качеству выбору единиц и объединению. На рисунке показана архитектура системы синтеза речи на основе HMM. В обучающей части параметры спектра и возбуждения извлекаются из речевой базы данных и моделируются контекстно-зависимыми HMM. В части синтеза контекстно-зависимые HMM объединяются в соответствии с текстом, который необходимо синтезировать. Затем из HMM генерируются спектр и параметры возбуждения с использованием алгоритма генерации речевых параметров. Наконец, модуль генерации возбуждения и модуль фильтра синтеза синтезируют форму речевого сигнала, используя сгенерированные параметры возбуждения и спектра. Учебная часть выполняет оценку максимального правдоподобия с использованием алгоритма максимизации ожидания (EM). В этом процессе спектр (например, Mel-кепстральные коэффициенты) и их дельта- и дельта-дельта-коэффициенты, а также параметры возбуждения (например, log F0 и его динамические характеристики) извлекаются из базы данных естественной речи и моделируются набором мульти- потоковые контекстно-зависимые HMM (с учетом фонетического, лингвистического и просодического контекстов).

Во временной структуре речи каждый HMM имеет свое распределение длительности состояния, а именно распределение Гаусса и гамма-распределение. Они оцениваются по статистическим переменным, полученным на последней итерации алгоритма «вперед-назад». Поскольку они имеют свою собственную зависимость от контекста, каждый спектр, возбуждение и продолжительность группируются индивидуально с использованием деревьев фонетических решений. Следовательно, система может моделировать спектр, возбуждение и продолжительность в единой структуре. В части синтеза данная последовательность слов преобразуется в контекстно-зависимую последовательность меток, а затем HMM высказывания строится путем объединения контекстно-зависимых HMM в соответствии с последовательностью меток. Затем для генерации спектра и параметров возбуждения HMM использовались различные виды алгоритмов генерации параметров речи. Наконец, модуль генерации возбуждения и фильтр модуля фильтра синтеза, такой как фильтр аппроксимации логарифмического спектра Мела (MLSA), синтезируют форму речевого сигнала с использованием сгенерированных параметров возбуждения и спектра. Минусы и плюсы системы синтеза речи на основе HMM

материалы по теме:

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP