Как мы создали нашу систему непрерывного преобразования речи в текст для оценочной кампании IWSLT 2018.

Последние достижения в области глубокого обучения предоставили нам очень сильные модели для машинного перевода (MT) и автоматического распознавания речи (ASR). MT - это задача перевода текста с одного исходного языка в текст на целевой язык. В ASR задача состоит в расшифровке аудиосигнала.
Каждый год семинар IWSLT собирает исследователей и практиков из двух областей, чтобы продвигать современные достижения в устном переводе ( SLT ), также известный как преобразование речи в текст или, проще говоря, перевод речи. SLT - это текстовый перевод аудиосигнала. В этом году IWSLT проводился в прекрасном городе Брюгге во Фландрии (Бельгия) и отличался важной новинкой.

Семинар организует оценочную кампанию, направленную на проверку современного состояния ASR и MT. В этом году он состоял из двух задач: одной для машинного перевода в сценарии с ограниченными ресурсами (с английского на баскский) и одной для SLT (с английского на немецкий).

Два подхода к SLT: каскад против от начала до конца

Задача перевода речи всегда решалась с помощью каскада моделей, включая одну модель ASR, которая генерирует вероятные транскрипции аудиовхода, и модель MT, которая переводит сгенерированную гипотезу на целевой язык.

Совсем недавно новый подход к SLT больше полагается на более высокую вычислительную мощность моделей глубокого обучения (и графических процессоров!) И пытается использовать единую модель для создания текстовых переводов без предварительной расшифровки. Этот подход также называется сквозным SLT.

Последний подход является предметом новой области исследований, и его результаты все еще ниже, чем результаты каскадных систем. Чтобы стимулировать исследования в области сквозного SLT, общая задача в IWSLT включала две отдельные оценки для двух подходов.

В центре исследований нашей группы находится машинный перевод, но мы очень заинтересованы в этой новой технологии для перевода непосредственно с аудио. Таким образом, мы решили исследовать эту новую область и участвовать в сквозной оценке.

Почему конец в конец?

На протяжении многих лет ASR и MT решались с помощью машинного обучения и статистических моделей. В 2015 году знаменитая работа Богданова показала, что одна нейронная сеть способна превзойти эти модели в МП. Сейчас глубокое обучение в машиностроении практически везде. Похожая картина сейчас наблюдается в ASR, где недавно были получены самые современные результаты с отдельными сетями глубокого обучения. Переход к сквозным моделям для ASR кажется намного медленнее, поскольку наиболее классический подход по-прежнему конкурентоспособен, но переход продолжается.

Преимущества сквозных подходов:

  1. Все параметры совместно оптимизированы для одной целевой функции.
  2. Отсутствует распространение ошибки из-за подачи выходных данных модели машинного обучения (с шумом) в качестве входных данных для другой модели.

Недостатком является то, что для правильной работы сквозным моделям обычно требуется гораздо больше данных, поскольку они изучают функцию, которая сложнее, чем ее подфункции. Пока что данных для этой задачи очень мало.

Проблемы, которые мы решили

Как только мы начали работу над проектом, мы определили практические проблемы, которые нам нужно было решить для нашей заявки:

  1. Доступное программное обеспечение с открытым исходным кодом для SLT довольно медленно на этапе обучения.
  2. Параллельные данные для задачи маленькие и шумные.

Мы решили проблемы следующими способами:

  1. Мы разделили fairseq, инструмент для нейронного МП, написанный на pytorch, и добавили возможность обработки аудиовхода. Fairseq - один из самых быстрых инструментов, доступных для NMT. С его помощью мы могли проводить эксперименты в течение часов вместо дней.
  2. Мы решили взять лучшее из имеющихся данных. Это означало улучшение качества данных за счет удаления шума.

Базовая архитектура

Мы использовали архитектуру, предложенную в Сквозном автоматическом речевом переводе аудиокниг. Это архитектура кодер-декодер (аналогичная той, что используется в NMT), основанная на LSTM с двумя сверточными слоями в начале. кодировщика для принципиального уменьшения размерности. Фактически, в отличие от машинного перевода, когда входной сигнал представляет собой аудиосигнал, его временное измерение слишком велико, и нам необходимо уменьшить его, чтобы фактически обучить модель нейронной сети. За двумя сверточными слоями следуют три уложенных друг на друга LSTM, которые генерируют окончательное исходное представление.

Декодер представляет собой LSTM глубокого перехода, подобный тому, который использовался в оригинальном учебнике dl4mt. Идея состоит в том, чтобы сделать двухуровневую сеть LSTM вместо стека из двух сетей LSTM. Разница в том, что в первом случае у нас есть глубокая рекурсия, тогда как во втором случае у нас есть две неглубокие рекурсии. Слой внимания находится между двумя слоями LSTM. Опыт машинного перевода говорит нам, что глубокий переход лучше работает на практике.

Наши улучшения модели

Мы выяснили, что мы можем улучшить качество перевода, добавив регуляризацию, но не увеличив процент отсева.
Вместо этого мы нашли полезными два метода, которые широко используются в других областях:

  1. Нормализация веса
  2. Сглаживание этикеток

Нормализация весов - это метод перенастройки весовых матриц для ускорения сходимости, особенно для глубоких сетей. Учитывая, что наша сеть использует 7 слоев в кодировщике и 4 в декодере, это звучало как хорошее дополнение.

Сглаживание меток - это сглаживающий фактор, добавляемый к потерям кросс-энтропии, чтобы учесть вероятность, присущую токенам, отличным от золотого стандарта. Установка коэффициента сглаживания на 0,1 является обычной практикой, и результатом обычно являются более высокие потери и недоумение, но улучшенная метрика задачи (в данном случае BLEU).

Для наших экспериментов мы использовали протяженный набор из обучающей выборки из 1000 параллельных сегментов, на которых мы получили оценку BLEU 9,65.

Очистка данных

При первоначальном анализе мы обнаружили некоторые проблемы в параллельных данных, в частности:

  1. Некоторые ссылки содержали слова, которые не могли быть найдены в аудиозаписи с помощью системы ASR хорошего качества.
  2. В некоторых случаях соотношение между количеством входных аудиокадров и символов перевода было невероятно высоким (до 3300: 1) или слишком низким (почти 1: 1).

Таким образом, мы выполнили два шага очистки данных, сначала удалив те предложения, в которых слово, присутствующее в транскрипции, не могло быть найдено в аудио посредством принудительного декодирования. Затем мы удалили из обучающей выборки все предложения со слишком большим или слишком низким соотношением длины.

Эти методы очистки довольно агрессивны и уменьшили размер обучающей выборки с 170 КБ параллельных сегментов до 146 КБ сначала, а затем до 115 КБ.

Точная настройка на чистых данных

Мы наблюдали улучшение на 1 балл BLEU, применив нашу очистку данных, а также вдвое сократили время обучения. Мы также экспериментировали с запуском обучения на больших данных до сходимости, а затем продолжили обучение на меньшем количестве данных. Эта стратегия дала нам еще одну точку улучшения (подробнее в нашей статье). Наибольшее улучшение наблюдалось, когда мы продолжили обучение модели, обученной на всем наборе данных с меньшими чистыми наборами данных. Это разумно, поскольку модель может наблюдать все данные много раз, но тогда большее значение придается данным более высокого качества.

Наконец, для каждой модели выполнялось усреднение по контрольным точкам с последующим ансамблевым декодированием. Это дало нам еще одну точку улучшения: в итоге мы получили 11,60 баллов BLEU по нашему набору проверки и 10,40 баллов по набору тестов задач.

Наша работа заняла вторую позицию по этой задаче по баллу BLEU.

Выводы из общей задачи

Приучить сквозную модель SLT к сходимости довольно сложно, по крайней мере, с данными IWSLT, которые не имеют определенного домена и содержат очень мало повторений. Похоже, что некоторые команды пытались обучить сквозную систему, но затем сдались из-за разочарования.

Поначалу у нас также были плохие времена, когда мы пытались найти рабочую настройку для задачи. Мы провели много дней с моделями, которые не набирали 1 балл BLEU, но как только нашли рабочую конфигурацию, все стало проще, особенно потому, что мы стали более уверенными в нашей кодовой базе. Модели для этой задачи действительно чувствительны к гиперпараметрам и к случайной инициализации.

Победившая подача прошла по противоположному нашему подходу. Сначала они обучили современную каскадную модель для участия в другой оценке. Затем они использовали каскад для перевода дополнительного аудиовхода с английского на немецкий в качестве формы увеличения данных для сквозной модели. Наконец, они использовали этот дополнительный набор данных для обучения большой сквозной модели. Несмотря на увеличение данных, лучшая сквозная модель в IWSLT получила на 7,7 баллов BLEU меньше, чем лучшая каскадная система.

Сквозные системы все еще очень далеки от качества перевода каскадных. Основная причина должна быть найдена в состоянии нехватки ресурсов текущих сквозных моделей, тогда как каскадные модели могут извлечь выгоду из более крупных наборов данных как для ASR, так и для MT. Возможно, другая причина может заключаться в том, что архитектуры глубокого обучения, которые мы используем для этой задачи, такие же, как в ASR, но задача более сложная и, возможно, требуются более сложные вычисления.

Призыв к действию

Если вам понравился этот пост, пожалуйста, найдите более подробную информацию в статье или следите за нашим проектом в ResearchGate, где мы будем добавлять наши последние открытия по теме!