Сильные стороны и ограничения популярных показателей оценки

Цель этой статьи — предоставить исчерпывающее описание методов оценки, которые можно применить к задаче генерации текста. Вводятся три различных метода оценки, которые затем используются для анализа текстов песен, написанных в стиле «Битлз».

С развитием технологий языковые модели постоянно развиваются синхронно с технологическими разработками. Благодаря этим разработкам Natural Language Generation (NLG) позволяет нам создавать модели, которые могут писать на человеческих языках. Больше, чем вы можете знать, многие приложения, которые мы используем ежедневно, такие как чат-боты, языковой перевод и т. д., основаны на модели генерации текста. Построить эти языковые модели так, чтобы они были «максимально человечными», поскольку необходимо учитывать множество факторов, включая языковую структуру, грамматику и словарный запас.

Важной задачей при разработке моделей, способных генерировать текст на уровне человека, является оценка того, насколько текст, сгенерированный вашей моделью, соответствует человеческому. В этом блоге мы покажем некоторые популярные метрики оценки, которые вы можете использовать, а также их сильные и слабые стороны.

Неконтролируемый характер этих задач делает процедуру оценки сложной. Однако очень важно определить, хорошо ли работает обученная модель. Наиболее часто используемые подходы для этих задач: человеческое суждение, необученные автоматические метрики и машинные метрики. Следующий обзор основан на опросе по оценке Text Generation.

Человеческое суждение

Поскольку эта модель пытается писать на человеческом языке и создавать текст, который будет ценен для людей, лучший способ проверки вывода — это человеческий фактор. В этом сценарии вы можете попросить нескольких человек просмотреть модель и дать представление о том, насколько хорошо модель работает. Это можно сделать с помощью задачи аннотации; этот метод предоставляет читателям руководство, описывающее, как они могут приступить к оценке. Несмотря на то, что этот тип оценки считается важным, существует множество ограничений. Человеческие оценки могут занимать много времени и быть дорогими, часто объем просматриваемых данных велик, поэтому человеку сложно вручную проверить содержимое. Кроме того, суждения разных аннотаторов могут быть неоднозначными, что приводит к ненадежной оценке качества модели генерации текста. Таким образом, соглашение между аннотаторами является важной мерой производительности модели. Эта метрика показывает, четко ли поставлена ​​задача и различия в сгенерированном тексте постоянно заметны оценщикам. Однако этот метод оценки необъективен, поскольку оцениваемое качество модели также зависит от личных убеждений каждого аннотатора. Следовательно, это может привести к субъективности результатов оценки.

На основе этих ограничений были разработаны различные способы оценки языковых моделей, таких как NLG. Чтобы свести к минимуму затраты, связанные с ручной оценкой, и уменьшить неоднозначность при оценке сгенерированных текстов, для оценки моделей NLG стали популярны автоматические метрики.

Необученные автоматические показатели

С внедрением необученных автоматических метрик можно рассчитать эффективность языковых моделей. Эти методы можно использовать для расчета оценки, которая сравнивает автономно сгенерированный текст с эталонным текстом, написанным человеком. Использование этих методов просто и эффективно. Существует множество различных автоматических показателей, включая показатели перекрытия n-грамм, показатели на основе расстояния, показатели разнообразия и показатели перекрытия контента. В этом блоге мы сосредоточимся на показателях перекрытия n-грамм.

Метрики перекрытия N-грамм обычно используются для оценки систем NLG. Когда вы пытаетесь оценить сгенерированный текст, вашим первым побуждением может быть определение степени сходства с человеческим эталоном для оценки качества сгенерированного текста. И это именно то, что делает этот тип метрики. Перекрытие между этими двумя текстами вычисляется по количеству следующих слов из последовательности (n-грамм). Некоторые хорошо известные метрики, основанные на этом подходе, включают: дублирование двуязычной оценки (BLEU), дублирование, ориентированное на припоминание, для оценки Gisting (ROUGE), метрику для оценки перевода с явным порядком (METEOR).

Несмотря на свою популярность, у этих метрик есть большие недостатки. Самое главное, эти показатели чувствительны к лексическим вариациям. Это означает, что при использовании других слов с таким же значением модель будет наказана, поскольку текст будет другим. Поскольку они смотрят только на перекрытие с использованием униграмм и биграмм, семантическая и синтаксическая структура не учитывается. Например, если у нас есть предложение «люди любят иномарки» — этот тип оценки не даст высокого балла сгенерированному предложению типа «потребители предпочитают импортные автомобили» и даст высокий балл «людям нравится посещать зарубежные страны». '. Когда семантически правильные утверждения наказываются из-за того, что они отличаются от поверхностной формы ссылки, производительность недооценивается.

Истинная семантика всего предложения не может быть оценена с использованием показателей на основе n-грамм. Поэтому появились метрики машинного обучения, чтобы найти способ измерения текста с более высоким качеством.

Показатели на основе машинного обучения

Эти показатели часто основаны на моделях машинного обучения, которые используются для измерения сходства между двумя текстами, сгенерированными машиной, или между текстами, сгенерированными машиной, и текстами, созданными человеком. Эти модели можно рассматривать как цифровые судьи, имитирующие человеческую интерпретацию. Разработаны хорошо известные метрики оценки машинного обучения: BERT-score и BLEURT. Оценка BERT может рассматриваться как гибридный подход, поскольку она сочетает в себе обученные элементы (встраивания) с рукописной логикой (правила выравнивания токенов) (Sellam, 2020). Этот метод использует предварительно обученные контекстные вложения из представлений двунаправленного кодировщика от преобразователей (BERT) и сопоставляет слова в предложениях-кандидатах и ​​эталонных предложениях по косинусному сходству. Поскольку это довольно много, давайте немного разберем это: контекстные вложения генерируют разные векторные представления для одного и того же слова в разных предложениях в зависимости от окружающих слов, которые формируют контекст целевого слова. Модель BERT была одной из наиболее важных моделей НЛП, которая изменила правила игры, используя механизм внимания для обучения этим контекстуальным встраиваниям. Было показано, что оценка BERT хорошо коррелирует с человеческими суждениями об оценках на уровне предложений и на уровне системы. Однако при таком подходе необходимо учитывать некоторые элементы. Векторное представление допускает менее жесткую меру подобия вместо точного строкового или эвристического сопоставления. В зависимости от цели или «правил» проекта это может быть ограничением или преимуществом.

Наконец, еще одна метрика машинного обучения — BLEURT, метрика, разработанная с использованием BERT для разработки модели представления текста и основанная на BLEU. Выбор подходящего метода оценки зависит от цели проекта. В зависимости от проекта и созданного компонента некоторые из этих методов можно считать строгими или мягкими в отношении результатов. Следовательно, может случиться так, что баллы оценки будут высокими или низкими из-за того, что выбрана неверная метрика оценки.

Давайте применим некоторые из этих метрик к конкретному примеру: как вы можете прочитать в наших предыдущих сообщениях в блоге, мы обучили модель NLG писать тексты в стиле Битлз. Очевидно, нам не терпится узнать, хорошо ли работает наша модель: действительно ли мы битловцы? Основываясь на результатах, полученных с помощью двух показателей оценки машинного обучения, казалось, что наша модель работает достаточно хорошо. Как BLEURT, так и BERT-score показали f-score выше 0,7, что указывает на достойное качество генерации наших песен.

Однако мы уже упоминали, что количественные показатели, такие как BLEURT и BERT-score, имеют некоторые недостатки. Поэтому мы также спросили критически настроенную толпу поклонников Битлз, что они думают о написанных нами текстах. Для сбора наблюдений за людьми была создана анкета. В этой анкете было использовано 15 песен, 12 сгенерированных нашей моделью и 3 оригинала. Затем этот опрос был размещен на платформе социальных сетей, где собраны тысячи поклонников «Битлз», и их попросили сообщить нам, что они думают о выдуманных песнях. На основании этих результатов было очевидно, что сгенерированные песни не так хороши, как их представляла машинная партитура. Некоторые фанаты даже охарактеризовали эти песни как «ужасные» или «плохо написанные». Читатели также обратили внимание на хорошее наблюдение: по-видимому, наши модели часто повторяют существующие тексты песен «Битлз», что противоречит цели генерации текста. Мы должны учитывать, что поклонники Битлз менее склонны соглашаться с тем, что их героев можно заменить ИИ, поэтому здесь также может присутствовать некоторая предвзятость… В заключение: с развитием технологий Генератор естественного языка внес большой вклад в наша повседневная жизнь. Неконтролируемый характер модели усложняет процесс оценки. Чтобы свести к минимуму затраты, связанные с ручной оценкой, и уменьшить неоднозначность при оценке сгенерированных текстов, для оценки моделей NLG стали популярны автоматические метрики. Однако можно увидеть, что метрики оценки машинного обучения не могут воспроизвести человеческие решения в некоторых, даже во многих обстоятельствах. Эти метрики не способны полностью охватить все качественные компоненты генерируемого текста. Таким образом, человек в петле по-прежнему необходим большую часть времени. Стоит отметить, что наблюдение человеческого суждения может привести к предвзятой интерпретации, основанной на субъективной интерпретации читателя.

[1] Источником этого примера является 1904.09675.pdf (arxiv.org)

Если вас вообще интересуют задачи НЛП, то вы попали по адресу! Взгляните на нашу серию Обработка естественного языка.

Хотите узнать больше об интересных вещах, которые мы делаем в Cmotions и The Analytics Lab? Загляните в наши блоги, проекты и видео! Также загляните на нашу страницу Medium, чтобы узнать больше интересных блогов!