Простые задачи обработки естественного языка, такие как анализ тональности, или даже более сложные, такие как семантический синтаксический анализ, легко оценить, поскольку оценка просто требует сопоставления меток. Таким образом, для таких задач используются такие показатели, как F-оценка (которая представляет собой гармоническое среднее значение точности и отзыва) или даже точность в равномерно распределенных данных.

Однако оценка систем генерации естественного языка - гораздо более сложная задача. По этой причине был предложен ряд различных показателей для таких задач, как машинный перевод или реферирование. В этом блоге я описываю 3 основные схемы, а именно BLEU, ROUGE и METEOR.

Интуиция при оценке сгенерированного текста такая же, как и при оценке этикеток. Если кандидат текст A ближе соответствует одному из справочных текстов, чем текст кандидата B, тогда мы хотим получить оценку A выше, чем B. Как и в других схемах, это соответствие основан на точности (специфичности) и запоминании (чувствительности). Проще говоря, A более точен, чем B, если% A, который соответствует ссылочному тексту, выше, чем B. Отзыв A выше, если он содержит больше совпадающего текста из ссылки, чем B. Например:

Справка: Я занимаюсь машинным обучением.

Кандидат А: Работаю.

Кандидат Б: Он занимается машинным обучением.

В этом примере с игрушкой точность A выше, чем точность B (100% против 60%), но степень запоминания B выше (60% против 40%). Обратите внимание, что в этом примере мы выполняем сопоставление, просто используя униграммы, что может быть не всегда. Фактически, этот выбор функций для вычисления точности и отзыва по существу отличает 3 схемы оценки NLG.

BLEU (дублер двуязычной оценки)

Это, безусловно, самый популярный показатель для оценки системы машинного перевода. В BLEU точность и отзыв приблизительно равны модифицированной n-граммовой точности и длине наилучшего совпадения соответственно.

Измененная точность n-граммов. Во-первых, точность n-граммов - это доля n-граммов в тексте-кандидате, который присутствует в любом из справочных текстов. В приведенном выше примере точность униграммы A составляет 100%. Однако простое использование этого значения представляет проблему. Например, рассмотрим двух кандидатов:

(i) Он занимается машинным обучением.

(ii) Он занимается машинным обучением.

Кандидат (i) имеет точность униграммы 60%, а для (ii) - 75%. Однако очевидно, что (ii) никоим образом не лучший кандидат, чем (i). Чтобы решить эту проблему, мы используем «модифицированную» n-граммовую точность. Он соответствует n-граммам кандидата столько раз, сколько они присутствуют в любом из справочных текстов. Таким образом, в приведенном выше примере униграммы (ii) «on», «machine» и «learning» совпадают только один раз, и точность униграммы составляет 37,5%.

Наконец, чтобы включить все показатели точности в n-граммах в нашу окончательную точность, мы берем их среднее геометрическое. Это сделано потому, что было обнаружено, что точность экспоненциально уменьшается с n, и поэтому нам потребуется логарифмическое усреднение для точного представления всех значений.

Длина наилучшего соответствия. Хотя вычисление точности было относительно простым, проблема с отзывом заключается в том, что может быть много справочных текстов. Поэтому сложно рассчитать чувствительность кандидата по отношению к общей ссылке. Однако интуитивно кажется, что более длинный текст кандидата с большей вероятностью будет содержать большую часть некоторой ссылки, чем более короткий кандидат. В то же время мы уже позаботились о том, чтобы тексты кандидатов не были произвольно длинными, поскольку тогда их оценка точности была бы низкой.

Следовательно, мы можем ввести отзыв, просто наказывая за краткость текстов кандидатов. Это делается путем добавления мультипликативного коэффициента BP с измененной точностью до n-грамма следующим образом.

Здесь c - общая длина корпуса переводов кандидатов, а r - эффективная справочная длина корпуса, т. Е. Средняя длина всех ссылок. Длины взяты как средние по всему корпусу, чтобы избежать сурового наказания за отклонения от длины в коротких предложениях. По мере уменьшения длины кандидата отношение r / c увеличивается, а BP экспоненциально уменьшается.

ROUGE (Помощник по отзыву для оценки предоставления)

Как видно из названия, ROUGE основан только на отзыве и в основном используется для сводной оценки. В зависимости от функции, используемой для расчета отзыва, ROUGE может быть многих типов, а именно ROUGE-N, ROUGE-L, ROUGE-W и ROUGE-S. Здесь мы опишем идею, лежащую в основе одного из них, а затем дадим краткое изложение других.

ROUGE-N: основано на n-граммах. Например, ROUGE-1 считает отзыв на основе совпадающих униграмм и так далее. Для любого n мы подсчитываем общее количество n-граммов во всех справочных сводках и выясняем, сколько из них присутствует в сводке кандидатов. Эта дробь является обязательным значением метрики.

ROUGE-L / W / S основаны на: самой длинной общей подпоследовательности (LCS), взвешенной LCS и статистике совпадения пропущенных биграмм, соответственно. Вместо использования только отзыва они используют F-оценку, которая представляет собой гармоническое среднее значений точности и отзыва. Они, в свою очередь, рассчитываются для ROUGE-L следующим образом.

Предположим, что A и B - кандидаты и справочные сводки длиной m и n соответственно. Тогда у нас есть

F затем вычисляется как взвешенное среднее гармоническое для P и R, как

Точно так же в ROUGE-W для вычисления взвешенного LCS мы также отслеживаем длину последовательных совпадений в дополнение к длине самой длинной общей подпоследовательности (поскольку в середине могут быть несовпадающие слова). В ROUGE-S пропуск-биграмма относится к любой паре слов в порядке предложений с учетом произвольных пробелов. В этом случае точность и отзыв вычисляются как отношение к общему количеству возможных биграмм, т. Е. C (n, 2), где C - функция комбинирования.

METEOR (Метрика оценки перевода с явным упорядочиванием)

METEOR - еще одна метрика для оценки машинного перевода, которая утверждает, что лучше коррелирует с человеческим суждением.

Так зачем нам новая метрика, если BLEU уже доступен? Проблема с BLEU заключается в том, что, поскольку значение BP использует длины, усредненные по всему корпусу, поэтому оценки отдельных предложений имеют значение.

Чтобы решить эту проблему, METEOR изменяет вычисления точности и запоминания, заменяя их взвешенным F-показателем, основанным на отображении униграмм и штрафной функцией за неправильный порядок слов.

Взвешенный F-балл. Во-первых, мы пытаемся найти наибольшее подмножество сопоставлений, которые могут обеспечить соответствие между кандидатским и справочным переводами. Для этого мы смотрим на точные совпадения, затем на совпадения после стемминга Портера и, наконец, используем синонимию WordNet. После того, как такое совпадение найдено, предположим, что m - это количество отображенных униграмм между двумя текстами. Затем точность и отзыв задаются как m / c и m / r, где c и r - длина кандидата и ссылочная длина соответственно. F рассчитывается как

Штрафная функция. Чтобы учесть порядок слов в кандидате, мы вводим штрафную функцию как

Здесь c - количество совпадающих фрагментов, а m - общее количество совпадений. Таким образом, если большинство совпадений являются смежными, количество фрагментов меньше и штраф уменьшается. Наконец, оценка METEOR дается как (1- Penalty) F.

Ссылки на оригинальные статьи по описанным здесь методам находятся в заголовках разделов. Читателям рекомендуется обращаться к ним за подробностями. Я попытался кратко изложить здесь основные идеи.