БЛЮ

Алгоритм оценки качества машинно-переведенного текста

BLEU ( двуязычный дублер оценки ) — это алгоритм оценки качества текста, который был переведен машиной с одного естественного языка на другой. Качество считается соответствием между выводом машины и выводом человека: «чем ближе машинный перевод к профессиональному человеческому переводу, тем он лучше» — это центральная идея BLEU. ^[1] Изобретенный в IBM в 2001 году, BLEU был одним из первых показателей, заявляющих о высокой корреляции с человеческими суждениями о качестве, ^[2]^[3] и остается одним из самых популярных автоматизированных и недорогих показателей.

Оценки подсчитываются для отдельных переведенных сегментов — обычно предложений — путем сравнения их с набором качественных справочных переводов. Затем эти оценки усредняются по всему корпусу для получения оценки общего качества перевода. Разборчивость или грамматическая правильность не принимаются во внимание. ^[4]

Вывод BLEU всегда представляет собой число от 0 до 1. Это значение указывает, насколько текст-кандидат похож на справочные тексты, причем значения, близкие к 1, представляют более похожие тексты. Немногие человеческие переводы получат оценку 1, поскольку это будет означать, что кандидат идентичен одному из справочных переводов. По этой причине нет необходимости получать оценку 1. Поскольку существует больше возможностей для сопоставления, добавление дополнительных справочных переводов увеличит оценку BLEU. ^[5]

Математическое определение

Базовая настройка

Базовая первая попытка определения оценки BLEU потребует два аргумента: строку-кандидата и список справочных строк . Идея заключается в том, что должно быть близко к 1, когда похоже на , и близко к 0, если нет. ${\hat {y}}$ $(y^{(1)},...,y^{(N)})$ $BLEU({\hat {y}};y^{(1)},...,y^{(N)})$ ${\hat {y}}$ $y^{(1)},...,y^{(N)}$

В качестве аналогии можно привести оценку BLEU, как если бы преподаватель иностранного языка пытался оценить качество перевода студента , проверяя, насколько точно он соответствует эталонным ответам . ${\hat {y}}$ $y^{(1)},...,y^{(N)}$

Поскольку при обработке естественного языка необходимо оценить большой набор строк-кандидатов, необходимо обобщить оценку BLEU на случай, когда имеется список из M строк-кандидатов (называемый « корпусом ») , а для каждой строки-кандидата — список справочных строк-кандидатов . $({\hat {y}}^{(1)},\cdots ,{\hat {y}}^{(M)})$ ${\hat {y}}^{(i)}$ $S_{i}:=(y^{(i,1)},...,y^{(i,N_{i})})$

Для любой строки и любого целого числа мы определяем множество ее n-грамм как Обратите внимание, что это множество уникальных элементов, а не мультимножество, допускающее избыточные элементы, так что, например, . $y=y_{1}y_{2}\cdots y_{K}$ $n\geq 1$ ${\ displaystyle G_ {n} (y) = \ {y_ {1} \ cdots y_ {n}, y_ {2} \ cdots y_ {n + 1}, \ cdots, y_ {K-n + 1} \ cdots y_{K}\}}$ $G_{2}(abab)=\{ab,ba\}$

Для любых двух строк определите количество подстрок как количество появлений в качестве подстроки . Например, . $с,у$ $C(s,y)$ $с$ $у$ $C(ab,abcbab)=2$

Теперь зафиксируйте корпус кандидатов и укажите корпус кандидатов , где каждый . ${\hat {S}}:=({\hat {y}}^{(1)},\cdots ,{\hat {y}}^{(M)})$ $S=(S_{1},\cdots ,S_{M})$ $S_{i}:=(y^{(i,1)},...,y^{(i,N_{i})})$

Измененная точность n-грамм

Определим модифицированную функцию точности n-грамм следующим образом: Модифицированная n-грамма, которая выглядит сложной, является просто простым обобщением прототипического случая: одно предложение-кандидат и одно ссылочное предложение. В этом случае это Чтобы дойти до этого выражения, мы начнем с самого очевидного суммирования количества n-грамм: Эта величина измеряет, сколько n-грамм в ссылочном предложении воспроизводится предложением-кандидатом. Обратите внимание, что мы считаем n-подстроки , а не n-граммы . Например, когда , все 2-подстроки в (ab и ba) появляются по 3 раза каждая, поэтому количество равно 6, а не 2. $p_{n}({\hat {S}};S):={\frac {\sum _{i=1}^{M}\sum _{s\in G_{n}({\hat {y}}^{(i)})}\min(C(s,{\hat {y}}^{(i)}),\max _{y\in S_{i}}C(s,y))}{\sum _{i=1}^{M}\sum _{s\in G_{n}({\hat {y}}^{(i)})}C(s,{\hat {y}}^{(i)})}}$ $p_{n}(\{{\hat {y}}\};\{y\})={\frac {\sum _{s\in G_{n}({\hat {y}})}\min(C(s,{\hat {y}}),C(s,y))}{\sum _{s\in G_{n}({\hat {y}})}C(s,{\hat {y}})}}$ $\sum _{s\in G_{n}({\hat {y}})}C(s,y)={\text{number of n-substrings in }}{\hat {y}}{\text{ that appear in }}y$ ${\hat {y}}=aba,y=abababa,n=2$ ${\hat {y}}$ $y$

Однако в приведенной выше ситуации строка-кандидат слишком коротка. Вместо 3 появлений она содержит только одно, поэтому мы добавляем минимальную функцию, чтобы исправить это: Это суммирование количества не может использоваться для сравнения предложений, поскольку оно не нормализовано. Если и ссылка, и предложение-кандидат длинные, количество может быть большим, даже если кандидат очень низкого качества. Поэтому мы нормализуем его Нормализация такова, что это всегда число в , что позволяет проводить осмысленные сравнения между корпусами. Оно равно нулю, если ни одна из n-подстрок в candidate не находится в ссылке. Оно равно единице, если каждая n-грамма в candidate появляется в ссылке, по крайней мере столько же раз, сколько в candidate. В частности, если candidate является подстрокой ссылки, то оно равно единице. $ab$ ${\sum _{s\in G_{n}({\hat {y}})}\min(C(s,{\hat {y}}),C(s,y))}$ ${\frac {\sum _{s\in G_{n}({\hat {y}})}\min(C(s,{\hat {y}}),C(s,y))}{\sum _{s\in G_{n}({\hat {y}})}C(s,{\hat {y}})}}$ $[0,1]$

Штраф за краткость

Измененная точность n-грамм неоправданно высоко оценивает строки-кандидаты, которые являются « телеграфными », то есть содержат все n-граммы ссылочных строк, но встречаются так мало раз, как это возможно.

Чтобы наказать слишком короткие строки-кандидаты, определите штраф за краткость следующим образом: где — положительная часть числа . $BP({\hat {S}};S):=e^{-(r/c-1)^{+}}$ $(r/c-1)^{+}=\max(0,r/c-1)$ $r/c-1$

Когда , штраф за краткость , это означает, что мы не наказываем длинных кандидатов, а наказываем только коротких кандидатов. $r\leq c$ $BP=1$
Когда штраф за краткость $r>c$ $BP=e^{1-r/c}$

$c$ — длина корпуса кандидатов, то есть, где — длина . $c:=\sum _{i=1}^{M}|{\hat {y}}^{(i)}|$ $|y|$ $y$

$r$ — эффективная длина эталонного корпуса , то есть, где , то есть предложение, длина которого максимально близка к . $r:=\sum _{i=1}^{M}|y^{(i,j)}|$ $y^{(i,j)}=\arg \min _{y\in S_{i}}||y|-|{\hat {y}}^{(i)}||$ $S_{i}$ $|{\hat {y}}^{(i)}|$

Окончательное определение BLEU

Не существует единого определения BLEU, а есть целое семейство, параметризованное весовым вектором . Это распределение вероятностей на , то есть , и . $w:=(w_{1},w_{2},\cdots )$ $\{1,2,3,\cdots \}$ $\sum _{i=1}^{\infty }w_{i}=1$ $\forall i\in \{1,2,3,\cdots \},w_{i}\in [0,1]$

При выборе , оценка BLEU равна В словах это взвешенное геометрическое среднее всех измененных n-граммных точностей, умноженное на штраф за краткость. Мы используем взвешенное геометрическое среднее, а не взвешенное арифметическое среднее, чтобы отдать предпочтение корпусам кандидатов, которые одновременно хороши по нескольким n-граммным точности. $w$ $BLEU_{w}({\hat {S}};S):=BP({\hat {S}};S)\cdot \exp \left(\sum _{n=1}^{\infty }w_{n}\ln p_{n}({\hat {S}};S)\right)$

Наиболее типичный выбор, рекомендованный в оригинальной статье, — это . ^[1] $w_{1}=\cdots =w_{4}={\frac {1}{4}}$

Алгоритм

Это проиллюстрировано в следующем примере из работы Папинени и др. (2002):

Пример плохого машинного перевода с высокой точностью
Кандидат	the	the	the	the	the	the	the
Ссылка 1	the	кот	является	на	the	мат
Ссылка 2	там	является	а	кот	на	the	мат

Из семи слов в переводе-кандидате все они появляются в справочных переводах. Таким образом, текст-кандидат получает точность униграммы,

P={\frac {m}{w_{t}}}={\frac {7}{7}}=1

где — количество слов из кандидата, которые найдены в ссылке, а — общее количество слов в кандидате. Это идеальный результат, несмотря на то, что перевод кандидата выше сохраняет мало из содержания любой из ссылок. $~m$ $~w_{t}$

Модификация, которую делает BLEU, довольно проста. Для каждого слова в переводе-кандидате алгоритм берет его максимальное общее количество, , в любом из справочных переводов. В приведенном выше примере слово "the" появляется дважды в ссылке 1 и один раз в ссылке 2. Таким образом , . $~m_{max}$ $~m_{max}=2$

Для перевода-кандидата количество каждого слова обрезается до максимума для этого слова. В этом случае "the" имеет и , поэтому обрезается до 2. Эти обрезанные количества затем суммируются по всем отдельным словам в кандидате. Затем эта сумма делится на общее количество униграмм в переводе-кандидате. В приведенном выше примере модифицированная оценка точности униграмм будет: $m_{w}$ $m_{max}$ $~m_{w}=7$ $~m_{max}=2$ $~m_{w}$ $~m_{w}$

P={\frac {2}{7}}

Однако на практике использование отдельных слов в качестве единицы сравнения не является оптимальным. Вместо этого BLEU вычисляет ту же самую модифицированную метрику точности с использованием n-грамм . Длина, которая имеет «наибольшую корреляцию с одноязычными человеческими суждениями» ^[6], оказалась равной четырем. Оценки униграмм, как обнаружено, учитывают адекватность перевода, то, сколько информации сохраняется. Более длинные оценки $n$ -грамм учитывают беглость перевода или то, в какой степени он читается как «хороший английский».

Сравнение показателей для кандидата «кот»
Модель	Набор граммов	Счет
Униграмма	"тот", "тот", "кот"	${\frac {1+1+1}{3}}=1$
Сгруппированная униграмма	"the"2, "cat"1	${\frac {1+1}{2+1}}={\frac {2}{3}}$
Биграмма	"the the", "the cat"	${\frac {0+1}{2}}={\frac {1}{2}}$

Примером возможного перевода для тех же ссылок, что и выше, может быть:

кот

В этом примере точность модифицированной униграммы будет равна:

P={\frac {1}{2}}+{\frac {1}{2}}={\frac {2}{2}}

так как слово 'the' и слово 'cat' встречаются в кандидате по одному разу, а общее количество слов равно двум. Измененная точность биграммы будет такой же, как и биграмма, "the cat" встречается в кандидате один раз. Было отмечено, что точность обычно сочетается с отзывом, чтобы преодолеть эту проблему ^[7] , так как отзыв униграммы в этом примере будет или . Проблема в том, что, поскольку существует несколько референтных переводов, плохой перевод может легко иметь завышенный отзыв, например, перевод, который состоит из всех слов в каждой из ссылок. ^[8] $1/1$ $3/6$ $2/7$

Чтобы получить оценку для всего корпуса, модифицированные оценки точности для сегментов объединяются с использованием геометрического среднего, умноженного на штраф за краткость, чтобы предотвратить получение слишком высокой оценки очень короткими кандидатами. Пусть $r$ будет общей длиной справочного корпуса, а $c —$ общей длиной корпуса перевода. Если , применяется штраф за краткость, определяемый как . (В случае нескольких справочных предложений $r$ принимается как сумма длин предложений, длины которых наиболее близки к длинам предложений-кандидатов. Однако в версии метрики, используемой оценками NIST до 2009 года, вместо этого использовалось самое короткое справочное предложение.) $c\leq r$ $e^{(1-r/c)}$

iBLEU — это интерактивная версия BLEU, которая позволяет пользователю визуально проверять баллы BLEU, полученные кандидатами на переводы. Она также позволяет сравнивать две разные системы визуально и интерактивно, что полезно для разработки систем. ^[9]

Производительность

Часто сообщалось, что BLEU хорошо коррелирует с человеческим суждением, ^[10]^[11]^[12] и остается эталоном для оценки любой новой метрики оценки. Однако есть ряд критических замечаний, которые были высказаны. Было отмечено, что, хотя в принципе и способен оценивать переводы любого языка, BLEU в его нынешнем виде не может работать с языками, в которых отсутствуют границы слов. ^[13] Разработанный для использования для нескольких справочных переводов, на практике он используется только с одним. ^[2] BLEU печально известен своей зависимостью от техники токенизации , и баллы, полученные с помощью разных методов, несопоставимы (что часто упускается из виду); для улучшения воспроизводимости и сопоставимости был разработан вариант SacreBLEU. ^[2]

Утверждается, что, хотя BLEU имеет значительные преимущества, нет гарантии, что увеличение оценки BLEU является показателем улучшения качества перевода. ^[14]

Смотрите также

Примечания

^ Папинени, К. и др. (2002)
^ Папинени, К. и др. (2002)
^ Кофлин, Д. (2003)
^ Папинени, К. и др. (2002)
^ Папинени, К. и др. (2002)
^ Папинени, К. и др. (2002)
^ Кофлин, Д. (2003)
^ Доддингтон, Г. (2002)
^ Денуаль, Э. и Лепаж, И. (2005)
^ Каллисон-Берч, К., Осборн, М. и Коэн, П. (2006)
^ Ли, А. и Пшибоцкий, М. (2005)
^ Каллисон-Берч, К., Осборн, М. и Коэн, П. (2006)
^ Лин, К. и Оч, Ф. (2004)
^ Каллисон-Берч, К., Осборн, М. и Коэн, П. (2006)
^ Маднани, Н. (2011)

Ссылки

^ Папинени, Кишор; Рукос, Салим; Уорд, Тодд; Чжу, Вэй-Цзин (2001). "BLEU". Труды 40-го ежегодного собрания Ассоциации компьютерной лингвистики - ACL '02 . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 311. doi : 10.3115/1073083.1073135 . S2CID 11080756.
^ ab "BLEU: Непонятая метрика из другой эпохи". 5 ноября 2022 г.

Библиография

Папинени, К.; Роукос, С.; Уорд, Т.; Чжу, В. Дж. (2002). BLEU: метод автоматической оценки машинного перевода (PDF) . ACL-2002: 40-е ежегодное заседание Ассоциации компьютерной лингвистики. С. 311–318 . CiteSeerX 10.1.1.19.9416 .
Папинени, К., Рукос, С., Уорд, Т., Хендерсон, Дж. и Ридер, Ф. (2002). «Комплексная и диагностическая оценка машинного перевода на основе корпуса: начальные результаты по арабскому, китайскому, французскому и испанскому языкам, заархивированные 4 марта 2016 г. в Wayback Machine » в Трудах Human Language Technology 2002 г., Сан-Диего, стр. 132–137
Callison-Burch, C., Osborne, M. и Koehn, P. (2006) «Переоценка роли BLEU в исследованиях машинного перевода. Архивировано 4 декабря 2008 г. в Wayback Machine » на 11-й конференции Европейского отделения Ассоциации компьютерной лингвистики: EACL 2006, стр. 249–256.
Доддингтон, Г. (2002) «Автоматическая оценка качества машинного перевода с использованием статистики совпадений n-грамм. Архивировано 12 октября 2013 г. в Wayback Machine » в Трудах конференции Human Language Technology Conference (HLT), Сан-Диего, Калифорния, стр. 128–132.
Кофлин, Д. (2003) «Соотнесение автоматизированных и человеческих оценок качества машинного перевода. Архивировано 6 сентября 2008 г. в Wayback Machine » на MT Summit IX, Новый Орлеан, США, стр. 23–27
Денуаль, Э. и Лепаж, И. (2005) «BLEU в символах: к автоматической оценке машинного перевода в языках без разделителей слов. Архивировано 18 июля 2011 г. в Wayback Machine » в сопроводительном томе к трудам Второй международной совместной конференции по обработке естественного языка, стр. 81–86.
Ли, А. и Пржибоцкий, М. (2005) Официальные результаты оценки машинного перевода NIST 2005
Лин, К. и Оч, Ф. (2004) «Автоматическая оценка качества машинного перевода с использованием статистики наибольшей общей подпоследовательности и пропуска биграмм » , архивировано 5 июля 2008 г. в Wayback Machine, в трудах 42-го ежегодного собрания Ассоциации компьютерной лингвистики .
Маднани, Н. (2011). «iBLEU: интерактивная оценка и отладка систем статистического машинного перевода» в «Трудах пятой международной конференции IEEE по семантическим вычислениям (демонстрации), Пало-Альто, Калифорния», стр. 213–214

Внешние ссылки

BLEU – Двуязычная оценка, лекция дублера курса машинного перевода от Технологического института Карлсруэ, Coursera

[1] Папинени, Кишор; Рукос, Салим; Уорд, Тодд; Чжу, Вэй-Цзин (2001). "BLEU". Труды 40-го ежегодного собрания Ассоциации компьютерной лингвистики - ACL '02 . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 311. doi : 10.3115/1073083.1073135 . S2CID 11080756.

[Marie-2] "BLEU: Непонятая метрика из другой эпохи". 5 ноября 2022 г.