LEPOR ( штраф за длину, точность , штраф за разницу в положении n-грамм и полноту ) — это автоматическая независимая от языка метрика оценки машинного перевода с настраиваемыми параметрами и усиленными факторами.
С тех пор как IBM предложила и реализовала систему BLEU [1] в качестве автоматической метрики для оценки машинного перевода (MT), [2] было предложено много других методов для ее пересмотра или улучшения, таких как TER, METEOR [3] и т. д. Однако существуют некоторые проблемы в традиционных автоматических метриках оценки . Некоторые метрики хорошо работают на определенных языках, но плохо на других, что обычно называется проблемой языкового смещения. Некоторые метрики полагаются на множество языковых особенностей или лингвистической информации, что затрудняет повторение экспериментов другими исследователями. LEPOR — это автоматическая метрика оценки, которая пытается решить некоторые из существующих проблем. [4] LEPOR разработан с расширенными факторами и соответствующими настраиваемыми параметрами для решения проблемы языкового смещения. Кроме того, в улучшенной версии LEPOR, то есть hLEPOR, [5] она пытается использовать оптимизированные лингвистические особенности, которые извлекаются из древовидных банков . Другая продвинутая версия LEPOR — это метрика nLEPOR, [6] которая добавляет признаки n-грамм в предыдущие факторы. Пока что метрика LEPOR была развита в серии LEPOR. [7] [8]
Метрики LEPOR изучались и анализировались многими исследователями из разных областей, таких как машинный перевод, [9] генерация естественного языка , [10] и поиск, [11] и т. д. Метрики LEPOR привлекают все больше внимания со стороны научных исследователей в области обработки естественного языка .
LEPOR [4] разработан с факторами расширенного штрафа за длину, точность , штраф за порядок слов n-грамм и отзыв . Расширенный штраф за длину гарантирует, что перевод гипотезы, который обычно переводится системами машинного перевода, наказывается, если он длиннее или короче, чем эталонный перевод. Оценка точности отражает точность перевода гипотезы. Оценка отзыва отражает лояльность перевода гипотезы к эталонному переводу или исходному языку. Фактор штрафа за порядок слов на основе n-грамм разработан для различных порядков позиций между переводом гипотезы и эталонным переводом. Фактор штрафа за порядок слов доказал свою полезность многими исследователями, например, в работе Вонга и Кита (2008). [12]
В свете того, что метрики сопоставления строк на поверхности слов критиковались за отсутствие синтаксической и семантической осведомленности, более разработанная метрика LEPOR (hLEPOR) исследует интеграцию лингвистических признаков, таких как часть речи (POS). [5] [8] POS вводится как определенная функциональность как синтаксической, так и семантической точек зрения, например, если токен выходного предложения является глаголом, в то время как ожидается, что это будет существительное, то должен быть штраф; также, если POS тот же самый, но точное слово не то же самое, например, good против nice, то этот кандидат должен получить определенный кредит. Затем общий балл hLEPOR рассчитывается как комбинация балла на уровне слова и балла на уровне POS с набором весов. Знание n-грамм, вдохновленное языковым моделированием, также широко изучается в nLEPOR. [6] [8] В дополнение к знаниям n-грамм для расчета штрафа за разницу в позициях n-грамм, n-грамм также применяется к точности n-грамм и отзыву n-грамм в nLEPOR, а параметр n является регулируемым фактором. В дополнение к знаниям POS в hLEPOR, структура фразы из информации о синтаксическом анализе включена в новый вариант HPPR. [13] В моделировании оценки HPPR набор структур фраз, таких как именная группа, глагольная группа, предложная группа, наречная группа рассматриваются во время сопоставления текста-кандидата с эталонным текстом.
Метрики LEPOR изначально были реализованы на языке программирования Perl [14] , а недавно версия на Python [15] стала доступна другим исследователям и инженерам [16] после пресс-релиза [17] от компании Logrus Global Language Service.
Серия LEPOR показала хорошие результаты на ежегодном международном семинаре ACL по статистическому машинному переводу (ACL-WMT). ACL-WMT проводится специальной группой по машинному переводу (SIGMT) в международной ассоциации компьютерной лингвистики (ACL). В ACL-WMT 2013 [18] есть два направления перевода и оценки: с английского на другой и с другого на английский. К «другим» языкам относятся испанский , французский , немецкий , чешский и русский . В направлении с английского на другой метрика nLEPOR достигает наивысшего показателя корреляции на системном уровне с человеческими суждениями с использованием коэффициента корреляции Пирсона, второго по величине показателя корреляции на системном уровне с человеческими суждениями с использованием коэффициента ранговой корреляции Спирмена . В направлении «другой-английский» nLEPOR демонстрирует умеренные результаты, а METEOR показывает наивысшую оценку корреляции с человеческими суждениями, что объясняется тем, что nLEPOR использует только краткую лингвистическую характеристику, информацию о частях речи, за исключением официально предлагаемых обучающих данных; однако METEOR использовал множество других внешних ресурсов, таких как словари синонимов , парафразы , морфологию и т. д.
Одна расширенная работа и введение о производительности LEPOR в различных условиях, включая чистую форму поверхности слова, особенности POS , особенности фразовых тегов, описаны в диссертации из Университета Макао . [8]
Существует глубокий статистический анализ производительности hLEPOR и nLEPOR в WMT13, который показывает, что он показал себя как один из лучших показателей «как при оценке отдельных языковых пар для перевода с испанского на английский, так и для совокупного набора из 9 языковых пар», см. статью (Точная оценка показателей машинного перевода на уровне сегмента) «https://www.aclweb.org/anthology/N15-1124» Грэм и др. 2015 NAACL (https://github.com/ygraham/segment-mteval)
Автоматические метрические ряды LEPOR применялись и использовались многими исследователями из разных областей обработки естественного языка . Например, в стандартном МП и нейронном МП. [19] Также за пределами сообщества МП, например, [11] применили LEPOR в оценке поиска; [20] упомянули применение LEPOR для оценки генерации кода (языка программирования); [10] исследовали автоматическую оценку генерации естественного языка [21] с метриками, включая LEPOR, и утверждали, что автоматические метрики могут помочь в оценках на уровне системы; также LEPOR применяется в оценке подписей к изображениям. [22]