ЛЕПОР

Модель автоматической оценки перевода

LEPOR ( штраф за длину, точность , штраф за разницу в положении n-грамм и полноту ) — это автоматическая независимая от языка метрика оценки машинного перевода с настраиваемыми параметрами и усиленными факторами.

Фон

С тех пор как IBM предложила и реализовала систему BLEU [1] в качестве автоматической метрики для оценки машинного перевода (MT), [2] было предложено много других методов для ее пересмотра или улучшения, таких как TER, METEOR [3] и т. д. Однако существуют некоторые проблемы в традиционных автоматических метриках оценки . Некоторые метрики хорошо работают на определенных языках, но плохо на других, что обычно называется проблемой языкового смещения. Некоторые метрики полагаются на множество языковых особенностей или лингвистической информации, что затрудняет повторение экспериментов другими исследователями. LEPOR — это автоматическая метрика оценки, которая пытается решить некоторые из существующих проблем. [4] LEPOR разработан с расширенными факторами и соответствующими настраиваемыми параметрами для решения проблемы языкового смещения. Кроме того, в улучшенной версии LEPOR, то есть hLEPOR, [5] она пытается использовать оптимизированные лингвистические особенности, которые извлекаются из древовидных банков . Другая продвинутая версия LEPOR — это метрика nLEPOR, [6] которая добавляет признаки n-грамм в предыдущие факторы. Пока что метрика LEPOR была развита в серии LEPOR. [7] [8]

Метрики LEPOR изучались и анализировались многими исследователями из разных областей, таких как машинный перевод, [9] генерация естественного языка , [10] и поиск, [11] и т. д. Метрики LEPOR привлекают все больше внимания со стороны научных исследователей в области обработки естественного языка .

Дизайн

LEPOR [4] разработан с факторами расширенного штрафа за длину, точность , штраф за порядок слов n-грамм и отзыв . Расширенный штраф за длину гарантирует, что перевод гипотезы, который обычно переводится системами машинного перевода, наказывается, если он длиннее или короче, чем эталонный перевод. Оценка точности отражает точность перевода гипотезы. Оценка отзыва отражает лояльность перевода гипотезы к эталонному переводу или исходному языку. Фактор штрафа за порядок слов на основе n-грамм разработан для различных порядков позиций между переводом гипотезы и эталонным переводом. Фактор штрафа за порядок слов доказал свою полезность многими исследователями, например, в работе Вонга и Кита (2008). [12]

В свете того, что метрики сопоставления строк на поверхности слов критиковались за отсутствие синтаксической и семантической осведомленности, более разработанная метрика LEPOR (hLEPOR) исследует интеграцию лингвистических признаков, таких как часть речи (POS). [5] [8] POS вводится как определенная функциональность как синтаксической, так и семантической точек зрения, например, если токен выходного предложения является глаголом, в то время как ожидается, что это будет существительное, то должен быть штраф; также, если POS тот же самый, но точное слово не то же самое, например, good против nice, то этот кандидат должен получить определенный кредит. Затем общий балл hLEPOR рассчитывается как комбинация балла на уровне слова и балла на уровне POS с набором весов. Знание n-грамм, вдохновленное языковым моделированием, также широко изучается в nLEPOR. [6] [8] В дополнение к знаниям n-грамм для расчета штрафа за разницу в позициях n-грамм, n-грамм также применяется к точности n-грамм и отзыву n-грамм в nLEPOR, а параметр n является регулируемым фактором. В дополнение к знаниям POS в hLEPOR, структура фразы из информации о синтаксическом анализе включена в новый вариант HPPR. [13] В моделировании оценки HPPR набор структур фраз, таких как именная группа, глагольная группа, предложная группа, наречная группа рассматриваются во время сопоставления текста-кандидата с эталонным текстом.

Реализация программного обеспечения

Метрики LEPOR изначально были реализованы на языке программирования Perl [14] , а недавно версия на Python [15] стала доступна другим исследователям и инженерам [16] после пресс-релиза [17] от компании Logrus Global Language Service.

Производительность

Серия LEPOR показала хорошие результаты на ежегодном международном семинаре ACL по статистическому машинному переводу (ACL-WMT). ACL-WMT проводится специальной группой по машинному переводу (SIGMT) в международной ассоциации компьютерной лингвистики (ACL). В ACL-WMT 2013 [18] есть два направления перевода и оценки: с английского на другой и с другого на английский. К «другим» языкам относятся испанский , французский , немецкий , чешский и русский . В направлении с английского на другой метрика nLEPOR достигает наивысшего показателя корреляции на системном уровне с человеческими суждениями с использованием коэффициента корреляции Пирсона, второго по величине показателя корреляции на системном уровне с человеческими суждениями с использованием коэффициента ранговой корреляции Спирмена . В направлении «другой-английский» nLEPOR демонстрирует умеренные результаты, а METEOR показывает наивысшую оценку корреляции с человеческими суждениями, что объясняется тем, что nLEPOR использует только краткую лингвистическую характеристику, информацию о частях речи, за исключением официально предлагаемых обучающих данных; однако METEOR использовал множество других внешних ресурсов, таких как словари синонимов , парафразы , морфологию и т. д.

Одна расширенная работа и введение о производительности LEPOR в различных условиях, включая чистую форму поверхности слова, особенности POS , особенности фразовых тегов, описаны в диссертации из Университета Макао . [8]

Существует глубокий статистический анализ производительности hLEPOR и nLEPOR в WMT13, который показывает, что он показал себя как один из лучших показателей «как при оценке отдельных языковых пар для перевода с испанского на английский, так и для совокупного набора из 9 языковых пар», см. статью (Точная оценка показателей машинного перевода на уровне сегмента) «https://www.aclweb.org/anthology/N15-1124» Грэм и др. 2015 NAACL (https://github.com/ygraham/segment-mteval)

Приложения

Автоматические метрические ряды LEPOR применялись и использовались многими исследователями из разных областей обработки естественного языка . Например, в стандартном МП и нейронном МП. [19] Также за пределами сообщества МП, например, [11] применили LEPOR в оценке поиска; [20] упомянули применение LEPOR для оценки генерации кода (языка программирования); [10] исследовали автоматическую оценку генерации естественного языка [21] с метриками, включая LEPOR, и утверждали, что автоматические метрики могут помочь в оценках на уровне системы; также LEPOR применяется в оценке подписей к изображениям. [22]

Смотрите также

Примечания

  1. ^ Папинени и др. (2002)
  2. ^ Хан (2016)
  3. ^ Баннерджи и Лави (2005)
  4. ^ ab Хан и др. (2012)
  5. ^ ab Хан и др. (2013a)
  6. ^ ab Хан и др. (2013b)
  7. ^ Хан и др. (2014)
  8. ^ abcd Хан (2014)
  9. ^ Грэм и др. (2015)
  10. ^ ab Новикова и др. (2017)
  11. ^ ab Лю и др. (2021)
  12. ^ Вонг и Кит (2008)
  13. ^ Хан и др. (2013c)
  14. ^ «GitHub — aaronlifenghan/Aaron-project-lepor: LEPOR: надежная метрика оценки машинного перевода с расширенными факторами» . Гитхаб . 8 января 2022 г.
  15. ^ «HLepor: это порт оригинального алгоритма Аарона Ли-Фэн Хана на Python» .
  16. ^ "GitHub - lHan87/LEPOR" . Гитхаб . 5 мая 2021 г.
  17. ^ Global, Logrus (30 апреля 2021 г.). "Logrus Global добавляет реализацию метрики оценки качества перевода hLEPOR на Python на PyPi.org". Slator (пресс-релиз) . Получено 2 ноября 2022 г.
  18. ^ ACL-WMT (2013)
  19. ^ Марзук и Хансен-Ширра (2019)
  20. ^ Лигуори и др. (2021)
  21. ^ Целикйилмаз и др. (2020)
  22. ^ Цю и др. (2020)

Ссылки

  • Папинени, К., Роукос, С., Уорд, Т. и Чжу, В. Дж. (2002). «BLEU: метод автоматической оценки машинного перевода» в ACL-2002: 40-е ежегодное заседание Ассоциации компьютерной лингвистики, стр. 311–318
  • Хан, Альф, Вонг, Дф и Чао, Лс (2012) «LEPOR: надежная метрика оценки для машинного перевода с расширенными факторами» в Трудах 24-й Международной конференции по компьютерной лингвистике (COLING 2012): Постеры, стр. 441–450. Мумбаи, Индия. Онлайн-статья Инструмент с открытым исходным кодом
  • Han, ALF, Wong, DF, Chao, LS, He, L., Lu, Y., Xing, J. и Zeng, X. (2013a) «Language-independent Model for Machine Translation Evaluation with Reinforced Factors» в Proceedings of the Machine Translation Summit XIV (MT SUMMIT 2013), стр. 215–222. Ницца, Франция. Издатель: Международная ассоциация машинного перевода. Электронная статья Архивировано 16 января 2019 г. в Wayback Machine Инструмент с открытым исходным кодом
  • Han, ALF, Wong, DF, Chao, LS, Lu, Y., He, L., Wang, Y. и Zhou, J. (2013b) «Описание настраиваемых систем оценки машинного перевода в задаче метрик WMT13» в Трудах восьмого семинара по статистическому машинному переводу, ACL-WMT13, София, Болгария. Ассоциация компьютерной лингвистики. Онлайн-статья, стр. 414–421
  • Хан, Аарон Л.-Ф.; Вонг, Дерек Ф.; Чао, Лидия С.; Хе, Лянъе; Лу, Йи (2014). «Модель оценки качества без учителя для перевода с английского на немецкий и ее применение в обширной контролируемой оценке». Журнал Scientific World . 2014 : 1– 12. doi : 10.1155/2014/760301 . PMC  4032676. PMID  24892086 .
  • ACL-WMT. (2013) «ЗАДАЧА МЕТРИК ACL-WMT13»
  • Вонг, Б. ТМ и Кит, К. (2008). «Выбор слов и позиция слов для автоматической оценки машинного перевода» в Workshop: MetricsMATR Ассоциации машинного перевода в Америке (AMTA) , краткая статья, Вайкики, США.
  • Баннерджи, С. и Лави, А. (2005) «METEOR: автоматическая метрика для оценки машинного перевода с улучшенной корреляцией с человеческими суждениями» в трудах семинара по внутренним и внешним мерам оценки машинного перевода и/или реферирования на 43-м ежегодном собрании Ассоциации компьютерной лингвистики (ACL-2005), Энн-Арбор, Мичиган, июнь 2005 г.
  • Хан, Лифенг. (2014) «LEPOR: расширенная метрика оценки машинного перевода». Диссертация на степень магистра наук в области программной инженерии. Университет Макао, Макао. [1] PPT
  • Иветт Грэм, Тимоти Болдуин и Нитика Матур. (2015) Точная оценка метрик машинного перевода на уровне сегментов. В NAACL HLT 2015, Конференция 2015 года Североамериканского отделения Ассоциации компьютерной лингвистики: Технологии человеческого языка, Денвер, Колорадо, США, 31 мая - 5 июня 2015 г., страницы 1183–1191.
  • Хан, Лифенг (2016). «Ресурсы и методы оценки машинного перевода: обзор». arXiv : 1605.04515 [cs.CL].
  • Екатерина Новикова, Ондржей Душек, Аманда Черкас Карри и Верена Ризер. (2017) Почему нам нужны новые метрики оценки для NLG. В трудах конференции 2017 года по эмпирическим методам обработки естественного языка, страницы 2241–2252, Копенгаген, Дания. Ассоциация компьютерной лингвистики.
  • Лю, Цзэян; Чжоу, Кэ; Уилсон, Макс Л. (2021). «Метаоценка метрик оценки разговорного поиска». ACM Transactions on Information Systems . 39 (4): 1– 42. arXiv : 2104.13453 . doi : 10.1145/3445029. S2CID  233423567.
  • Лигуори, Пьетро; Аль-Хоссами, Эрфан; Котронео, Доменико; Нателла, Роберто; Чукич, Боян; Шейх, Самира (2021). «Shellcode_IA32: набор данных для автоматической генерации шелл-кода». Труды 1-го семинара по обработке естественного языка для программирования (NLP4Prog 2021) . стр.  58–64 . arXiv : 2104.13100 . doi :10.18653/v1/2021.nlp4prog-1.7. S2CID  233407761.
  • Челикилмаз, Асли; Кларк, Элизабет; Гао, Цзяньфэн (2020). «Оценка генерации текста: опрос». arXiv : 2006.14799 [cs.CL].
  • D Qiu, B Rothrock, T Islam, AK Didier, VZ Sun… (2020) SCOTI: Научные субтитры изображений рельефа для приоритизации данных и локального поиска изображений. Планеты и космос. Elsevier
  • Марзук, Шаймаа; Хансен-Ширра, Сильвия (2019). «Оценка влияния контролируемого языка на нейронный машинный перевод по сравнению с другими архитектурами машинного перевода». Машинный перевод . 33 ( 1– 2): 179– 203. doi :10.1007/s10590-019-09233-w. S2CID  171094946.
  • Хан, Аарон Ли-Фэн; Вонг, Дерек Ф.; Чао, Лидия С.; Хе, Лянье; Ли, Шуо; Чжу, Лин (2013). «Сопоставление фразовых тегов для древовидных банков французского и английского языков и его применение при оценке машинного перевода». Обработка языка и знания в Интернете . Конспект лекций по информатике. Том 8105. С.  119– 131. doi :10.1007/978-3-642-40722-2_13. ISBN 978-3-642-40721-5.
  • LEPOR-код Google
  • LEPOR и hLEPOR на Git
  • hLEPOR
  • ЭБЛЕУ
  • ХППР
  • БЛЮ
  • F-мера
  • МЕТЕОР
  • ТЕР
Взято с "https://en.wikipedia.org/w/index.php?title=LEPOR&oldid=1264828530"