Европейский корпус

Переводы документов Европейского парламента

Корпус Europarl — это корпус (набор документов), состоящий из протоколов Европейского парламента с 1996 по 2012 год. В своем первом выпуске в 2001 году он охватывал одиннадцать официальных языков Европейского союза (датский, голландский, английский, финский, французский, немецкий, греческий, итальянский, португальский, испанский и шведский). [1] С политическим расширением ЕС официальные языки десяти новых государств-членов были добавлены в данные корпуса. [1] Последний выпуск (2012) [2] включал до 60 миллионов слов на язык, при этом новые добавленные языки были немного недопредставлены, поскольку данные по ним доступны только с 2007 года. Последняя версия включает 21 европейский язык: романские (французский, итальянский, испанский, португальский, румынский), германские (английский, голландский, немецкий, датский, шведский), славянские (болгарский, чешский, польский, словацкий, словенский), финно-угорские (финский, венгерский, эстонский), балтийские (латышский, литовский) и греческий. [1]

Данные, составляющие корпус, были извлечены с веб-сайта Европейского парламента, а затем подготовлены для лингвистического исследования. [1] После разделения предложений и токенизации предложения были выровнены по языкам с помощью алгоритма, разработанного Гейлом и Чёрчем (1993). [1]

Корпус был составлен и расширен группой исследователей под руководством Филиппа Кёна из Эдинбургского университета. Первоначально он был разработан для исследовательских целей в области статистического машинного перевода (SMT). Однако с момента своего первого выпуска он использовался для множества других исследовательских целей, включая, например, устранение неоднозначности смысла слов . EUROPARL также доступен для поиска через систему управления корпусами Sketch Engine . [3]

Europarl Corpus и статистический машинный перевод

В своей статье «Europarl: параллельный корпус для статистического машинного перевода» [1] Кён подводит итоги того, насколько корпус Europarl полезен для исследований в области SMT . Он использует корпус для разработки систем SMT, переводящих каждый язык на каждый из десяти других языков корпуса, что делает его 110 системами. Это позволяет Кёну создавать системы SMT для необычных языковых пар, которые не рассматривались разработчиками SMT заранее, например, финский–итальянский.

Оценка качества

Корпус Europarl может использоваться не только для разработки систем SMT, но и для их оценки. Измеряя выходные данные систем по исходным данным корпуса для целевого языка, можно оценить адекватность перевода. Для этого Кён использует метрику BLEU Папинени и др. (2002), которая подсчитывает совпадения двух сравниваемых версий — выходных данных SMT и данных корпуса — и вычисляет на этой основе оценку. [4] Чем больше похожи две версии, тем выше оценка и, следовательно, качество перевода. [1] Результаты показывают, что некоторые системы SMT работают лучше других, например, испанско-французский (40,2) по сравнению с голландско-финским (10,3). [1] Кён утверждает, что причина этого в том, что родственные языки легче переводить друг на друга, чем те, которые не являются таковыми. [1]

Обратный перевод

Кроме того, Кён использует системы SMT и данные корпуса Europarl для исследования того, является ли обратный перевод адекватным методом оценки систем машинного перевода . Для каждого языка, кроме английского, он сравнивает баллы BLEU для перевода этого языка с английского и на английский (например, английский > испанский, испанский > английский) с баллами, которые можно получить, измеряя исходные английские данные по сравнению с выходными данными, полученными при переводе с английского на каждый язык и обратном переводе на английский (например, английский > испанский > английский). [1] Результаты показывают, что баллы для обратного перевода намного выше, чем баллы для однонаправленного перевода, и, что еще важнее, они вообще не коррелируют с баллами для однонаправленного перевода. Например, баллы для однонаправленного перевода английский<>греческий (27,2 и 23,2) ниже, чем для английского<>португальский (30,1 и 27,2). Тем не менее, балл обратного перевода 56,5 для греческого выше, чем для португальского, который получает 53,6. [1] Кён объясняет это тем, что ошибки, допущенные в процессе перевода, могут быть просто устранены обратным переводом, что приведет к высокому уровню совпадений на входе и выходе. [1] Однако это не позволяет делать никаких выводов о качестве текста на фактическом целевом языке . [1] Поэтому Кён не считает обратный перевод адекватным методом оценки систем машинного перевода.

Примечания и ссылки

  1. ^ abcdefghijklm Koehn, Philipp (2005): «Europarl: параллельный корпус для статистического машинного перевода», в: MT Summit , стр. 79–86.
  2. ^ Европейский парламент, параллельный корпус протоколов 1996-2011 гг.
  3. ^ Килгаррифф, А., Байса, В., Бушта, Дж., Якубичек, М., Коварж, В., Мишельфейт, Дж., ... и Сухомель, В. (2014). Sketch Engine: десять лет спустя. Лексикография, 1(1), 7-36.
  4. ^ Папинени, Кишор и др. (2002): «BLEU. Метод автоматической оценки машинного перевода», в: Труды 40-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL), стр. 311–318.
  • Домашняя страница Europarl
  • Europarl (v3 + v7) можно загрузить с сайта Opus corpora в формате TMX/Moses
  • Корпус Europarl в Sketch Engine – версия 7, часть речи, размеченная с помощью инструмента TreeTagger
Взято с "https://en.wikipedia.org/w/index.php?title=Europarl_Corpus&oldid=1110423993"