ЕвроМатриксПлюс

EuroMatrixPlus — проект, который реализовывался с марта 2009 года по февраль 2012 года. EuroMatrixPlus стал преемником проекта EuroMatrix (сентябрь 2006 года — февраль 2009 года) и продолжил разработку и совершенствование систем машинного перевода (МП) для языков Европейского союза (ЕС).

Цели проекта

EuroMatrixPlus сосредоточился на достижении нескольких целей:

  • Продолжить развитие технологии машинного перевода (создать системы машинного перевода для всех официальных языков ЕС и предоставить другим исследователям машинного перевода имеющиеся данные и инфраструктуру).
  • Постоянно расширять и исследовать различные подходы и методы машинного перевода; оставаться открытым для новых комбинаций методов машинного перевода.
  • Чтобы донести MT до пользователей. Пользователи редактируют вывод статистических моделей, а система учится на отзывах и совершенствуется. Были нацелены на две группы пользователей:
    • Профессиональные переводчики и бюро переводов
    • Пользователи, которые добровольно переводят тексты на свой родной язык
  • Внести вклад в исследования МТ в Европе.
  • Разработать образец приложения для автоматического перевода новостей и веб-страниц и сделать это приложение свободно доступным.

Исход

EuroMatrixPlus внесла вклад в область МП несколькими способами. Она продолжила разработку статистической машины МП с открытым исходным кодом Moses . Проект работал над исследованием гибридных подходов к МП (комбинация правильных и статистических методов). Проект организовал несколько «марафонов МП» и ежегодных оценочных кампаний. Проект также привел к выпуску 196 научных публикаций.

Результаты работы были сгруппированы в десять рабочих пакетов: [1]

  • WP1: Статистический перевод на основе расширенного дерева
  • WP2: Гибридный машинный перевод
  • WP3: Расширенные методы обучения машинному переводу
  • WP4: Инструменты и данные с открытым исходным кодом
  • WP5: Среды перевода «WikiTrans»
  • WP6: Интегрированный рабочий процесс локализации
  • WP7: Оценочная кампания
  • WP8: Управление проектами и распространение
  • WP9: Интеграция словацких языковых ресурсов
  • WP10: Статистический перевод на основе HPSG

Программное обеспечение и данные

Вот список программного обеспечения и данных, выпущенных в рамках проекта: [2]

  • Appraise – инструмент с открытым исходным кодом для ручной оценки результатов машинного перевода
  • БУРГЕР – Болгарский ресурс
  • BulTreeBank – болгарский банк деревьев
  • CSLM toolkit – бесплатный инструмент для обучения языковых моделей непрерывного пространства (CSLM) для больших задач
  • Caitra – инструмент для постредактирования результатов машинного перевода
  • Europarl - параллельный корпус Европейского парламента
  • IRSTLM toolkit – инструмент для обучения языковых моделей
  • Joshua – декодер статистического машинного перевода с открытым исходным кодом для иерархического и синтаксического машинного перевода
  • MT Server Land – архитектура с открытым исходным кодом для MT
  • Моисей – статистический МТ
  • MultiUN Corpora – параллельный корпус, извлеченный с веб-сайта Организации Объединенных Наций
  • PCEDT 2.0 – Чешско-английский древовидный банк зависимостей в Праге
  • PEDT 2.0 – английская часть чешско-английского древовидного банка зависимостей в Праге
  • Словацкие корпуса – англо-словацкий и чешско-словацкий, а также словацко-английский и словацко-чешский параллельные корпуса
  • Словацкий банк деревьев – банк деревьев зависимости
  • TermEx – инструмент извлечения статистической терминологии, совместимый с RBMT
  • Treex, TectoMT

Финансирование

Проект EuroMatrixPlus спонсировался программой ЕС «Технологии информационного общества» .

Общая стоимость проекта составила 5 942 121 €, из которых Европейский Союз внес 4 266 896 €. [3]

Участники проекта

Чтобы обеспечить прогресс в области машинного перевода, несколько организаций, являющихся экспертами в различных дисциплинах (лингвистика, информатика, математика, перевод), объединились для сотрудничества в рамках проекта EuroMatrixPlus.

Консорциум состоял из академических и коммерческих партнеров. Академическими партнерами были Эдинбургский университет (Великобритания), DFKI – Немецкий исследовательский центр искусственного интеллекта (Германия), Карлов университет (Чешская Республика), Университет Джонса Хопкинса (США), Университет Ле-Мана (Франция), Fondazione Bruno Kessler (Италия), Дублинский городской университет (Ирландия). Примерно через год после начала проекта к нему присоединились два учреждения. Это были Институт лингвистики им. Людовита Штура (Словацкая Республика) и IICT – Институт информационных и коммуникационных технологий Болгарской академии наук (Болгария).

Коммерческими партнерами выступили Lucy Software and Services GmbH (Германия) и CEET sro (Чешская Республика).

Координация проекта была в руках DFKI с его лабораторией языковых технологий в Саарбрюккене. Главным исследователем и научным координатором был Ханс Ушкорайт , профессор компьютерной лингвистики в Саарландском университете .

Ссылки

  1. ^ Рабочие пакеты
  2. ^ Программное обеспечение и данные
  3. ^ cordis.europa.eu/project/rcn/89512_en.html
  • www.euromatrixplus.net
  • официальная домашняя страница
  • Официальная домашняя страница EuroMatrix
Retrieved from "https://en.wikipedia.org/w/index.php?title=EuroMatrixPlus&oldid=1165972866"