EuroMatrixPlus — проект, который реализовывался с марта 2009 года по февраль 2012 года. EuroMatrixPlus стал преемником проекта EuroMatrix (сентябрь 2006 года — февраль 2009 года) и продолжил разработку и совершенствование систем машинного перевода (МП) для языков Европейского союза (ЕС).
Цели проекта
EuroMatrixPlus сосредоточился на достижении нескольких целей:
- Продолжить развитие технологии машинного перевода (создать системы машинного перевода для всех официальных языков ЕС и предоставить другим исследователям машинного перевода имеющиеся данные и инфраструктуру).
- Постоянно расширять и исследовать различные подходы и методы машинного перевода; оставаться открытым для новых комбинаций методов машинного перевода.
- Чтобы донести MT до пользователей. Пользователи редактируют вывод статистических моделей, а система учится на отзывах и совершенствуется. Были нацелены на две группы пользователей:
- Профессиональные переводчики и бюро переводов
- Пользователи, которые добровольно переводят тексты на свой родной язык
- Внести вклад в исследования МТ в Европе.
- Разработать образец приложения для автоматического перевода новостей и веб-страниц и сделать это приложение свободно доступным.
Исход
EuroMatrixPlus внесла вклад в область МП несколькими способами. Она продолжила разработку статистической машины МП с открытым исходным кодом Moses . Проект работал над исследованием гибридных подходов к МП (комбинация правильных и статистических методов). Проект организовал несколько «марафонов МП» и ежегодных оценочных кампаний. Проект также привел к выпуску 196 научных публикаций.
Результаты работы были сгруппированы в десять рабочих пакетов: [1]
- WP1: Статистический перевод на основе расширенного дерева
- WP2: Гибридный машинный перевод
- WP3: Расширенные методы обучения машинному переводу
- WP4: Инструменты и данные с открытым исходным кодом
- WP5: Среды перевода «WikiTrans»
- WP6: Интегрированный рабочий процесс локализации
- WP7: Оценочная кампания
- WP8: Управление проектами и распространение
- WP9: Интеграция словацких языковых ресурсов
- WP10: Статистический перевод на основе HPSG
Программное обеспечение и данные
Вот список программного обеспечения и данных, выпущенных в рамках проекта: [2]
- Appraise – инструмент с открытым исходным кодом для ручной оценки результатов машинного перевода
- БУРГЕР – Болгарский ресурс
- BulTreeBank – болгарский банк деревьев
- CSLM toolkit – бесплатный инструмент для обучения языковых моделей непрерывного пространства (CSLM) для больших задач
- Caitra – инструмент для постредактирования результатов машинного перевода
- Europarl - параллельный корпус Европейского парламента
- IRSTLM toolkit – инструмент для обучения языковых моделей
- Joshua – декодер статистического машинного перевода с открытым исходным кодом для иерархического и синтаксического машинного перевода
- MT Server Land – архитектура с открытым исходным кодом для MT
- Моисей – статистический МТ
- MultiUN Corpora – параллельный корпус, извлеченный с веб-сайта Организации Объединенных Наций
- PCEDT 2.0 – Чешско-английский древовидный банк зависимостей в Праге
- PEDT 2.0 – английская часть чешско-английского древовидного банка зависимостей в Праге
- Словацкие корпуса – англо-словацкий и чешско-словацкий, а также словацко-английский и словацко-чешский параллельные корпуса
- Словацкий банк деревьев – банк деревьев зависимости
- TermEx – инструмент извлечения статистической терминологии, совместимый с RBMT
- Treex, TectoMT
Финансирование
Проект EuroMatrixPlus спонсировался программой ЕС «Технологии информационного общества» .
Общая стоимость проекта составила 5 942 121 €, из которых Европейский Союз внес 4 266 896 €. [3]
Участники проекта
Чтобы обеспечить прогресс в области машинного перевода, несколько организаций, являющихся экспертами в различных дисциплинах (лингвистика, информатика, математика, перевод), объединились для сотрудничества в рамках проекта EuroMatrixPlus.
Консорциум состоял из академических и коммерческих партнеров. Академическими партнерами были Эдинбургский университет (Великобритания), DFKI – Немецкий исследовательский центр искусственного интеллекта (Германия), Карлов университет (Чешская Республика), Университет Джонса Хопкинса (США), Университет Ле-Мана (Франция), Fondazione Bruno Kessler (Италия), Дублинский городской университет (Ирландия). Примерно через год после начала проекта к нему присоединились два учреждения. Это были Институт лингвистики им. Людовита Штура (Словацкая Республика) и IICT – Институт информационных и коммуникационных технологий Болгарской академии наук (Болгария).
Коммерческими партнерами выступили Lucy Software and Services GmbH (Германия) и CEET sro (Чешская Республика).
Координация проекта была в руках DFKI с его лабораторией языковых технологий в Саарбрюккене. Главным исследователем и научным координатором был Ханс Ушкорайт , профессор компьютерной лингвистики в Саарландском университете .
Ссылки
- ^ Рабочие пакеты
- ^ Программное обеспечение и данные
- ^ cordis.europa.eu/project/rcn/89512_en.html
Внешние ссылки
- официальная домашняя страница
- Официальная домашняя страница EuroMatrix