История машинного перевода

Машинный перевод — это раздел компьютерной лингвистики , изучающий использование программного обеспечения для перевода текста или речи с одного естественного языка на другой.

В 1950-х годах машинный перевод стал реальностью в исследованиях, хотя ссылки на эту тему можно найти еще в 17 веке. Джорджтаунский эксперимент , который включал успешный полностью автоматический перевод более шестидесяти русских предложений на английский язык в 1954 году, был одним из самых ранних зарегистрированных проектов. [1] [2] Исследователи Джорджтаунского эксперимента утверждали, что они убеждены, что машинный перевод станет решенной проблемой в течение нескольких лет. [3] В Советском Союзе вскоре после этого были проведены аналогичные эксперименты. [4] Следовательно, успех эксперимента ознаменовал собой эру значительного финансирования исследований машинного перевода в Соединенных Штатах. Достигнутый прогресс был намного медленнее, чем ожидалось; в 1966 году отчет ALPAC показал, что десять лет исследований не оправдали ожиданий Джорджтаунского эксперимента и привели к резкому сокращению финансирования [ необходима ссылка ] .

Возрос интерес к статистическим моделям машинного перевода , которые стали более распространенными и менее затратными в 1980-х годах по мере увеличения доступной вычислительной мощности.

Хотя не существует автономной системы «полностью автоматического высококачественного перевода неограниченного текста» [5] [6] [7], сейчас доступно много программ, которые способны предоставлять полезный вывод в рамках строгих ограничений. Некоторые из этих программ доступны онлайн, например, Google Translate и система SYSTRAN , которая поддерживает BabelFish от AltaVista (который был заменен переводчиком Microsoft Bing в мае 2012 года).

Начало

Истоки машинного перевода можно проследить до работы Аль-Кинди , арабского криптографа 9-го века , который разработал методы системного языкового перевода, включая криптоанализ , частотный анализ , а также вероятность и статистику , которые используются в современном машинном переводе. [8] Идея машинного перевода появилась позже, в 17-м веке. В 1629 году Рене Декарт предложил универсальный язык, в котором эквивалентные идеи на разных языках разделяли один символ. [9]

В середине 1930-х годов Жорж Арцруни подал заявку на первые патенты на «переводные машины» для автоматического двуязычного словаря с использованием бумажной ленты . Россиянин Петр Троянский представил более подробное предложение [10] [11] , которое включало как двуязычный словарь, так и метод работы с грамматическими ролями между языками, основанный на грамматической системе эсперанто . Эта система была разделена на три этапа: первый этап состоял из редактора-носителя языка-источника, который организовывал слова в их логические формы и выполнял синтаксические функции; второй этап требовал, чтобы машина «переводила» эти формы на целевой язык; и третий этап требовал редактора-носителя языка-источника, который нормализовал этот вывод. Предложение Троянского оставалось неизвестным до конца 1950-х годов, когда компьютеры уже были хорошо известны и использовались.

Ранние годы

Первый набор предложений по машинному переводу на основе компьютера был представлен в 1949 году Уорреном Уивером , исследователем из Фонда Рокфеллера , в « Меморандуме о переводе ». [12] Эти предложения основывались на теории информации , успехах в области взлома кодов во время Второй мировой войны и теориях об универсальных принципах, лежащих в основе естественного языка .

Через несколько лет после того, как Уивер представил свои предложения, во многих университетах США начались серьезные исследования. 7 января 1954 года в Нью-Йорке в главном офисе IBM состоялся эксперимент Джорджтаун–IBM . Это была первая публичная демонстрация системы машинного перевода. Демонстрация широко освещалась в газетах и ​​привлекла общественный интерес. Однако сама система была не более чем «игрушечной». Она имела всего 250 слов и переводила 49 тщательно отобранных русских предложений на английский язык – в основном в области химии . Тем не менее, она поощряла идею о том, что машинный перевод неизбежен, и стимулировала финансирование исследований не только в США, но и во всем мире. [3]

Ранние системы использовали большие двуязычные словари и вручную закодированные правила для фиксации порядка слов в конечном результате, что в конечном итоге было сочтено слишком ограничительным в лингвистических разработках того времени. Например, генеративная лингвистика и трансформационная грамматика использовались для улучшения качества переводов. В этот период были установлены операционные системы. Военно-воздушные силы США использовали систему, разработанную IBM и Вашингтонским университетом в Сент-Луисе , в то время как Комиссия по атомной энергии и Евратом в Италии использовали систему, разработанную в Джорджтаунском университете . Хотя качество вывода было низким, оно удовлетворяло многим потребностям клиентов, особенно с точки зрения скорости. [ необходима цитата ]

В конце 1950-х годов правительство США попросило Иегошуа Бар-Хиллеля заняться машинным переводом, чтобы оценить возможность полностью автоматического высококачественного перевода машинами. Бар-Хиллель описал проблему семантической двусмысленности или двойного смысла, как показано в следующем предложении:

Маленький Джон искал свою коробку с игрушками. Наконец он ее нашел. Коробка была в загоне.

Слово ручка может иметь два значения: первое значение — что-то, используемое для письма чернилами; второе значение — некий контейнер. Для человека значение очевидно, но Бар-Хиллел утверждал, что без «универсальной энциклопедии» машина никогда не сможет справиться с этой проблемой. В то время этот тип семантической неоднозначности можно было решить только путем написания исходных текстов для машинного перевода на контролируемом языке , который использовал словарь , в котором каждое слово имело ровно одно значение. [ необходима цитата ]

1960-е годы, отчет ALPAC и семидесятые годы

Исследования в 1960-х годах как в Советском Союзе , так и в Соединенных Штатах были сосредоточены в основном на паре языков русский–английский. Объектами перевода были в основном научные и технические документы, такие как статьи из научных журналов . Черновых переводов было достаточно, чтобы получить базовое понимание статей. Если в статье обсуждалась тема, считавшаяся конфиденциальной, она отправлялась переводчику-человеку для полного перевода; если нет, она отбрасывалась.

Большой удар по исследованиям в области машинного перевода был нанесен в 1966 году с публикацией отчета ALPAC . Отчет был заказан правительством США и предоставлен ALPAC , Консультативным комитетом по автоматической обработке языка, группой из семи ученых, созванной правительством США в 1964 году. Правительство США было обеспокоено отсутствием прогресса, несмотря на значительные расходы. В отчете сделан вывод о том, что машинный перевод дороже, менее точен и медленнее человеческого перевода, и что, несмотря на расходы, машинный перевод вряд ли достигнет качества человеческого переводчика в ближайшем будущем.

Однако в отчете рекомендуется разработать инструменты для помощи переводчикам (например, автоматические словари), а также продолжить поддержку некоторых исследований в области компьютерной лингвистики.

Публикация отчета оказала глубокое влияние на исследования в области машинного перевода в Соединенных Штатах и, в меньшей степени, в Советском Союзе и Великобритании. Исследования, по крайней мере в США, были почти полностью прекращены на протяжении более чем десятилетия. Однако в Канаде, Франции и Германии исследования продолжались. В США основными исключениями были основатели SYSTRAN ( Питер Тома ) и Logos (Бернард Скотт), которые основали свои компании в 1968 и 1970 годах соответственно и служили Министерству обороны США. В 1970 году система SYSTRAN была установлена ​​для ВВС США , а затем в 1976 году — Комиссией Европейских сообществ. Система METEO , разработанная в Монреальском университете , была установлена ​​в Канаде в 1977 году для перевода прогнозов погоды с английского на французский и переводила около 80 000 слов в день или 30 миллионов слов в год, пока 30 сентября 2001 года ее не заменила система конкурента. [13]

В то время как исследования в 1960-х годах были сосредоточены на ограниченных языковых парах и вводе, спрос в 1970-х годах был на недорогие системы, которые могли бы переводить ряд технических и коммерческих документов. Этот спрос был вызван ростом глобализации и спросом на перевод в Канаде, Европе и Японии. [ необходима цитата ]

1980-е и начало 1990-х годов

К 1980-м годам увеличилось как разнообразие, так и количество установленных систем для машинного перевода. Использовалось несколько систем, основанных на технологии мэйнфреймов , таких как SYSTRAN , Logos , Ariane-G5 и Metal . [ необходима цитата ]

В результате повышения доступности микрокомпьютеров появился рынок для систем машинного перевода более низкого уровня. Многие компании воспользовались этим в Европе, Японии и США. Системы также были выведены на рынок в Китае, Восточной Европе, Корее и Советском Союзе . [ необходима цитата ]

В 1980-х годах в Японии было много активности в области машинного перевода. С компьютером пятого поколения Япония намеревалась обойти своих конкурентов в области компьютерного оборудования и программного обеспечения, и одним из проектов, в котором оказались задействованы многие крупные японские электронные компании, было создание программного обеспечения для перевода на английский язык и с английского языка (Fujitsu, Toshiba, NTT, Brother, Catena, Matsushita, Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki). [ необходима цитата ]

Исследования 1980-х годов, как правило, основывались на переводе с использованием различных видов промежуточной языковой репрезентации, включающей морфологический, синтаксический и семантический анализ. [ необходима ссылка ]

В конце 1980-х годов произошел большой всплеск новых методов машинного перевода. Одна из систем была разработана в IBM и основывалась на статистических методах . Макото Нагао и его группа использовали методы, основанные на большом количестве примеров перевода, технику, которая теперь называется машинным переводом на основе примеров . [14] [15] Определяющей чертой обоих этих подходов было игнорирование синтаксических и семантических правил и опора вместо этого на обработку больших текстовых корпусов .

В 1990-х годах, воодушевленные успехами в области распознавания и синтеза речи , начались исследования в области перевода речи с разработкой немецкого проекта Verbmobil .

Система Forward Area Language Converter (FALCon), технология машинного перевода, разработанная армейской исследовательской лабораторией , была введена в эксплуатацию в 1997 году для перевода документов для солдат в Боснии. [16]

Значительный рост использования машинного перевода произошел в результате появления недорогих и более мощных компьютеров. В начале 1990-х годов машинный перевод начал переходить от больших мэйнфреймов к персональным компьютерам и рабочим станциям . Двумя компаниями, которые некоторое время лидировали на рынке ПК, были Globalink и MicroTac, после чего слияние двух компаний (в декабре 1994 года) оказалось в корпоративных интересах обеих. Intergraph и Systran также начали предлагать версии для ПК примерно в это же время. Сайты также стали доступны в Интернете, такие как Babel Fish от AltaVista (использующий технологию Systran) и Google Language Tools (также изначально использовавший исключительно технологию Systran).

2000-е

Область машинного перевода претерпела серьезные изменения в 2000-х годах. Было проведено большое количество исследований в области статистического машинного перевода и машинного перевода на основе примеров . В области речевого перевода исследования были сосредоточены на переходе от систем с ограничением по домену к системам перевода без ограничений по домену. В различных исследовательских проектах в Европе (например, TC-STAR) [17] и в Соединенных Штатах (STR-DUST и DARPA Global independent language operation program ) были разработаны решения для автоматического перевода парламентских речей и новостей вещания. В этих сценариях область контента больше не ограничивалась какой-либо специальной областью, а скорее речи, подлежащие переводу, охватывали различные темы. Франко-немецкий проект Quaero исследовал возможность использования машинных переводов для многоязычного Интернета. Проект стремился переводить не только веб-страницы, но также видео и аудиофайлы в Интернете.

2010-е

За последнее десятилетие методы нейронного машинного перевода (NMT) заменили статистический машинный перевод . Термин нейронный машинный перевод был придуман Багданау и др. [18] и Сутскевером и др . [19] , которые также опубликовали первое исследование по этой теме в 2014 году. Нейронным сетям требовалась лишь часть памяти, необходимой статистическим моделям, а целые предложения могли моделироваться интегрированным образом. Первый крупномасштабный NMT был запущен Baidu в 2015 году, за которым в 2016 году последовал Google Neural Machine Translation (GNMT). За этим последовали другие службы перевода, такие как DeepL Translator , и внедрение технологии NMT в более старых службах перевода, таких как Microsoft translate .

Нейронные сети используют единую сквозную архитектуру нейронной сети, известную как последовательность к последовательности ( seq2seq ), которая использует две рекуррентные нейронные сети (RNN). Кодер RNN и декодер RNN. Кодер RNN использует векторы кодирования в исходном предложении, а декодер RNN генерирует целевое предложение на основе предыдущего вектора кодирования. [ необходима цитата ] Дальнейшие достижения в области уровня внимания, преобразования и методов обратного распространения сделали NMT гибкими и принятыми в большинстве технологий машинного перевода, реферирования и чат-ботов . [20]

Смотрите также

Примечания

  1. ^ Най, Мэри Джо (2016). «Разговор на языках: многовековая охота науки за общим языком». Дистилляции . 2 (1): 40–43 . Получено 22 марта 2018 г.
  2. ^ Гордин, Майкл Д. (2015). Научный Вавилон: Как наука делалась до и после глобального английского языка . Чикаго, Иллинойс: Издательство Чикагского университета. ISBN 978-0-226-00029-9.[ нужна страница ]
  3. ^ ab Plumb, Robert K. (8 января 1954 г.). «Русский язык превращается в английский с помощью быстрого электронного переводчика». New York Times .
  4. ^ Мадсен, Матиас Винтер (23 декабря 2009 г.). Пределы машинного перевода (диссертация). Копенгагенский университет. стр. 11.
  5. ^ Мелби, Алан К. (1995). Возможность языка . Амстердам: J. Benjamins. С. 27–41. ISBN 978-90-272-1614-4.
  6. ^ Вутен, Адам (14 февраля 2006 г.). "Простая модель, описывающая технологию перевода". T&I Business . Архивировано из оригинала 16 июля 2012 г.
  7. ^ "Приложение III к "Современному состоянию автоматического перевода языков"" (PDF) . Advances in Computers . 1960. стр. 158–163. Архивировано из оригинала (PDF) 28 сентября 2018 г. . Получено 2 мая 2009 г. .Перепечатано в Y.Bar-Hillel (1964). Язык и информация . Массачусетс: Addison-Wesley. С. 174–179.
  8. ^ Дюпон, Куинн (январь 2018 г.). «Криптологическое происхождение машинного перевода: от аль-Кинди до Уивера». Amodern (8).
  9. ^ 浜口, 稔 (30 апреля 1993 г.).英仏普遍言語計画. 工作舎. стр. 70–71. ISBN 978-4-87502-214-5.普遍的文字の構築という初期の試みに言及するときは1629 年11月にデカルトがメルセンヌに宛てた手紙から始まる、というのが通り相場となっている。しかし、この問題への関心を最初に誘発した多くの要因を吟味してみると、ある種の共通の書字という構想は明らかに、ずっと以前から比較的なじみ深いものになっていたようである。…フランシス・ベイコンは、1605年出版の学問の進歩についてのなかで、そのような真正の文字の体系は便利であると述べていたперевод из Ноулсона, Джеймса (1975). УНИВЕРСАЛЬНЫЕ ЯЗЫКОВЫЕ СХЕМЫ В АНГЛИИ И ФРАНЦИИ 1600-1800 . ISBN
     978-0-8020-5296-4.
  10. ^ 別所, 照彦; 棚橋, 善照 (15 октября 1960 г.). «自動翻訳». В 玉木, 英彦; 喜安, 善市 (ред.).自動翻訳 デ・ユ・パノフ著(на японском языке) (1-е изд.). Токио: (株)みすず書房. стр. 10–11.であろう。彼は「一つの言語から他の一つまたは同時に多数の言語への翻訳に際し、単語を選別しかつ印刷する機械」をつくることを提案した。この発明でペ・ペ・トロヤンスキーは特許をとったが、当時それを実現することは巧くいかなかった。(перевод (при содействии Google Translate ): Это, возможно, первый случай машинного перевода, который Петр Петрович Троянский предпринял в 1933 году. Он заявил, что «создание машины, которая выбирает слова и печатает их при переводе с одного языка на другой или на несколько языков». (Он одновременно получил патент на это изобретение, но реализовать его в то время не удалось.)
  11. ^ 別所, 照彦; 沢辺, 弘 (25 февраля 1964 г.).翻訳機械 (文庫クセジュ現代知識の焦点) (на японском языке) (1-е изд.). Токио: (株)白水社. п. 39.モスクワで1933年に特許をとったロシア人スミルノフ・トロヤンスキーの発明は、同時にいくつかの言語を翻訳し、遠方まで送ることを可能とするように見えた。(перевод (при помощи Google Translate ) ): изобретение, запатентованное Петром Петровичем. (В 1933 году Троянский, по-видимому, мог переводить на несколько языков одновременно и отправлял их в дальние края.), перевод с Делавени, Эмиль. LA MACHINE A TRADUIRE (Сборник QUE SAIS-JE? No.834) (на французском языке). Прессы Universitaires de France.
  12. «Меморандум Уивера». Март 1949 г. Архивировано из оригинала 5 октября 2006 г.
  13. ^ "PROCUREMENT PROCESS". Канадский международный торговый трибунал . 30 июля 2002 г. Архивировано из оригинала 6 июля 2011 г. Получено 10 февраля 2007 г.
  14. ^ Нагао, Макото (октябрь 1984 г.). «Структура механического перевода между японским и английским языками по принципу аналогии». Труды Международного симпозиума НАТО по искусственному и человеческому интеллекту . Северная Голландия. С. 173–180. ISBN 978-0-444-86545-8.
  15. ^ "Ассоциация компьютерной лингвистики – Премия ACL за достижения всей жизни 2003 года". Ассоциация компьютерной лингвистики. Архивировано из оригинала 12 июня 2010 года . Получено 10 марта 2010 года .
  16. ^ Вайсгербер, Джон; Янг, Джин; Фишер, Пит (2000). «Pacific Rim Portable Translator». Представление о машинном переводе в информационном будущем . Lecture Notes in Computer Science. Vol. 1934. pp. 196–201. doi :10.1007/3-540-39965-8_21. ISBN 978-3-540-41117-8. S2CID  36571004.
  17. ^ "TC-Star" . Получено 25 октября 2010 г.
  18. ^ Чо, Кёнхён; ван Мерриенбур, Барт; Гульчехре, Чаглар; Багданау, Дмитрий; Бугарес, Фетхи; Швенк, Хольгер; Бенжио, Йошуа (2014). «Изучение представлений фраз с использованием RNN-кодера–декодера для статистического машинного перевода». Труды конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики: 1724–1734. arXiv : 1406.1078 . doi :10.3115/v1/d14-1179. S2CID  5590763.
  19. ^ Тачиока, Юки; Ватанабэ, Синдзи; Ле Ру, Джонатан; Херши, Джон Р. (декабрь 2014 г.). «Последовательное дискриминативное обучение для глубоких нейронных сетей низкого ранга». Глобальная конференция IEEE по обработке сигналов и информации (GlobalSIP) 2014 г. IEEE. стр. 572–576. doi :10.1109/globalsip.2014.7032182. ISBN 978-1-4799-7088-9. S2CID  767028.
  20. ^ «Что такое нейронный машинный перевод и как он работает?». TranslateFX . Получено 9 декабря 2022 г.

Ссылки

  • Хатчинс, Дж. (2005). "Вехи в машинном переводе – № 6: Бар-Хиллель и невыполнимость FAHQT" (PDF) . Архивировано из оригинала (PDF) 29 января 2019 г. . Получено 9 марта 2012 г. .
  • Ван Слайп, Жорж (1983). Лучший перевод для лучшей коммуникации . Париж: Pergamon Press. ISBN 978-0-08-030534-9.

Дальнейшее чтение

  • Хатчинс, У. Джон (1986). Машинный перевод: прошлое, настоящее, будущее. Серия Эллиса Хорвуда по компьютерам и их приложениям. Чичестер: Эллис Хорвуд. ISBN 978-0-470-20313-2.
Retrieved from "https://en.wikipedia.org/w/index.php?title=History_of_machine_translation&oldid=1240557903"