Эту статью необходимо обновить . Пожалуйста ( Апрель 2023 ) |
История обработки естественного языка описывает достижения в обработке естественного языка . Существует некоторое совпадение с историей машинного перевода , историей распознавания речи и историей искусственного интеллекта .
История машинного перевода восходит к семнадцатому веку, когда такие философы, как Лейбниц и Декарт, выдвинули предложения о кодах, которые связывали бы слова между языками. Все эти предложения оставались теоретическими, и ни одно из них не привело к созданию реальной машины.
Первые патенты на «машины-переводчики» были поданы в середине 1930-х годов. Одно предложение, Жоржа Арцруни, было просто автоматическим двуязычным словарем с использованием бумажной ленты . Другое предложение, Петра Троянского , русского, было более подробным. Предложение Троянского включало как двуязычный словарь, так и метод работы с грамматическими ролями между языками, основанный на эсперанто .
В 1950 году Алан Тьюринг опубликовал свою знаменитую статью « Вычислительная техника и интеллект », в которой в качестве критерия интеллекта было предложено то, что сейчас называется тестом Тьюринга . Этот критерий зависит от способности компьютерной программы выдавать себя за человека в письменном разговоре в реальном времени с судьей-человеком, достаточно хорошо, чтобы судья не смог достоверно отличить — на основе только содержания разговора — программу от реального человека.
В 1957 году «Синтаксические структуры » Ноама Хомского произвели революцию в лингвистике, представив « универсальную грамматику » — систему синтаксических структур, основанную на правилах. [1]
Джорджтаунский эксперимент 1954 года включал полностью автоматический перевод более шестидесяти русских предложений на английский. Авторы утверждали, что в течение трех или пяти лет машинный перевод станет решенной проблемой. [2] Однако реальный прогресс был гораздо медленнее, и после отчета ALPAC в 1966 году, который показал, что десятилетние исследования не оправдали ожиданий, финансирование машинного перевода было резко сокращено. Мало дальнейших исследований в области машинного перевода проводилось до конца 1980-х годов, когда были разработаны первые статистические системы машинного перевода.
Среди наиболее успешных систем НЛП, разработанных в 1960-х годах, была SHRDLU — система естественного языка, работающая в ограниченных « блочных мирах » с ограниченным словарным запасом.
В 1969 году Роджер Шенк представил теорию концептуальной зависимости для понимания естественного языка. [3] Эта модель, частично созданная под влиянием работ Сидни Лэмба , широко использовалась студентами Шенка в Йельском университете , такими как Роберт Виленски, Венди Ленерт и Джанет Колоднер .
В 1970 году Уильям А. Вудс представил расширенную сеть переходов (ATN) для представления ввода на естественном языке. [4] Вместо правил структуры фраз ATN использовали эквивалентный набор конечных автоматов , которые вызывались рекурсивно. ATN и их более общий формат, называемый «обобщенными ATN», продолжали использоваться в течение ряда лет. В 1970-х годах многие программисты начали писать «концептуальные онтологии», которые структурировали информацию реального мира в понятные компьютеру данные. Примерами являются MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Politics (Carbonell, 1979) и Plot Units (Lehnert 1981). За это время было написано много чатботов, включая PARRY , Racter и Jabberwacky .
В последние годы достижения в области глубокого обучения и больших языковых моделей значительно расширили возможности обработки естественного языка, что привело к широкому применению в таких областях, как здравоохранение, обслуживание клиентов и создание контента. [5]
До 1980-х годов большинство систем NLP основывались на сложных наборах рукописных правил. Однако, начиная с конца 1980-х годов, в NLP произошла революция с введением алгоритмов машинного обучения для обработки языка. Это было связано как с постоянным ростом вычислительной мощности в результате закона Мура , так и с постепенным уменьшением доминирования лингвистических теорий Хомского (например, трансформационной грамматики ), теоретические основы которых препятствовали использованию корпусной лингвистики , лежащей в основе подхода машинного обучения к обработке языка. [6] Некоторые из самых ранних алгоритмов машинного обучения, такие как деревья решений , создавали системы жестких правил «если-то», похожие на существующие рукописные правила. Однако все больше исследований сосредотачивались на статистических моделях , которые принимают мягкие, вероятностные решения на основе присоединения действительных весов к признакам, составляющим входные данные. Примерами таких статистических моделей являются модели кэш-языка , на которые сейчас опираются многие системы распознавания речи . Такие модели, как правило, более надежны при использовании незнакомых входных данных, особенно входных данных, содержащих ошибки (что очень часто встречается в реальных данных), и дают более надежные результаты при интеграции в более крупную систему, включающую несколько подзадач.
Появление статистических подходов было обусловлено как ростом вычислительной мощности, так и доступностью больших наборов данных. В то время начали появляться большие многоязычные корпуса. В частности, некоторые из них были созданы парламентом Канады и Европейским союзом в результате законов, требующих перевода всех правительственных протоколов на все официальные языки соответствующих систем государственного управления.
Многие из заметных ранних успехов были достигнуты в области машинного перевода . В 1993 году модели выравнивания IBM использовались для статистического машинного перевода . [7] По сравнению с предыдущими системами машинного перевода, которые представляли собой символьные системы, вручную кодируемые компьютерными лингвистами, эти системы были статистическими, что позволяло им автоматически обучаться на больших текстовых корпусах . Хотя эти системы не работают хорошо в ситуациях, когда доступны только небольшие корпуса, эффективные методы работы с данными продолжают оставаться областью исследований и разработок.
В 2001 году для разрешения многозначности слов использовался большой текстовый корпус объемом в миллиард слов, извлеченный из Интернета и в то время названный «очень-очень большим» . [8]
Чтобы воспользоваться большими немаркированными наборами данных, были разработаны алгоритмы для неконтролируемого и самоконтролируемого обучения . Как правило, эта задача намного сложнее, чем контролируемое обучение , и обычно дает менее точные результаты для заданного объема входных данных. Однако существует огромное количество неаннотированных данных (включая, среди прочего, весь контент Всемирной паутины ), которые часто могут компенсировать худшие результаты.
В 1990 году сеть Элмана , используя рекуррентную нейронную сеть , закодировала каждое слово в обучающем наборе как вектор, названный вложением слов , а весь словарь как векторную базу данных , что позволило ей выполнять такие задачи, как предсказания последовательностей, которые находятся за пределами возможностей простого многослойного персептрона . Недостатком статических вложений было то, что они не различали множественные значения омонимов . [9]
Программное обеспечение | Год | Создатель | Описание | Ссылка |
---|---|---|---|---|
Джорджтаунский эксперимент | 1954 | Джорджтаунский университет и IBM | включал полностью автоматический перевод более шестидесяти русских предложений на английский язык. | |
СТУДЕНТ | 1964 | Дэниел Бобров | мог решать текстовые задачи по алгебре средней школы. [10] | |
ЭЛИЗА | 1964 | Джозеф Вайценбаум | симуляция психотерапевта-роджериана , перефразирующего свой ответ с использованием нескольких правил грамматики. [11] | |
ШРДЛУ | 1970 | Терри Виноград | система естественного языка, работающая в ограниченных « блочных мирах » с ограниченным словарным запасом, работала чрезвычайно хорошо | |
ПАРИРОВАТЬ | 1972 | Кеннет Колби | Чат -бот | |
KL-ONE | 1974 | Зондхаймер и др. | система представления знаний в традиции семантических сетей и фреймов; это язык фреймов . | |
МАРДЖИ | 1975 | Роджер Шенк | ||
TaleSpin (программное обеспечение) | 1976 | Михан | ||
КВАЛМ | Ленерт | |||
СПАСАТЕЛЬ/ЛЕСТНИЦА | 1978 | Хендрикс | естественно-языковой интерфейс к базе данных информации о кораблях ВМС США. | |
СЭМ (программное обеспечение) | 1978 | Каллингфорд | ||
ПАМ (программное обеспечение) | 1978 | Роберт Виленский | ||
Политика (программное обеспечение) | 1979 | Карбонелл | ||
Единицы измерения (программное обеспечение) | 1981 | Ленерт | ||
Jabberwacky | 1982 | Ролло Карпентер | Чат-бот , заявленная цель которого — «имитировать естественное человеческое общение в интересной, развлекательной и юмористической манере». | |
МАМБЛ (программное обеспечение) | 1982 | Макдональдс | ||
Рактер | 1983 | Уильям Чемберлен и Томас Эттер | чат-бот , который случайным образом генерировал англоязычную прозу. | |
МОПТРАНС [12] | 1984 | Лютинен | ||
КОДИАК (программное обеспечение) | 1986 | Виленский | ||
Абсити (программное обеспечение) | 1987 | Херст | ||
Доктор Сбаитсо | 1991 | Творческие лаборатории | ||
Watson (программное обеспечение искусственного интеллекта) | 2006 | ИБМ | Система ответов на вопросы, которая выиграла конкурс Jeopardy!, обойдя лучших игроков-людей в феврале 2011 года. | |
Сири | 2011 | Яблоко | Виртуальный помощник, разработанный Apple. | |
Кортана | 2014 | Майкрософт | Виртуальный помощник, разработанный Microsoft. | |
Амазон Алекса | 2014 | Амазонка | Виртуальный помощник, разработанный Amazon. | |
Google Ассистент | 2016 | Виртуальный помощник, разработанный Google. |