История обработки естественного языка

История обработки естественного языка описывает достижения в обработке естественного языка . Существует некоторое совпадение с историей машинного перевода , историей распознавания речи и историей искусственного интеллекта .

Ранняя история

История машинного перевода восходит к семнадцатому веку, когда такие философы, как Лейбниц и Декарт, выдвинули предложения о кодах, которые связывали бы слова между языками. Все эти предложения оставались теоретическими, и ни одно из них не привело к созданию реальной машины.

Первые патенты на «машины-переводчики» были поданы в середине 1930-х годов. Одно предложение, Жоржа Арцруни, было просто автоматическим двуязычным словарем с использованием бумажной ленты . Другое предложение, Петра Троянского , русского, было более подробным. Предложение Троянского включало как двуязычный словарь, так и метод работы с грамматическими ролями между языками, основанный на эсперанто .

Логический период

В 1950 году Алан Тьюринг опубликовал свою знаменитую статью « Вычислительная техника и интеллект », в которой в качестве критерия интеллекта было предложено то, что сейчас называется тестом Тьюринга . Этот критерий зависит от способности компьютерной программы выдавать себя за человека в письменном разговоре в реальном времени с судьей-человеком, достаточно хорошо, чтобы судья не смог достоверно отличить — на основе только содержания разговора — программу от реального человека.

В 1957 году «Синтаксические структуры » Ноама Хомского произвели революцию в лингвистике, представив « универсальную грамматику » — систему синтаксических структур, основанную на правилах. ^[1]

Джорджтаунский эксперимент 1954 года включал полностью автоматический перевод более шестидесяти русских предложений на английский. Авторы утверждали, что в течение трех или пяти лет машинный перевод станет решенной проблемой. ^[2] Однако реальный прогресс был гораздо медленнее, и после отчета ALPAC в 1966 году, который показал, что десятилетние исследования не оправдали ожиданий, финансирование машинного перевода было резко сокращено. Мало дальнейших исследований в области машинного перевода проводилось до конца 1980-х годов, когда были разработаны первые статистические системы машинного перевода.

Среди наиболее успешных систем НЛП, разработанных в 1960-х годах, была SHRDLU — система естественного языка, работающая в ограниченных « блочных мирах » с ограниченным словарным запасом.

В 1969 году Роджер Шенк представил теорию концептуальной зависимости для понимания естественного языка. ^[3] Эта модель, частично созданная под влиянием работ Сидни Лэмба , широко использовалась студентами Шенка в Йельском университете , такими как Роберт Виленски, Венди Ленерт и Джанет Колоднер .

В 1970 году Уильям А. Вудс представил расширенную сеть переходов (ATN) для представления ввода на естественном языке. ^[4] Вместо правил структуры фраз ATN использовали эквивалентный набор конечных автоматов , которые вызывались рекурсивно. ATN и их более общий формат, называемый «обобщенными ATN», продолжали использоваться в течение ряда лет. В 1970-х годах многие программисты начали писать «концептуальные онтологии», которые структурировали информацию реального мира в понятные компьютеру данные. Примерами являются MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Politics (Carbonell, 1979) и Plot Units (Lehnert 1981). За это время было написано много чатботов, включая PARRY , Racter и Jabberwacky .

В последние годы достижения в области глубокого обучения и больших языковых моделей значительно расширили возможности обработки естественного языка, что привело к широкому применению в таких областях, как здравоохранение, обслуживание клиентов и создание контента. ^[5]

Статистический период

До 1980-х годов большинство систем NLP основывались на сложных наборах рукописных правил. Однако, начиная с конца 1980-х годов, в NLP произошла революция с введением алгоритмов машинного обучения для обработки языка. Это было связано как с постоянным ростом вычислительной мощности в результате закона Мура , так и с постепенным уменьшением доминирования лингвистических теорий Хомского (например, трансформационной грамматики ), теоретические основы которых препятствовали использованию корпусной лингвистики , лежащей в основе подхода машинного обучения к обработке языка. ^[6] Некоторые из самых ранних алгоритмов машинного обучения, такие как деревья решений , создавали системы жестких правил «если-то», похожие на существующие рукописные правила. Однако все больше исследований сосредотачивались на статистических моделях , которые принимают мягкие, вероятностные решения на основе присоединения действительных весов к признакам, составляющим входные данные. Примерами таких статистических моделей являются модели кэш-языка , на которые сейчас опираются многие системы распознавания речи . Такие модели, как правило, более надежны при использовании незнакомых входных данных, особенно входных данных, содержащих ошибки (что очень часто встречается в реальных данных), и дают более надежные результаты при интеграции в более крупную систему, включающую несколько подзадач.

Наборы данных

Появление статистических подходов было обусловлено как ростом вычислительной мощности, так и доступностью больших наборов данных. В то время начали появляться большие многоязычные корпуса. В частности, некоторые из них были созданы парламентом Канады и Европейским союзом в результате законов, требующих перевода всех правительственных протоколов на все официальные языки соответствующих систем государственного управления.

Многие из заметных ранних успехов были достигнуты в области машинного перевода . В 1993 году модели выравнивания IBM использовались для статистического машинного перевода . ^[7] По сравнению с предыдущими системами машинного перевода, которые представляли собой символьные системы, вручную кодируемые компьютерными лингвистами, эти системы были статистическими, что позволяло им автоматически обучаться на больших текстовых корпусах . Хотя эти системы не работают хорошо в ситуациях, когда доступны только небольшие корпуса, эффективные методы работы с данными продолжают оставаться областью исследований и разработок.

В 2001 году для разрешения многозначности слов использовался большой текстовый корпус объемом в миллиард слов, извлеченный из Интернета и в то время названный «очень-очень большим» . ^[8]

Чтобы воспользоваться большими немаркированными наборами данных, были разработаны алгоритмы для неконтролируемого и самоконтролируемого обучения . Как правило, эта задача намного сложнее, чем контролируемое обучение , и обычно дает менее точные результаты для заданного объема входных данных. Однако существует огромное количество неаннотированных данных (включая, среди прочего, весь контент Всемирной паутины ), которые часто могут компенсировать худшие результаты.

Нейронный период

В 1990 году сеть Элмана , используя рекуррентную нейронную сеть , закодировала каждое слово в обучающем наборе как вектор, названный вложением слов , а весь словарь как векторную базу данных , что позволило ей выполнять такие задачи, как предсказания последовательностей, которые находятся за пределами возможностей простого многослойного персептрона . Недостатком статических вложений было то, что они не различали множественные значения омонимов . ^[9]

Программное обеспечение

Программное обеспечение	Год	Создатель	Описание
Джорджтаунский эксперимент	1954	Джорджтаунский университет и IBM	включал полностью автоматический перевод более шестидесяти русских предложений на английский язык.
СТУДЕНТ	1964	Дэниел Бобров	мог решать текстовые задачи по алгебре средней школы. ^[10]
ЭЛИЗА	1964	Джозеф Вайценбаум	симуляция психотерапевта-роджериана , перефразирующего свой ответ с использованием нескольких правил грамматики. ^[11]
ШРДЛУ	1970	Терри Виноград	система естественного языка, работающая в ограниченных « блочных мирах » с ограниченным словарным запасом, работала чрезвычайно хорошо
ПАРИРОВАТЬ	1972	Кеннет Колби	Чат -бот
KL-ONE	1974	Зондхаймер и др.	система представления знаний в традиции семантических сетей и фреймов; это язык фреймов .
МАРДЖИ	1975	Роджер Шенк
TaleSpin (программное обеспечение)	1976	Михан
КВАЛМ		Ленерт
СПАСАТЕЛЬ/ЛЕСТНИЦА	1978	Хендрикс	естественно-языковой интерфейс к базе данных информации о кораблях ВМС США.
СЭМ (программное обеспечение)	1978	Каллингфорд
ПАМ (программное обеспечение)	1978	Роберт Виленский
Политика (программное обеспечение)	1979	Карбонелл
Единицы измерения (программное обеспечение)	1981	Ленерт
Jabberwacky	1982	Ролло Карпентер	Чат-бот , заявленная цель которого — «имитировать естественное человеческое общение в интересной, развлекательной и юмористической манере».
МАМБЛ (программное обеспечение)	1982	Макдональдс
Рактер	1983	Уильям Чемберлен и Томас Эттер	чат-бот , который случайным образом генерировал англоязычную прозу.
МОПТРАНС ^[12]	1984	Лютинен
КОДИАК (программное обеспечение)	1986	Виленский
Абсити (программное обеспечение)	1987	Херст
Доктор Сбаитсо	1991	Творческие лаборатории
Watson (программное обеспечение искусственного интеллекта)	2006	ИБМ	Система ответов на вопросы, которая выиграла конкурс Jeopardy!, обойдя лучших игроков-людей в феврале 2011 года.
Сири	2011	Яблоко	Виртуальный помощник, разработанный Apple.
Кортана	2014	Майкрософт	Виртуальный помощник, разработанный Microsoft.
Амазон Алекса	2014	Амазонка	Виртуальный помощник, разработанный Amazon.
Google Ассистент	2016	Google	Виртуальный помощник, разработанный Google.

Ссылки

^ "SEM1A5 - Часть 1 - Краткая история НЛП" . Получено 2010-06-25 .
^ Хатчинс, Дж. (2005)
^ Роджер Шанк , 1969, Концептуальный анализатор зависимостей для естественного языка. Труды конференции 1969 года по компьютерной лингвистике, Сонг-Сэбю, Швеция, страницы 1-3.
^ Вудс, Уильям А. (1970). «Грамматика сетей перехода для анализа естественного языка». Сообщения ACM 13 (10): 591–606 [1]
^ Грюцмахер, Росс (2022-04-19). «Сила обработки естественного языка». Harvard Business Review . ISSN 0017-8012 . Получено 2024-12-07 .
^ Хомскианская лингвистика поощряет исследование « краевых случаев », которые подчеркивают ограничения ее теоретических моделей (сравнимых с патологическими явлениями в математике), обычно создаваемых с помощью мысленных экспериментов , а не систематическое исследование типичных явлений, которые происходят в данных реального мира, как это имеет место в корпусной лингвистике . Создание и использование таких корпусов данных реального мира является фундаментальной частью алгоритмов машинного обучения для обработки естественного языка. Кроме того, теоретические основы хомскианской лингвистики, такие как так называемый аргумент « бедности стимула », подразумевают, что общие алгоритмы обучения, которые обычно используются в машинном обучении, не могут быть успешными в обработке языка. В результате парадигма Хомскианского препятствовала применению таких моделей к обработке языка.
^ Браун, Питер Ф. (1993). «Математика статистического машинного перевода: Оценка параметров». Computational Linguistics (19): 263–311 .
^ Банко, Мишель; Брилл, Эрик (2001). «Масштабирование до очень очень больших корпусов для устранения неоднозначности естественного языка». Труды 39-го ежегодного собрания Ассоциации компьютерной лингвистики - ACL '01 . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 26–33 . doi : 10.3115/1073012.1073017 . S2CID 6645623.
^ Элман, Джеффри Л. (март 1990 г.). «Поиск структуры во времени». Когнитивная наука . 14 (2): 179– 211. doi :10.1207/s15516709cog1402_1. S2CID 2763403.
^ МакКордак 2004, стр. 286, Кревьер 1993, стр. 76−79, Рассел и Норвиг 2003, стр. 19
^ МакКордак 2004, стр. 291–296, Кревьер 1993, стр. 134−139
^ Джанет Л. Колоднер, Кристофер К. Рисбек; Опыт, память и рассуждение ; Psychology Press; переиздание 2014 г.

Библиография

Crevier, Daniel (1993). AI: The Tumultuous Search for Artificial Intelligence . Нью-Йорк, Нью-Йорк: BasicBooks. ISBN 0-465-02997-3.
МакКордак, Памела (2004), «Машины, которые думают» (2-е изд.), Натик, Массачусетс: AK Peters, Ltd., ISBN 978-1-56881-205-2, OCLC 52197627.
Рассел, Стюарт Дж.; Норвиг , Питер (2003), Искусственный интеллект: Современный подход (2-е изд.), Аппер Сэдл Ривер, Нью-Джерси: Prentice Hall, ISBN 0-13-790395-2.

[1] "SEM1A5 - Часть 1 - Краткая история НЛП" . Получено 2010-06-25 .

[2] Хатчинс, Дж. (2005)

[3] Роджер Шанк , 1969, Концептуальный анализатор зависимостей для естественного языка. Труды конференции 1969 года по компьютерной лингвистике, Сонг-Сэбю, Швеция, страницы 1-3.

[4] Вудс, Уильям А. (1970). «Грамматика сетей перехода для анализа естественного языка». Сообщения ACM 13 (10): 591–606 [1]

[5] Грюцмахер, Росс (2022-04-19). «Сила обработки естественного языка». Harvard Business Review . ISSN 0017-8012 . Получено 2024-12-07 .

[6] Хомскианская лингвистика поощряет исследование « краевых случаев », которые подчеркивают ограничения ее теоретических моделей (сравнимых с патологическими явлениями в математике), обычно создаваемых с помощью мысленных экспериментов , а не систематическое исследование типичных явлений, которые происходят в данных реального мира, как это имеет место в корпусной лингвистике . Создание и использование таких корпусов данных реального мира является фундаментальной частью алгоритмов машинного обучения для обработки естественного языка. Кроме того, теоретические основы хомскианской лингвистики, такие как так называемый аргумент « бедности стимула », подразумевают, что общие алгоритмы обучения, которые обычно используются в машинном обучении, не могут быть успешными в обработке языка. В результате парадигма Хомскианского препятствовала применению таких моделей к обработке языка.

[U4RiN-7] Браун, Питер Ф. (1993). «Математика статистического машинного перевода: Оценка параметров». Computational Linguistics (19): 263–311 .

[2001_very_very_large_corpora-8] Банко, Мишель; Брилл, Эрик (2001). «Масштабирование до очень очень больших корпусов для устранения неоднозначности естественного языка». Труды 39-го ежегодного собрания Ассоциации компьютерной лингвистики - ACL '01 . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 26–33 . doi : 10.3115/1073012.1073017 . S2CID 6645623.

[1990_ElmanPaper-9] Элман, Джеффри Л. (март 1990 г.). «Поиск структуры во времени». Когнитивная наука . 14 (2): 179– 211. doi :10.1207/s15516709cog1402_1. S2CID 2763403.

[10] МакКордак 2004, стр. 286, Кревьер 1993, стр. 76−79, Рассел и Норвиг 2003, стр. 19

[11] МакКордак 2004, стр. 291–296, Кревьер 1993, стр. 134−139

[12] Джанет Л. Колоднер, Кристофер К. Рисбек; Опыт, память и рассуждение ; Psychology Press; переиздание 2014 г.