История обработки естественного языка

История обработки естественного языка описывает достижения в обработке естественного языка . Существует некоторое совпадение с историей машинного перевода , историей распознавания речи и историей искусственного интеллекта .

Ранняя история

История машинного перевода восходит к семнадцатому веку, когда такие философы, как Лейбниц и Декарт, выдвинули предложения о кодах, которые связывали бы слова между языками. Все эти предложения оставались теоретическими, и ни одно из них не привело к созданию реальной машины.

Первые патенты на «машины-переводчики» были поданы в середине 1930-х годов. Одно предложение, Жоржа Арцруни, было просто автоматическим двуязычным словарем с использованием бумажной ленты . Другое предложение, Петра Троянского , русского, было более подробным. Предложение Троянского включало как двуязычный словарь, так и метод работы с грамматическими ролями между языками, основанный на эсперанто .

Логический период

В 1950 году Алан Тьюринг опубликовал свою знаменитую статью « Вычислительная техника и интеллект », в которой в качестве критерия интеллекта было предложено то, что сейчас называется тестом Тьюринга . Этот критерий зависит от способности компьютерной программы выдавать себя за человека в письменном разговоре в реальном времени с судьей-человеком, достаточно хорошо, чтобы судья не смог достоверно отличить — на основе только содержания разговора — программу от реального человека.

В 1957 году «Синтаксические структуры » Ноама Хомского произвели революцию в лингвистике, представив « универсальную грамматику » — систему синтаксических структур, основанную на правилах. [1]

Джорджтаунский эксперимент 1954 года включал полностью автоматический перевод более шестидесяти русских предложений на английский. Авторы утверждали, что в течение трех или пяти лет машинный перевод станет решенной проблемой. [2] Однако реальный прогресс был гораздо медленнее, и после отчета ALPAC в 1966 году, который показал, что десятилетние исследования не оправдали ожиданий, финансирование машинного перевода было резко сокращено. Мало дальнейших исследований в области машинного перевода проводилось до конца 1980-х годов, когда были разработаны первые статистические системы машинного перевода.

Среди наиболее успешных систем НЛП, разработанных в 1960-х годах, была SHRDLU — система естественного языка, работающая в ограниченных « блочных мирах » с ограниченным словарным запасом.

В 1969 году Роджер Шенк представил теорию концептуальной зависимости для понимания естественного языка. [3] Эта модель, частично созданная под влиянием работ Сидни Лэмба , широко использовалась студентами Шенка в Йельском университете , такими как Роберт Виленски, Венди Ленерт и Джанет Колоднер .

В 1970 году Уильям А. Вудс представил расширенную сеть переходов (ATN) для представления ввода на естественном языке. [4] Вместо правил структуры фраз ATN использовали эквивалентный набор конечных автоматов , которые вызывались рекурсивно. ATN и их более общий формат, называемый «обобщенными ATN», продолжали использоваться в течение ряда лет. В 1970-х годах многие программисты начали писать «концептуальные онтологии», которые структурировали информацию реального мира в понятные компьютеру данные. Примерами являются MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Politics (Carbonell, 1979) и Plot Units (Lehnert 1981). За это время было написано много чатботов, включая PARRY , Racter и Jabberwacky .

В последние годы достижения в области глубокого обучения и больших языковых моделей значительно расширили возможности обработки естественного языка, что привело к широкому применению в таких областях, как здравоохранение, обслуживание клиентов и создание контента. [5]

Статистический период

До 1980-х годов большинство систем NLP основывались на сложных наборах рукописных правил. Однако, начиная с конца 1980-х годов, в NLP произошла революция с введением алгоритмов машинного обучения для обработки языка. Это было связано как с постоянным ростом вычислительной мощности в результате закона Мура , так и с постепенным уменьшением доминирования лингвистических теорий Хомского (например, трансформационной грамматики ), теоретические основы которых препятствовали использованию корпусной лингвистики , лежащей в основе подхода машинного обучения к обработке языка. [6] Некоторые из самых ранних алгоритмов машинного обучения, такие как деревья решений , создавали системы жестких правил «если-то», похожие на существующие рукописные правила. Однако все больше исследований сосредотачивались на статистических моделях , которые принимают мягкие, вероятностные решения на основе присоединения действительных весов к признакам, составляющим входные данные. Примерами таких статистических моделей являются модели кэш-языка , на которые сейчас опираются многие системы распознавания речи . Такие модели, как правило, более надежны при использовании незнакомых входных данных, особенно входных данных, содержащих ошибки (что очень часто встречается в реальных данных), и дают более надежные результаты при интеграции в более крупную систему, включающую несколько подзадач.

Наборы данных

Появление статистических подходов было обусловлено как ростом вычислительной мощности, так и доступностью больших наборов данных. В то время начали появляться большие многоязычные корпуса. В частности, некоторые из них были созданы парламентом Канады и Европейским союзом в результате законов, требующих перевода всех правительственных протоколов на все официальные языки соответствующих систем государственного управления.

Многие из заметных ранних успехов были достигнуты в области машинного перевода . В 1993 году модели выравнивания IBM использовались для статистического машинного перевода . [7] По сравнению с предыдущими системами машинного перевода, которые представляли собой символьные системы, вручную кодируемые компьютерными лингвистами, эти системы были статистическими, что позволяло им автоматически обучаться на больших текстовых корпусах . Хотя эти системы не работают хорошо в ситуациях, когда доступны только небольшие корпуса, эффективные методы работы с данными продолжают оставаться областью исследований и разработок.

В 2001 году для разрешения многозначности слов использовался большой текстовый корпус объемом в миллиард слов, извлеченный из Интернета и в то время названный «очень-очень большим» . [8]

Чтобы воспользоваться большими немаркированными наборами данных, были разработаны алгоритмы для неконтролируемого и самоконтролируемого обучения . Как правило, эта задача намного сложнее, чем контролируемое обучение , и обычно дает менее точные результаты для заданного объема входных данных. Однако существует огромное количество неаннотированных данных (включая, среди прочего, весь контент Всемирной паутины ), которые часто могут компенсировать худшие результаты.

Нейронный период

Хронология моделей обработки естественного языка

В 1990 году сеть Элмана , используя рекуррентную нейронную сеть , закодировала каждое слово в обучающем наборе как вектор, названный вложением слов , а весь словарь как векторную базу данных , что позволило ей выполнять такие задачи, как предсказания последовательностей, которые находятся за пределами возможностей простого многослойного персептрона . Недостатком статических вложений было то, что они не различали множественные значения омонимов . [9]

Программное обеспечение

Программное обеспечениеГодСоздательОписаниеСсылка
Джорджтаунский эксперимент 1954Джорджтаунский университет и IBMвключал полностью автоматический перевод более шестидесяти русских предложений на английский язык.
СТУДЕНТ 1964Дэниел Бобровмог решать текстовые задачи по алгебре средней школы. [10]
ЭЛИЗА 1964Джозеф Вайценбаумсимуляция психотерапевта-роджериана , перефразирующего свой ответ с использованием нескольких правил грамматики. [11]
ШРДЛУ 1970Терри Виноградсистема естественного языка, работающая в ограниченных « блочных мирах » с ограниченным словарным запасом, работала чрезвычайно хорошо
ПАРИРОВАТЬ 1972Кеннет КолбиЧат -бот
KL-ONE 1974Зондхаймер и др.система представления знаний в традиции семантических сетей и фреймов; это язык фреймов .
МАРДЖИ1975Роджер Шенк
TaleSpin (программное обеспечение)1976Михан
КВАЛМЛенерт
СПАСАТЕЛЬ/ЛЕСТНИЦА 1978Хендриксестественно-языковой интерфейс к базе данных информации о кораблях ВМС США.
СЭМ (программное обеспечение)1978Каллингфорд
ПАМ (программное обеспечение)1978Роберт Виленский
Политика (программное обеспечение)1979Карбонелл
Единицы измерения (программное обеспечение)1981Ленерт
Jabberwacky 1982Ролло КарпентерЧат-бот , заявленная цель которого — «имитировать естественное человеческое общение в интересной, развлекательной и юмористической манере».
МАМБЛ (программное обеспечение)1982Макдональдс
Рактер 1983Уильям Чемберлен и Томас Эттерчат-бот , который случайным образом генерировал англоязычную прозу.
МОПТРАНС [12]1984Лютинен
КОДИАК (программное обеспечение)1986Виленский
Абсити (программное обеспечение)1987Херст
Доктор Сбаитсо 1991Творческие лаборатории
Watson (программное обеспечение искусственного интеллекта) 2006ИБМСистема ответов на вопросы, которая выиграла конкурс Jeopardy!, обойдя лучших игроков-людей в феврале 2011 года.
Сири 2011ЯблокоВиртуальный помощник, разработанный Apple.
Кортана 2014МайкрософтВиртуальный помощник, разработанный Microsoft.
Амазон Алекса 2014АмазонкаВиртуальный помощник, разработанный Amazon.
Google Ассистент 2016GoogleВиртуальный помощник, разработанный Google.

Ссылки

  1. ^ "SEM1A5 - Часть 1 - Краткая история НЛП" . Получено 2010-06-25 .
  2. ^ Хатчинс, Дж. (2005)
  3. ^ Роджер Шанк , 1969, Концептуальный анализатор зависимостей для естественного языка. Труды конференции 1969 года по компьютерной лингвистике, Сонг-Сэбю, Швеция, страницы 1-3.
  4. ^ Вудс, Уильям А. (1970). «Грамматика сетей перехода для анализа естественного языка». Сообщения ACM 13 (10): 591–606 [1]
  5. ^ Грюцмахер, Росс (2022-04-19). «Сила обработки естественного языка». Harvard Business Review . ISSN  0017-8012 . Получено 2024-12-07 .
  6. ^ Хомскианская лингвистика поощряет исследование « краевых случаев », которые подчеркивают ограничения ее теоретических моделей (сравнимых с патологическими явлениями в математике), обычно создаваемых с помощью мысленных экспериментов , а не систематическое исследование типичных явлений, которые происходят в данных реального мира, как это имеет место в корпусной лингвистике . Создание и использование таких корпусов данных реального мира является фундаментальной частью алгоритмов машинного обучения для обработки естественного языка. Кроме того, теоретические основы хомскианской лингвистики, такие как так называемый аргумент « бедности стимула », подразумевают, что общие алгоритмы обучения, которые обычно используются в машинном обучении, не могут быть успешными в обработке языка. В результате парадигма Хомскианского препятствовала применению таких моделей к обработке языка.
  7. ^ Браун, Питер Ф. (1993). «Математика статистического машинного перевода: Оценка параметров». Computational Linguistics (19): 263–311 .
  8. ^ Банко, Мишель; Брилл, Эрик (2001). «Масштабирование до очень очень больших корпусов для устранения неоднозначности естественного языка». Труды 39-го ежегодного собрания Ассоциации компьютерной лингвистики - ACL '01 . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 26–33 . doi : 10.3115/1073012.1073017 . S2CID  6645623.
  9. ^ Элман, Джеффри Л. (март 1990 г.). «Поиск структуры во времени». Когнитивная наука . 14 (2): 179– 211. doi :10.1207/s15516709cog1402_1. S2CID  2763403.
  10. ^ МакКордак 2004, стр. 286, Кревьер 1993, стр. 76−79, Рассел и Норвиг 2003, стр. 19
  11. ^ МакКордак 2004, стр. 291–296, Кревьер 1993, стр. 134−139
  12. ^ Джанет Л. Колоднер, Кристофер К. Рисбек; Опыт, память и рассуждение ; Psychology Press; переиздание 2014 г.

Библиография

  • Crevier, Daniel (1993). AI: The Tumultuous Search for Artificial Intelligence . Нью-Йорк, Нью-Йорк: BasicBooks. ISBN 0-465-02997-3.
  • МакКордак, Памела (2004), «Машины, которые думают» (2-е изд.), Натик, Массачусетс: AK Peters, Ltd., ISBN 978-1-56881-205-2, OCLC  52197627.
  • Рассел, Стюарт Дж.; Норвиг , Питер (2003), Искусственный интеллект: Современный подход (2-е изд.), Аппер Сэдл Ривер, Нью-Джерси: Prentice Hall, ISBN 0-13-790395-2.
Взято с "https://en.wikipedia.org/w/index.php?title=История_обработки_естественного_языка&oldid=1261642950"