Проблема схемы Винограда

Тест машинного интеллекта

Тест на схему Винограда (Winograd schema challenge , WSC ) — это тест на машинный интеллект, предложенный в 2012 году Гектором Левеском , ученым-компьютерщиком из Университета Торонто . Разработанный как улучшение теста Тьюринга , это тест с множественным выбором, который использует вопросы очень специфической структуры: они являются примерами того, что называется схемами Винограда, названными в честь Терри Винограда , профессора компьютерных наук в Стэнфордском университете . ^[1]

На первый взгляд, вопросы схемы Винограда просто требуют разрешения анафоры : машина должна определить антецедент неоднозначного местоимения в утверждении. Это делает задачу обработки естественного языка , но Левек утверждает, что для схем Винограда задача требует использования знаний и здравого смысла . ^[2]

Задача считается решенной в 2019 году, поскольку ряд языковых моделей на основе трансформатора достигли точности более 90% ^{[3] .}

История

Тест Винограда был предложен в духе теста Тьюринга . Предложенный Аланом Тьюрингом в 1950 году, тест Тьюринга играет центральную роль в философии искусственного интеллекта . Тьюринг предположил, что вместо того, чтобы обсуждать, может ли машина мыслить, наука об ИИ должна заниматься демонстрацией разумного поведения, которое можно проверить. Но точная природа теста, предложенного Тьюрингом, подверглась пристальному вниманию, особенно после того, как чат-бот ИИ по имени Юджин Густман заявил, что прошел его в 2014 году. Одной из главных проблем с тестом Тьюринга является то, что машина может легко пройти тест с помощью грубой силы и/или обмана, а не истинного интеллекта. ^[4]

Задача схемы Винограда была предложена в 2012 году отчасти для того, чтобы смягчить проблемы, которые были выявлены в природе программ, хорошо проявивших себя в тесте. ^[5]

Первоначальное предложение Тьюринга было тем, что он назвал имитационной игрой , которая включает в себя свободно текущие, неограниченные разговоры на английском языке между судьями-людьми и компьютерными программами по текстовому каналу (например, телетайпу). В общем, машина проходит тест, если допрашивающие не могут заметить разницу между ней и человеком в пятиминутном разговоре. ^[4]

В июле 2014 года компания Nuance Communications объявила, что будет спонсировать ежегодный конкурс WSC с призом в размере 25 000 долларов США за лучшую систему, которая сможет сравниться с человеческими возможностями. ^[6] Однако приз больше не предлагается.

Слабые стороны теста Тьюринга

Выступление Юджина Густмана выявило некоторые проблемы теста Тьюринга. Левек выделяет несколько основных проблем, ^[2] которые суммируются следующим образом: ^[7]

Обман: Машина вынуждена создавать ложную личность, что не является частью интеллекта.
Разговор: Многие взаимодействия можно квалифицировать как «законный разговор» — шутки, остроумные замечания, замечания по порядку ведения заседания — не требуя при этом разумного обоснования.
Оценка: Люди совершают ошибки, и судьи часто не соглашаются с результатами.

Схемы Винограда

Ключевым фактором в WSC является особый формат вопросов, которые выведены из схем Винограда. Вопросы этой формы могут быть адаптированы для того, чтобы требовать знаний и здравого смысла в различных областях. Они также должны быть тщательно написаны, чтобы не выдать свои ответы выборочными ограничениями или статистической информацией о словах в предложении.

Источник

Первый цитируемый пример схемы Винограда (и причина ее названия) принадлежит Терри Винограду : ^[8]

Городской совет отказал демонстрантам в разрешении, поскольку они [боялись/призывали] к насилию.

Выбор «боится» и «отстаивает» превращает схему в два ее экземпляра:

Городской совет отказал демонстрантам в разрешении, опасаясь насилия.

Городской совет отказал демонстрантам в разрешении, поскольку они призывали к насилию.

Вопрос-проблема схемы: «Относится ли местоимение „они“ к членам городского совета или к демонстрантам?» Переключение между двумя примерами схемы меняет ответ. Ответ немедленный для человека-читателя, но его трудно воспроизвести в машинах. Левек ^[2] утверждает, что знание играет центральную роль в этих проблемах: ответ на эту схему связан с нашим пониманием типичных отношений между членами совета и демонстрантами и их поведения.

С момента первоначального предложения о схеме Винограда Эрнест Дэвис, профессор Нью-Йоркского университета , составил список из более чем 140 схем Винограда из различных источников в качестве примеров типов вопросов, которые должны появляться в задаче о схеме Винограда. ^[9]

Формальное описание

Вопрос-задача по схеме Винограда состоит из трех частей:

Предложение или краткая речь, содержащая следующее:
- Две существительные одного и того же семантического класса (мужской, женский, неодушевленный или группа предметов или людей),
- Неоднозначное местоимение , которое может относиться к любой из вышеуказанных именных групп, и
- Специальное слово и альтернативное слово, при этом если специальное слово заменить альтернативным словом, то естественное разрешение местоимения изменится.
Вопрос, устанавливающий идентичность неоднозначного местоимения, и
Два варианта ответа, соответствующие рассматриваемым словосочетаниям.

Машине будет предоставлена задача в стандартизированной форме, включающая варианты ответов, что сделает ее задачей бинарного принятия решений .

Преимущества

Схема Винограда имеет следующие предполагаемые преимущества:

Для их решения необходимы знания и здравый смысл.
Могут быть разработаны схемы Винограда различной степени сложности, включающие в себя все: от простых причинно-следственных связей до сложных повествований о событиях.
Они могут быть созданы для проверки способности к рассуждению в определенных областях (например, социальное/психологическое или пространственное мышление).
Нет необходимости в человеческих судьях. ^[5]

Подводные камни

Одной из трудностей с задачей схемы Винограда является разработка вопросов. Их необходимо тщательно подгонять, чтобы гарантировать, что для их решения требуется здравый смысл. Например, Левек ^[5] приводит следующий пример так называемой схемы Винограда, которая «слишком проста»:

Женщины прекратили принимать таблетки, потому что они были [беременными/канцерогенными]. Какие лица были [беременными/канцерогенными]?

Ответ на этот вопрос можно определить на основе селективных ограничений : в любой ситуации таблетки не делают беременными, женщины делают; женщины не могут быть канцерогенными, но таблетки могут. Таким образом, этот ответ можно вывести без использования рассуждений или какого-либо понимания смысла предложений — все, что необходимо, это данные о селективных ограничениях беременных и канцерогенных.

Активность

В 2016 и 2018 годах компания Nuance Communications спонсировала конкурс, предлагая главный приз в размере 25 000 долларов США для лучшего участника, набравшего более 90% баллов (для сравнения, люди правильно отвечают на 92–96% вопросов WSC ^[10] ). Однако в 2016 году никто не приблизился к победе в этом конкурсе, и конкурс 2018 года был отменен из-за отсутствия перспектив; ^[11] приз больше не предлагается. ^[12]

Двенадцатый международный симпозиум по логическим формализациям здравого смысла проводился 23–25 марта 2015 года в рамках весенней серии симпозиумов AAAI в Стэнфордском университете, с особым акцентом на проблеме схемы Винограда. В организационный комитет вошли Леора Моргенштерн ( Leidos ), Теодор Паткос (The Foundation for Research & Technology Hellas) и Роберт Слоан ( University of Illinois at Chicago ). ^[13]

Winograd Schema Challenge 2016 был запущен 11 июля 2016 года на IJCAI-16. Было четыре участника. Первый тур конкурса заключался в решении PDP — задач на разрешение неоднозначности местоимений, адаптированных из литературных источников, а не построенных как пары предложений. ^[14] Наивысший результат составил 58% правильных ответов, полученных от Quan Liu и др. из Университета науки и технологий Китая. ^[15] Таким образом, по правилам этого конкурса призы не присуждались, и конкурс не перешел во второй тур. Оргкомитетом в 2016 году были Leora Morgenstern, Ernest Davis и Charles Ortiz. ^[16]

В 2017 году нейронная ассоциативная модель, разработанная для получения знаний здравого смысла, достигла точности 70% для 70 вручную выбранных задач из исходного набора данных схемы Винограда 273. ^[17] В июне 2018 года точность в 63,7% была достигнута на полном наборе данных с использованием ансамбля рекуррентных моделей языка нейронной сети, ^[18] что ознаменовало первое использование глубоких нейронных сетей, которые обучаются на независимых корпусах для получения знаний здравого смысла. В 2019 году оценка в 90,1% была достигнута на исходном наборе данных схемы Винограда путем тонкой настройки языковой модели BERT с соответствующими обучающими данными, подобными WSC, чтобы избежать необходимости изучать рассуждения здравого смысла. ^[10] Общая языковая модель GPT-3 достигла оценки в 88,3% без специальной тонкой настройки в 2020 году. ^[19]

В 2019 году был разработан более сложный, состязательный набор данных «Winogrande», состоящий из 44 000 задач. Этот набор данных состоит из предложений в стиле «заполни пропуски», в отличие от предыдущих наборов данных, в которых использовался формат местоимений. ^[10]

Версия задачи схемы Винограда является частью эталонного набора задач GLUE ( General Language Understanding Evaluation ) по автоматизированному пониманию естественного языка . ^[20]

Ссылки

^ Акерман, Эван (29 июля 2014 г.). «Могут ли схемы Винограда заменить тест Тьюринга для определения ИИ человеческого уровня». IEEE Spectrum . Получено 29 октября 2014 г.
^ abc Levesque, HJ (2014). «О нашем лучшем поведении». Искусственный интеллект . 212 : 27–35 . doi : 10.1016/j.artint.2014.03.007 .
^ Kocijan, Vid; Davis, Ernest; Lukasiewicz, Thomas; Marcus, Gary; Morgenstern, Leora (11 июля 2023 г.). «Поражение вызова схемы Винограда». Искусственный интеллект . 325 : 103971. arXiv : 2201.02387 . doi : 10.1016/j.artint.2023.103971. ISSN 0004-3702. S2CID 245827747.
^ ab Turing, Alan (октябрь 1950 г.). "Computing Machinery and Intelligence" (PDF) . Mind . LIX (236): 433– 460. doi :10.1093/mind/LIX.236.433 . Получено 28 октября 2014 г. .
^ abc Levesque, Hector; Davis, Ernest; Morgenstern, Leora (2012). The Winograd Schema Challenge. Труды Тринадцатой международной конференции по принципам представления знаний и рассуждений .
^ "Nuance объявляет о конкурсе Winograd Schemas Challenge для продвижения инноваций в области искусственного интеллекта". Business Wire . 28 июля 2014 г. Получено 9 ноября 2014 г.
^ Майкл, Джулиан (18 мая 2015 г.). Теория формул корреляции и их применение к связности дискурса (диссертация). Цифровой репозиторий Техасского университета. стр. 6. hdl :2152/29979.
^ Виноград, Терри (январь 1972). «Понимание естественного языка» (PDF) . Когнитивная психология . 3 (1): 1– 191. doi :10.1016/0010-0285(72)90002-3 . Получено 4 ноября 2014 .
^ Дэвис, Эрнест. «Коллекция схем Винограда». cs.nyu.edu . NYU . Получено 30 октября 2014 г. .
^ abc Сакагути, Кейсуке; Ле Бра, Ронан; Бхагаватула, Чандра; Чой, Еджин (2019). «WinoGrande: масштабная состязательная задача схемы Винограда». arXiv : 1907.10641 [cs.CL].
^ Богуславский, ИМ; Фролова, ТИ; Иомдин, ЛЛ; Лазурский, АВ; Рыгаев, ИП; Тимошенко, СП (2019). "Knowledge-based approach to Winograd Schema Challenge" (PDF) . Труды Международной конференции по компьютерной лингвистике и интеллектуальным технологиям . Москва. Премия не могла быть вручена никому. Большинство участников показали результат, близкий к случайному выбору или даже хуже. Второе соревнование, запланированное на 2018 год, было отменено из-за отсутствия потенциальных участников.
^ "Winograd Schema Challenge". CommonsenseReasoning.org . Получено 24 января 2020 г. .
^ "AAAI 2015 Spring Symposia". Ассоциация по развитию искусственного интеллекта . Получено 1 января 2015 г.
^ Дэвис, Эрнест; Моргенштерн, Леора; Ортис, Чарльз (осень 2017 г.). «Первый вызов схемы Винограда на IJCAI-16». Журнал ИИ .
^ Лю, Цюань; Цзян, Хуэй; Лин, Чжэнь-Хуа; Чжу, Сяодань; Вэй, Си; Ху, Ю (2016). «Расширенные вложения здравого смысла для решения проблем неоднозначности местоимений в задаче схемы Винограда». arXiv : 1611.04146 [cs.AI].
^ Моргенштерн, Леора; Дэвис, Эрнест; Ортис, Чарльз Л. (март 2016 г.). «Планирование, выполнение и оценка задачи схемы Винограда». Журнал AI . 37 (1): 50–54 . doi : 10.1609/aimag.v37i1.2639 . ISSN 0738-4602.
^ Лю, Цюань; Цзян, Хуэй; Евдокимов, Эндрю; Лин, Чжэнь-Хуа; Чжу, Сяодань; Вэй, Си; Ху, Юй (2017). «Причинно-следственное приобретение знаний и нейронная ассоциативная модель для решения набора задач схемы Винограда». Труды Двадцать шестой Международной совместной конференции по искусственному интеллекту . С. 2344–2350 . doi : 10.24963/ijcai.2017/326 . ISBN 9780999241103.
^ Trinh, Trieu H.; Le, Quoc V. (26 сентября 2019 г.). «Простой метод рассуждений на основе здравого смысла». arXiv : 1806.02847 [cs.AI].
^ Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббиа, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Шастри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Фосс, Ариэль; Крюгер, Гретхен; Хениган, Том; Чайлд, Ревон; Рамеш, Адитья; Циглер, Дэниел М.; Ву, Джеффри; Винтер, Клеменс; Гессе, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Чесс, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; и др. (2020). «Языковые модели — это ученики с небольшим количеством попыток». arXiv : 2005.14165 [cs.CL].
^ "GLUE Benchmark". GlueBenchmark.com . Получено 30 июля 2019 .

Внешние ссылки

Сайт конкурса, спонсируемого Nuance Communications
https://arxiv.org/abs/2201.02387

[ieee_web-1] Акерман, Эван (29 июля 2014 г.). «Могут ли схемы Винограда заменить тест Тьюринга для определения ИИ человеческого уровня». IEEE Spectrum . Получено 29 октября 2014 г.

[Levesque14-2] Levesque, HJ (2014). «О нашем лучшем поведении». Искусственный интеллект . 212 : 27–35 . doi : 10.1016/j.artint.2014.03.007 .

[3] Kocijan, Vid; Davis, Ernest; Lukasiewicz, Thomas; Marcus, Gary; Morgenstern, Leora (11 июля 2023 г.). «Поражение вызова схемы Винограда». Искусственный интеллект . 325 : 103971. arXiv : 2201.02387 . doi : 10.1016/j.artint.2023.103971. ISSN 0004-3702. S2CID 245827747.

[Turing_paper-4] Turing, Alan (октябрь 1950 г.). "Computing Machinery and Intelligence" (PDF) . Mind . LIX (236): 433– 460. doi :10.1093/mind/LIX.236.433 . Получено 28 октября 2014 г. .

[Hector-5] Levesque, Hector; Davis, Ernest; Morgenstern, Leora (2012). The Winograd Schema Challenge. Труды Тринадцатой международной конференции по принципам представления знаний и рассуждений .

[nuance-6] "Nuance объявляет о конкурсе Winograd Schemas Challenge для продвижения инноваций в области искусственного интеллекта". Business Wire . 28 июля 2014 г. Получено 9 ноября 2014 г.

[Michael15-7] Майкл, Джулиан (18 мая 2015 г.). Теория формул корреляции и их применение к связности дискурса (диссертация). Цифровой репозиторий Техасского университета. стр. 6. hdl :2152/29979.

[UNL-8] Виноград, Терри (январь 1972). «Понимание естественного языка» (PDF) . Когнитивная психология . 3 (1): 1– 191. doi :10.1016/0010-0285(72)90002-3 . Получено 4 ноября 2014 .

[collection-9] Дэвис, Эрнест. «Коллекция схем Винограда». cs.nyu.edu . NYU . Получено 30 октября 2014 г. .

[Sakaguchi-10] Сакагути, Кейсуке; Ле Бра, Ронан; Бхагаватула, Чандра; Чой, Еджин (2019). «WinoGrande: масштабная состязательная задача схемы Винограда». arXiv : 1907.10641 [cs.CL].

[11] Богуславский, ИМ; Фролова, ТИ; Иомдин, ЛЛ; Лазурский, АВ; Рыгаев, ИП; Тимошенко, СП (2019). "Knowledge-based approach to Winograd Schema Challenge" (PDF) . Труды Международной конференции по компьютерной лингвистике и интеллектуальным технологиям . Москва. Премия не могла быть вручена никому. Большинство участников показали результат, близкий к случайному выбору или даже хуже. Второе соревнование, запланированное на 2018 год, было отменено из-за отсутствия потенциальных участников.

[CR-12] "Winograd Schema Challenge". CommonsenseReasoning.org . Получено 24 января 2020 г. .

[AIII-13] "AAAI 2015 Spring Symposia". Ассоциация по развитию искусственного интеллекта . Получено 1 января 2015 г.

[14] Дэвис, Эрнест; Моргенштерн, Леора; Ортис, Чарльз (осень 2017 г.). «Первый вызов схемы Винограда на IJCAI-16». Журнал ИИ .

[15] Лю, Цюань; Цзян, Хуэй; Лин, Чжэнь-Хуа; Чжу, Сяодань; Вэй, Си; Ху, Ю (2016). «Расширенные вложения здравого смысла для решения проблем неоднозначности местоимений в задаче схемы Винограда». arXiv : 1611.04146 [cs.AI].

[16] Моргенштерн, Леора; Дэвис, Эрнест; Ортис, Чарльз Л. (март 2016 г.). «Планирование, выполнение и оценка задачи схемы Винограда». Журнал AI . 37 (1): 50–54 . doi : 10.1609/aimag.v37i1.2639 . ISSN 0738-4602.

[17] Лю, Цюань; Цзян, Хуэй; Евдокимов, Эндрю; Лин, Чжэнь-Хуа; Чжу, Сяодань; Вэй, Си; Ху, Юй (2017). «Причинно-следственное приобретение знаний и нейронная ассоциативная модель для решения набора задач схемы Винограда». Труды Двадцать шестой Международной совместной конференции по искусственному интеллекту . С. 2344–2350 . doi : 10.24963/ijcai.2017/326 . ISBN 9780999241103.

[18] Trinh, Trieu H.; Le, Quoc V. (26 сентября 2019 г.). «Простой метод рассуждений на основе здравого смысла». arXiv : 1806.02847 [cs.AI].

[Brown_et_al_2020-19] Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббиа, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Шастри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Фосс, Ариэль; Крюгер, Гретхен; Хениган, Том; Чайлд, Ревон; Рамеш, Адитья; Циглер, Дэниел М.; Ву, Джеффри; Винтер, Клеменс; Гессе, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Чесс, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; и др. (2020). «Языковые модели — это ученики с небольшим количеством попыток». arXiv : 2005.14165 [cs.CL].

[20] "GLUE Benchmark". GlueBenchmark.com . Получено 30 июля 2019 .