Тест на схему Винограда (Winograd schema challenge , WSC ) — это тест на машинный интеллект, предложенный в 2012 году Гектором Левеском , ученым-компьютерщиком из Университета Торонто . Разработанный как улучшение теста Тьюринга , это тест с множественным выбором, который использует вопросы очень специфической структуры: они являются примерами того, что называется схемами Винограда, названными в честь Терри Винограда , профессора компьютерных наук в Стэнфордском университете . [1]
На первый взгляд, вопросы схемы Винограда просто требуют разрешения анафоры : машина должна определить антецедент неоднозначного местоимения в утверждении. Это делает задачу обработки естественного языка , но Левек утверждает, что для схем Винограда задача требует использования знаний и здравого смысла . [2]
Задача считается решенной в 2019 году, поскольку ряд языковых моделей на основе трансформатора достигли точности более 90% [3] .
Тест Винограда был предложен в духе теста Тьюринга . Предложенный Аланом Тьюрингом в 1950 году, тест Тьюринга играет центральную роль в философии искусственного интеллекта . Тьюринг предположил, что вместо того, чтобы обсуждать, может ли машина мыслить, наука об ИИ должна заниматься демонстрацией разумного поведения, которое можно проверить. Но точная природа теста, предложенного Тьюрингом, подверглась пристальному вниманию, особенно после того, как чат-бот ИИ по имени Юджин Густман заявил, что прошел его в 2014 году. Одной из главных проблем с тестом Тьюринга является то, что машина может легко пройти тест с помощью грубой силы и/или обмана, а не истинного интеллекта. [4]
Задача схемы Винограда была предложена в 2012 году отчасти для того, чтобы смягчить проблемы, которые были выявлены в природе программ, хорошо проявивших себя в тесте. [5]
Первоначальное предложение Тьюринга было тем, что он назвал имитационной игрой , которая включает в себя свободно текущие, неограниченные разговоры на английском языке между судьями-людьми и компьютерными программами по текстовому каналу (например, телетайпу). В общем, машина проходит тест, если допрашивающие не могут заметить разницу между ней и человеком в пятиминутном разговоре. [4]
В июле 2014 года компания Nuance Communications объявила, что будет спонсировать ежегодный конкурс WSC с призом в размере 25 000 долларов США за лучшую систему, которая сможет сравниться с человеческими возможностями. [6] Однако приз больше не предлагается.
Выступление Юджина Густмана выявило некоторые проблемы теста Тьюринга. Левек выделяет несколько основных проблем, [2] которые суммируются следующим образом: [7]
Ключевым фактором в WSC является особый формат вопросов, которые выведены из схем Винограда. Вопросы этой формы могут быть адаптированы для того, чтобы требовать знаний и здравого смысла в различных областях. Они также должны быть тщательно написаны, чтобы не выдать свои ответы выборочными ограничениями или статистической информацией о словах в предложении.
Первый цитируемый пример схемы Винограда (и причина ее названия) принадлежит Терри Винограду : [8]
Городской совет отказал демонстрантам в разрешении, поскольку они [боялись/призывали] к насилию.
Выбор «боится» и «отстаивает» превращает схему в два ее экземпляра:
Городской совет отказал демонстрантам в разрешении, опасаясь насилия.
Городской совет отказал демонстрантам в разрешении, поскольку они призывали к насилию.
Вопрос-проблема схемы: «Относится ли местоимение „они“ к членам городского совета или к демонстрантам?» Переключение между двумя примерами схемы меняет ответ. Ответ немедленный для человека-читателя, но его трудно воспроизвести в машинах. Левек [2] утверждает, что знание играет центральную роль в этих проблемах: ответ на эту схему связан с нашим пониманием типичных отношений между членами совета и демонстрантами и их поведения.
С момента первоначального предложения о схеме Винограда Эрнест Дэвис, профессор Нью-Йоркского университета , составил список из более чем 140 схем Винограда из различных источников в качестве примеров типов вопросов, которые должны появляться в задаче о схеме Винограда. [9]
Вопрос-задача по схеме Винограда состоит из трех частей:
Машине будет предоставлена задача в стандартизированной форме, включающая варианты ответов, что сделает ее задачей бинарного принятия решений .
Схема Винограда имеет следующие предполагаемые преимущества:
Одной из трудностей с задачей схемы Винограда является разработка вопросов. Их необходимо тщательно подгонять, чтобы гарантировать, что для их решения требуется здравый смысл. Например, Левек [5] приводит следующий пример так называемой схемы Винограда, которая «слишком проста»:
Женщины прекратили принимать таблетки, потому что они были [беременными/канцерогенными]. Какие лица были [беременными/канцерогенными]?
Ответ на этот вопрос можно определить на основе селективных ограничений : в любой ситуации таблетки не делают беременными, женщины делают; женщины не могут быть канцерогенными, но таблетки могут. Таким образом, этот ответ можно вывести без использования рассуждений или какого-либо понимания смысла предложений — все, что необходимо, это данные о селективных ограничениях беременных и канцерогенных.
В 2016 и 2018 годах компания Nuance Communications спонсировала конкурс, предлагая главный приз в размере 25 000 долларов США для лучшего участника, набравшего более 90% баллов (для сравнения, люди правильно отвечают на 92–96% вопросов WSC [10] ). Однако в 2016 году никто не приблизился к победе в этом конкурсе, и конкурс 2018 года был отменен из-за отсутствия перспектив; [11] приз больше не предлагается. [12]
Двенадцатый международный симпозиум по логическим формализациям здравого смысла проводился 23–25 марта 2015 года в рамках весенней серии симпозиумов AAAI в Стэнфордском университете, с особым акцентом на проблеме схемы Винограда. В организационный комитет вошли Леора Моргенштерн ( Leidos ), Теодор Паткос (The Foundation for Research & Technology Hellas) и Роберт Слоан ( University of Illinois at Chicago ). [13]
Winograd Schema Challenge 2016 был запущен 11 июля 2016 года на IJCAI-16. Было четыре участника. Первый тур конкурса заключался в решении PDP — задач на разрешение неоднозначности местоимений, адаптированных из литературных источников, а не построенных как пары предложений. [14] Наивысший результат составил 58% правильных ответов, полученных от Quan Liu и др. из Университета науки и технологий Китая. [15] Таким образом, по правилам этого конкурса призы не присуждались, и конкурс не перешел во второй тур. Оргкомитетом в 2016 году были Leora Morgenstern, Ernest Davis и Charles Ortiz. [16]
В 2017 году нейронная ассоциативная модель, разработанная для получения знаний здравого смысла, достигла точности 70% для 70 вручную выбранных задач из исходного набора данных схемы Винограда 273. [17] В июне 2018 года точность в 63,7% была достигнута на полном наборе данных с использованием ансамбля рекуррентных моделей языка нейронной сети, [18] что ознаменовало первое использование глубоких нейронных сетей, которые обучаются на независимых корпусах для получения знаний здравого смысла. В 2019 году оценка в 90,1% была достигнута на исходном наборе данных схемы Винограда путем тонкой настройки языковой модели BERT с соответствующими обучающими данными, подобными WSC, чтобы избежать необходимости изучать рассуждения здравого смысла. [10] Общая языковая модель GPT-3 достигла оценки в 88,3% без специальной тонкой настройки в 2020 году. [19]
В 2019 году был разработан более сложный, состязательный набор данных «Winogrande», состоящий из 44 000 задач. Этот набор данных состоит из предложений в стиле «заполни пропуски», в отличие от предыдущих наборов данных, в которых использовался формат местоимений. [10]
Версия задачи схемы Винограда является частью эталонного набора задач GLUE ( General Language Understanding Evaluation ) по автоматизированному пониманию естественного языка . [20]
Премия не могла быть вручена никому. Большинство участников показали результат, близкий к случайному выбору или даже хуже. Второе соревнование, запланированное на 2018 год, было отменено из-за отсутствия потенциальных участников.