Обучаемая игра «Крестики-нолики» на основе спичечных коробков (иногда называемая обучаемой машиной «Крестики-нолики» или MENACE ) — механический компьютер , сделанный из 304 спичечных коробков , разработанный и построенный исследователем искусственного интеллекта Дональдом Мичи в 1961 году. Он был разработан для игры с людьми в крестики-нолики (крестики-нолики), возвращая ход для любого заданного состояния игры и совершенствуя свою стратегию посредством обучения с подкреплением .
У Мичи не было компьютера, поэтому он обошел это ограничение, построив его из спичечных коробков. Каждый из спичечных коробков, используемых Мичи, представлял собой одну возможную схему сетки крестиков-ноликов. Когда компьютер впервые играл, он случайным образом выбирал ходы на основе текущей схемы. По мере того, как он играл больше игр, через цикл подкрепления он дисквалифицировал стратегии, которые приводили к проигрышу, и дополнял стратегии, которые приводили к победе. Мичи провел турнир против MENACE в 1961 году, где он экспериментировал с различными дебютами.
После первого турнира MENACE против Michie, он продемонстрировал успешный искусственный интеллект в своей стратегии. Очерки Michie об инициализации веса MENACE и алгоритме BOXES, используемом MENACE, стали популярными в области компьютерных исследований. Michie был удостоен награды за свой вклад в исследования машинного обучения и дважды был уполномочен программировать симуляцию MENACE на реальном компьютере.
Дональд Мичи (1923–2007) был в команде, расшифровывавшей немецкий код Тунни во время Второй мировой войны . [1] Пятнадцать лет спустя он захотел еще больше продемонстрировать свои математические и вычислительные способности с помощью ранней сверточной нейронной сети . Поскольку компьютерное оборудование для таких целей было недоступно, [2] а у Мичи не было компьютера под рукой, [2] он решил продемонстрировать искусственный интеллект в более эзотерическом формате и сконструировал функциональный механический компьютер из спичечных коробков и бусинок. [3] [4]
MENACE был создан в результате спора с коллегой по информатике, который предположил, что такая машина невозможна. [5] Мичи взял на себя задачу сбора и описания каждого спичечного коробка как «забавного проекта», позже превратившегося в демонстрационный инструмент. [6] Мичи завершил свое эссе по MENACE в 1963 году, [4] «Эксперименты по механизации игрового обучения», а также свое эссе по алгоритму BOXES, написанное совместно с Р. А. Чемберсом [6] и создал исследовательское подразделение ИИ в Хоуп-Парк-сквер, Эдинбург , Шотландия . [7]
MENACE обучалась, играя в увеличивающиеся пары крестиков и ноликов. Каждый раз она исключала проигрышную стратегию, поскольку игрок-человек конфисковывал бусины, соответствующие каждому ходу. [4] Она усиливала выигрышные стратегии, делая ходы более вероятными, предоставляя дополнительные бусины. [8] Это была одна из самых ранних версий цикла подкрепления , схематического алгоритма зацикливания алгоритма, отбрасывающего неудачные стратегии до тех пор, пока не останутся только выигрышные. [4] Эта модель начинается как полностью случайная и постепенно обучается. [9]
MENACE была сделана из 304 спичечных коробков, склеенных вместе в виде комода. [10] У каждой коробки был кодовый номер, который был введен в таблицу. Эта таблица содержала рисунки игровых сеток крестиков-ноликов с различными конфигурациями X , O и пустых квадратов, [4] соответствующих всем возможным перестановкам, которые могла пройти игра по мере ее развития. [11] После удаления дублирующихся расположений (тех, которые были просто вращениями или зеркальными отражениями других конфигураций), MENACE использовала 304 перестановки в своей таблице и, следовательно, столько же спичечных коробков. [12]
Каждый отдельный лоток для спичек содержал набор цветных бусин. [13] Каждый цвет представлял собой ход на клетке на игровой сетке, и поэтому спичечные коробки с расстановками, где позиции на сетке уже были заняты, не имели бы бусин для этой позиции. Кроме того, в передней части лотка были два дополнительных куска карты в форме «V», [10] острие «V» указывало на переднюю часть спичечного коробка. [11] Мичи и его команда искусственного интеллекта назвали алгоритм MENACE «Коробками», [7] в честь аппарата, используемого для машины. Первый этап «Коробки» работал в пять фаз, каждая из которых устанавливала определение и прецедент для правил алгоритма по отношению к игре. [14]
MENACE играл первым, как O, поскольку все спичечные коробки представляли собой перестановки, имеющие отношение только к игроку «X». [12] [17] Чтобы получить выбор хода MENACE, противник или оператор находил спичечный коробок, который соответствовал текущему состоянию игры, или его вращение или зеркальное отражение. Например, в начале игры это был бы спичечный коробок для пустой сетки. Лоток убирали и слегка встряхивали, чтобы переместить бусины. [4] Затем бусина, которая закатилась в точку формы «V» в передней части лотка, была ходом, который выбрал MENACE. [4] Затем ее цвет использовался в качестве позиции для игры, и после учета любых вращений или переворотов, необходимых на основе отношения выбранной конфигурации спичечного коробка к текущей сетке, O помещался на этот квадрат. Затем игрок выполнял свой ход, новое состояние находилось, выбирался новый ход и так далее, пока игра не заканчивалась. [12]
Когда игра заканчивалась, игрок-человек наблюдал за результатом игры. По мере игры каждый спичечный коробок, который использовался для хода MENACE, возвращался на свой лоток приоткрытым, а использованная бусина откладывалась в сторону, так что выбор ходов MENACE и игровые состояния, к которым они принадлежали, записывались. Мичи описал свою систему подкрепления с помощью «вознаграждения» и «наказания». После окончания игры, если MENACE побеждал, он получал «вознаграждение» за свою победу. Удаленные бусины показывали последовательность выигрышных ходов. [17] Их возвращали на соответствующие лотки, которые легко идентифицировались, поскольку они были слегка приоткрыты, а также три бонусные бусины того же цвета. [11] Таким образом, в будущих играх MENACE с большей вероятностью повторял эти выигрышные ходы, подкрепляя выигрышные стратегии. Если он проигрывал, то снятые бусины не возвращались, «наказывая» УГРОЗУ, и это означало, что в будущем он будет менее склонен, а в конечном итоге и не сможет, если этот цвет бусины исчезнет, повторять ходы, которые приводят к проигрышу. [3] [8] Если игра заканчивалась вничью, в каждую коробку добавлялась одна дополнительная бусина. [11]
Крестики-нолики имеют хорошо известную оптимальную стратегию. [18] Игрок должен разместить свой символ таким образом, чтобы заблокировать другому игроку возможность получить какие-либо ряды, одновременно составляя ряд самому. Однако, если оба игрока используют эту стратегию, игра всегда заканчивается вничью. [18] Если игрок-человек знаком с оптимальной стратегией, а MENACE может быстро ее изучить, то игры в конечном итоге будут заканчиваться только вничью. Вероятность победы компьютера быстро увеличивается, когда компьютер играет против случайного противника. [3]
При игре против игрока, использующего оптимальную стратегию, шансы на ничью возрастают до 100%. В официальном турнире Дональда Мичи против MENACE в 1961 году [4] он использовал оптимальную стратегию, и он и компьютер начали стабильно играть вничью после двадцати игр. Турнир Мичи [19] имел следующие вехи: Мичи начал с последовательного открытия с «Варианта 0», среднего квадрата. В 15 играх MENACE отказался от всех неугловых дебютов. Чуть больше 20 Мичи перешел на постоянное использование «Варианта 1», нижнего правого квадрата. В 60 он вернулся к Варианту 0. Когда он приблизился к 80 играм, он перешел на «Вариант 2», верхний средний. В 110 он перешел на «Вариант 3», верхний правый. В 135 он перешел на «Вариант 4», средний правый. В 190 он вернулся к Варианту 1, а в 210 — к Варианту 0.
Тенденция изменения количества бусин в ящиках «2» выглядит следующим образом: [19]
Вариант | Номер матча | Смена бусин в коробке "2" |
---|---|---|
Вариант 0 | 0 | 0 |
Вариант 1 | 20 | -5 |
Вариант 0 | 60 | 5 |
Вариант 2 | 70 | 10 |
Вариант 3 | 110 | 20 |
Вариант 4 | 135 | 25 |
Вариант 1 | 190 | 100 |
Вариант 0 | 210 | 120 |
В зависимости от стратегии, используемой игроком-человеком, MENACE создает различную тенденцию на графиках рассеивания выигрышей. [4] Использование случайного хода игрока-человека приводит к почти идеальной положительной тенденции. Игра по оптимальной стратегии возвращает немного более медленный рост. [3] Подкрепление не создает идеального стандарта выигрышей; алгоритм будет делать случайные неопределенные выводы каждый раз. После j -го раунда корреляция почти идеальной игры выполняется:
Где V i — результат (+1 — победа, 0 — ничья, -1 — поражение), а D — коэффициент распада (среднее значение прошлых значений побед и поражений). Ниже M n — множитель для n -го раунда игры. [4]
Исход | Укрепление |
---|---|
Выиграл | |
Рисовать | |
Потерянный |
MENACE Дональда Мичи доказал, что компьютер может учиться на неудачах и успехах, чтобы стать хорошим в выполнении задачи. [17] Он использовал то, что стало основными принципами в области машинного обучения до того, как они были должным образом теоретически обоснованы. Например, сочетание того, как MENACE начинается с равного количества типов бусин в каждом спичечном коробке, и того, как они затем выбираются случайным образом, создает поведение обучения, похожее на инициализацию веса в современных искусственных нейронных сетях . [20] В 1968 году Дональд Мичи и Р. А. Чемберс создали еще один алгоритм на основе BOXES под названием GLEE (Game Learning Expectimaxing Engine), который должен был научиться балансировать шест на тележке. [21]
После громкого приема MENACE, Мичи был приглашен в Управление военно-морских исследований США, где ему было поручено создать программу, работающую на BOXES, для компьютера IBM для использования в Стэнфордском университете . [22] Мичи создал программу моделирования MENACE на компьютере Pegasus 2 с помощью Д. Мартина. [4] В последние годы было несколько воссозданий MENACE, как в его первоначальной физической форме, так и в виде компьютерной программы. [12] Его алгоритм позже был объединен в алгоритм Q-Learning Кристофера Уоткина. [23] Хотя и не как функциональный компьютер, в демонстрационных примерах MENACE использовался в качестве учебного пособия для различных классов нейронных сетей, [24] [25] [26] включая публичную демонстрацию исследователя из Лондонского университетского колледжа Мэтью Скроггса. [27] [28] Копия MENACE, созданная Скроггсом, была представлена на рождественских лекциях в Королевском институте в 2019 году , [29] [30] и в эпизоде QI XL 2023 года . [31]
УГРОЗА упоминается в рассказе Фреда Саберхагена 1963 года «Без мыслей» и в романе Томаса Дж. Райана 1977 года «Юность П-1» . [32] В своей книге 2023 года «Будущее » автор Наоми Олдерман включает вымышленную лекцию с подробным обзором УГРОЗЫ.