AlphaGo Zero

Искусственный интеллект, который играет в Го

AlphaGo Zero — это версия программного обеспечения AlphaGo от DeepMind для игры в го . Команда AlphaGo опубликовала статью в Nature в октябре 2017 года, в которой представила AlphaGo Zero — версию, созданную без использования данных из человеческих игр и более мощную, чем любая предыдущая версия. [1] Играя против самой себя, AlphaGo Zero: превзошла силу AlphaGo Lee за три дня, выиграв 100 игр до 0; достигла уровня AlphaGo Master за 21 день; и превзошла все предыдущие версии за 40 дней. [2]

Обучение искусственного интеллекта (ИИ) без наборов данных, полученных от экспертов-людей , имеет значительные последствия для разработки ИИ со сверхчеловеческими навыками, поскольку экспертные данные «часто дороги, ненадежны или просто недоступны». [3] Демис Хассабис , соучредитель и генеральный директор DeepMind, сказал, что AlphaGo Zero был настолько мощным, потому что он «больше не был ограничен пределами человеческих знаний». [4] Кроме того, AlphaGo Zero показал себя лучше, чем стандартные модели глубокого обучения с подкреплением (такие как реализации Deep Q-Network [5] ) из-за его интеграции поиска по дереву Монте-Карло . Дэвид Сильвер , один из первых авторов статей DeepMind, опубликованных в Nature на AlphaGo, сказал, что можно иметь обобщенные алгоритмы ИИ, устранив необходимость учиться у людей. [6]

Позже Google разработала AlphaZero , обобщённую версию AlphaGo Zero, которая могла играть в шахматы и сёги в дополнение к го. [7] В декабре 2017 года AlphaZero победила трёхдневную версию AlphaGo Zero, выиграв 60 игр против 40, и после 8 часов тренировок превзошла AlphaGo Lee по шкале Эло . AlphaZero также победила лучшую шахматную программу ( Stockfish ) и лучшую программу сёги ( Elmo ). [8] [9]

Архитектура

Сеть в AlphaGo Zero представляет собой ResNet с двумя головками. [1] : Приложение: Методы 

  • Ствол сети принимает в качестве входных данных тензорное представление доски Го размером 17x19x19.
    • 8 каналов — это позиции камней текущего игрока за последние восемь тактов. (1, если есть камень, 0 в противном случае. Если такты идут до начала игры, то 0 во всех позициях.)
    • 8 каналов — это позиции камней другого игрока за последние восемь тактов.
    • 1 канал имеет значение 1, если ходят черные, и 0 в противном случае.
  • Тело представляет собой ResNet с 20 или 40 остаточными блоками и 256 каналами.
  • Есть два направления: политическое и ценностное.
    • Глава политики выводит логит- массив размера , представляющий логит совершения хода в одной из точек, плюс логит прохождения . 19 × 19 + 1 {\displaystyle 19\times 19+1}
    • Значение заголовка выводит число в диапазоне , представляющее ожидаемый счет для текущего игрока. -1 представляет проигрыш текущего игрока, а +1 — победу. ( 1 , + 1 ) {\displaystyle (-1,+1)}

Обучение

Нейронная сеть AlphaGo Zero была обучена с использованием TensorFlow с 64 рабочими GPU и 19 серверами параметров CPU. Для вывода использовались только четыре TPU . Нейронная сеть изначально ничего не знала о Go за пределами правил . В отличие от более ранних версий AlphaGo, Zero воспринимала только камни доски, а не имела некоторых редких запрограммированных человеком пограничных случаев, чтобы помочь распознать необычные позиции доски Go. ИИ занимался обучением с подкреплением , играя против себя, пока не смог предвидеть свои собственные ходы и то, как эти ходы повлияют на исход игры. [10] За первые три дня AlphaGo Zero сыграла против себя 4,9 миллиона игр подряд. [11] Казалось, что он развил навыки, необходимые для победы над лучшими людьми, всего за несколько дней, тогда как более ранней AlphaGo потребовались месяцы обучения, чтобы достичь того же уровня. [12]

Обучение обошлось в 3e23 FLOPs, что в десять раз больше, чем у AlphaZero. [13]

Для сравнения исследователи также обучили версию AlphaGo Zero с использованием человеческих игр, AlphaGo Master, и обнаружили, что она обучалась быстрее, но на самом деле работала хуже в долгосрочной перспективе. [14] DeepMind представила свои первоначальные результаты в статье в Nature в апреле 2017 года, которая была затем опубликована в октябре 2017 года. [1]

Стоимость оборудования

Стоимость оборудования для одной системы AlphaGo Zero в 2017 году, включая четыре TPU, оценивалась примерно в 25 миллионов долларов. [15]

Приложения

По словам Хассабиса, алгоритмы AlphaGo, вероятно, будут наиболее полезны в областях, требующих интеллектуального поиска в огромном пространстве возможностей, таких как сворачивание белков (см. AlphaFold ) или точное моделирование химических реакций. [16] Методы AlphaGo, вероятно, менее полезны в областях, которые трудно моделировать, таких как обучение вождению автомобиля. [17] DeepMind заявила в октябре 2017 года, что она уже начала активную работу по попытке использования технологии AlphaGo Zero для сворачивания белков, и заявила, что вскоре опубликует новые результаты. [18] [19]

Прием

AlphaGo Zero широко расценивали как значительный прогресс, даже по сравнению с его новаторским предшественником AlphaGo. Орен Этциони из Института искусственного интеллекта Аллена назвал AlphaGo Zero «очень впечатляющим техническим результатом» в «как их способности сделать это, так и их способности обучить систему за 40 дней на четырех TPU». [10] The Guardian назвал это «крупным прорывом в области искусственного интеллекта», цитируя Элени Василаки из Шеффилдского университета и Тома Митчелла из Университета Карнеги-Меллона , которые назвали это впечатляющим подвигом и «выдающимся инженерным достижением» соответственно. [17] Марк Песке из Сиднейского университета назвал AlphaGo Zero «большим технологическим прогрессом», выводящим нас на «неизведанную территорию». [20]

Гэри Маркус , психолог из Нью-Йоркского университета , предупредил, что, насколько нам известно, AlphaGo может содержать «неявные знания, которые есть у программистов о том, как конструировать машины для решения таких задач, как го», и его необходимо будет протестировать в других областях, прежде чем можно будет быть уверенным, что его базовая архитектура эффективна не только для игры в го. Напротив, DeepMind «уверен, что этот подход можно обобщить для большого количества областей». [11]

В ответ на сообщения южнокорейский профессионал го Ли Седоль сказал: «Предыдущая версия AlphaGo не была идеальной, и я считаю, что именно поэтому была создана AlphaGo Zero». О потенциале развития AlphaGo Ли сказал, что ему придется подождать и посмотреть, но также сказал, что это повлияет на молодых игроков го. Мок Джин-сок , который руководит южнокорейской национальной сборной по го, сказал, что мир го уже подражает стилям игры предыдущих версий AlphaGo и создает новые идеи из них, и он надеется, что новые идеи появятся в AlphaGo Zero. Мок также добавил, что общие тенденции в мире го теперь зависят от стиля игры AlphaGo. «Сначала было трудно понять, и я почти чувствовал, что играю против инопланетянина. Однако, имея большой опыт, я привык к этому», - сказал Мок. «Сейчас мы прошли точку, когда мы обсуждали разрыв между возможностями AlphaGo и людей. Теперь он между компьютерами». Сообщается, что Мок уже начал анализировать стиль игры AlphaGo Zero вместе с игроками национальной сборной. «Хотя, посмотрев всего несколько матчей, у нас сложилось впечатление, что AlphaGo Zero играет больше как человек, чем его предшественники», — сказал Мок. [21] Китайский профессиональный игрок в го Кэ Цзе прокомментировал замечательные достижения новой программы: «Чистая самообучающаяся AlphaGo — самая сильная. Люди кажутся излишними на фоне ее самосовершенствования». [22]

Сравнение с предшественниками

Конфигурация и прочность [23]
ВерсииИгровое оборудование [24]Рейтинг ЭлоСовпадения
AlphaGo Fan176 графических процессоров , [2] распределенных3,144 [1]5:0 против Фань Хуэй
АльфаГо Ли48 TPU , [2] распределенных3,739 [1]4:1 против Ли Седоля
АльфаГо Мастер4 TPU, [2] одна машина4,858 [1]60:0 против профессиональных игроков;

Будущее саммита Go

AlphaGo Zero (40 дней)4 TPU, [2] одна машина5,185 [1]100:0 против AlphaGo Lee

89:11 против AlphaGo Master

АльфаЗеро (34 часа)4 TPU, одна машина [8]4430 (оценка) [8]60:40 против 3-дневного AlphaGo Zero

АльфаЗеро

5 декабря 2017 года команда DeepMind опубликовала препринт на arXiv , в котором представила AlphaZero — программу, использующую обобщенный подход AlphaGo Zero, которая в течение 24 часов достигла сверхчеловеческого уровня игры в шахматы , сёги и го , победив в каждом случае программы-чемпионы мира Stockfish , Elmo и 3-дневную версию AlphaGo Zero. [8]

AlphaZero (AZ) — более обобщенный вариант алгоритма AlphaGo Zero (AGZ) , который может играть в сёги и шахматы, а также в го. Различия между AZ и AGZ включают: [8]

  • В AZ есть жестко запрограммированные правила настройки гиперпараметров поиска .
  • Теперь нейронная сеть постоянно обновляется.
  • Шахматы (в отличие от Го) могут закончиться вничью; поэтому AZ может учитывать возможность ничьей.

Доступна программа с открытым исходным кодом Leela Zero , основанная на идеях из статей AlphaGo. Она использует GPU вместо TPU, на которые опираются последние версии AlphaGo.

Ссылки

  1. ^ abcdefg Сильвер, Дэвид ; Шритвизер, Джулиан; Симонян, Карен; Антоноглу, Иоаннис; Хуан, Аджа ; Гез, Артур; Хьюберт, Томас; Бейкер, Лукас; Лай, Мэтью; Болтон, Адриан; Чэнь, Юйтянь ; Лилликрап, Тимоти; Фань, Хуэй ; Сифре, Лоран; Дрише, Джордж ван ден; Грепель, Тор; Хассабис, Демис (19 октября 2017 г.). «Освоение игры в го без человеческих знаний» (PDF) . Nature . 550 (7676): 354– 359. Bibcode : 2017Natur.550..354S. doi : 10.1038/nature24270. ISSN  0028-0836. PMID  29052630. S2CID  205261034. Архивировано (PDF) из оригинала 18 июля 2018 г. Получено 2 сентября 2019 г.Значок закрытого доступа
  2. ^ abcde Хассабис, Демис ; Сивер, Дэвид (18 октября 2017 г.). «AlphaGo Zero: Learning from scratch». Официальный сайт DeepMind . Архивировано из оригинала 19 октября 2017 г. Получено 19 октября 2017 г.
  3. ^ «Новый прорыв AlphaGo от Google может привести алгоритмы туда, где еще не ступала нога человека». Yahoo! Finance . 19 октября 2017 г. Архивировано из оригинала 19 октября 2017 г. Получено 19 октября 2017 г.
  4. ^ Кнаптон, Сара (18 октября 2017 г.). «AlphaGo Zero: суперкомпьютер Google DeepMind изучил 3000 лет человеческих знаний за 40 дней». The Telegraph . Архивировано из оригинала 19 октября 2017 г. Получено 19 октября 2017 г.
  5. ^ mnj12 (7 июля 2021 г.), mnj12/chessDeepLearning , получено 7 июля 2021 г.{{citation}}: CS1 maint: numeric names: authors list (link)
  6. ^ "DeepMind AlphaGo Zero учится самостоятельно, без вмешательства мешка с мясом". ZDNet . 19 октября 2017 г. Архивировано из оригинала 20 октября 2017 г. Получено 20 октября 2017 г.
  7. ^ https://www.idi.ntnu.no/emner/it3105/materials/neural/silver-2017b.pdf
  8. ^ abcde Сильвер, Дэвид ; Хьюберт, Томас; Шритвизер, Джулиан; Антоноглу, Иоаннис; Лай, Мэтью; Гез, Артур; Ланкто, Марк; Сифре, Лоран; Кумаран, Дхаршан ; Грэпель, Тор; Лилликрап, Тимоти; Симонян, Карен; Хассабис, Демис (5 декабря 2017 г.). «Освоение шахмат и сёги с помощью самостоятельной игры с использованием общего алгоритма обучения с подкреплением». arXiv : 1712.01815 [cs.AI].
  9. ^ Кнаптон, Сара; Уотсон, Леон (6 декабря 2017 г.). «Все человеческие знания о шахматах изучены и превзойдены AlphaZero от DeepMind за четыре часа». The Telegraph . Архивировано из оригинала 2 декабря 2020 г. Получено 5 апреля 2018 г.
  10. ^ ab Greenemeier, Larry. «AI против AI: самообучающийся AlphaGo Zero побеждает своего предшественника». Scientific American . Архивировано из оригинала 19 октября 2017 г. Получено 20 октября 2017 г.
  11. ^ ab "Компьютер учится играть в го на сверхчеловеческом уровне "без человеческих знаний"". NPR . 18 октября 2017 г. Архивировано из оригинала 20 октября 2017 г. Получено 20 октября 2017 г.
  12. ^ «Новый прорыв AlphaGo от Google может привести алгоритмы туда, где еще не ступала нога человека». Fortune . 19 октября 2017 г. Архивировано из оригинала 19 октября 2017 г. Получено 20 октября 2017 г.
  13. ^ «Данные о выдающихся моделях ИИ». Epoch AI . 19 июня 2024 г. Получено 29 ноября 2024 г.
  14. ^ «Эта компьютерная программа может победить людей в го — без человеческих указаний». Наука | AAAS . 18 октября 2017 г. Архивировано из оригинала 2 февраля 2022 г. Получено 20 октября 2017 г.
  15. ^ Гибни, Элизабет (18 октября 2017 г.). «Самоучительный ИИ пока лучший в стратегической игре Го». Nature News . doi :10.1038/nature.2017.22858. Архивировано из оригинала 1 мая 2020 г. . Получено 10 мая 2020 г. .
  16. ^ "Новейший ИИ может решать проблемы без обучения". The Economist . Архивировано из оригинала 19 октября 2017 года . Получено 20 октября 2017 года .
  17. ^ ab Sample, Ian (18 октября 2017 г.). «Он способен сам создавать знания»: Google представляет ИИ, который учится самостоятельно». The Guardian . Архивировано из оригинала 19 октября 2017 г. Получено 20 октября 2017 г.
  18. ^ ««Он способен сам создавать знания»: Google представляет ИИ, который обучается самостоятельно». The Guardian . 18 октября 2017 г. Архивировано из оригинала 19 октября 2017 г. Получено 26 декабря 2017 г.
  19. ^ Knapton, Sarah (18 октября 2017 г.). «AlphaGo Zero: суперкомпьютер Google DeepMind изучил 3000 лет человеческих знаний за 40 дней». The Telegraph . Архивировано из оригинала 15 декабря 2017 г. Получено 26 декабря 2017 г.
  20. ^ «Как новый ИИ от Google может научиться побеждать вас в самых сложных играх». Australian Broadcasting Corporation . 19 октября 2017 г. Архивировано из оригинала 20 октября 2017 г. Получено 20 октября 2017 г.
  21. ^ «Игроки в го в восторге от «более человеческого» AlphaGo Zero». Korea Bizwire . 19 октября 2017 г. Архивировано из оригинала 21 октября 2017 г. Получено 21 октября 2017 г.
  22. ^ «Новая версия AlphaGo может освоить Weiqi без помощи человека». China News Service . 19 октября 2017 г. Архивировано из оригинала 19 октября 2017 г. Получено 21 октября 2017 г.
  23. ^ «【柯洁战败解密】AlphaGo Master最新架构和算法,谷歌云与TPU拆解» (на китайском языке). Соху . 24 мая 2017 г. Архивировано из оригинала 17 сентября 2017 г. Проверено 1 июня 2017 г.
  24. ^ Оборудование, используемое во время обучения, может быть существенно более мощным.
  • "AlphaGo Zero: Начинаем с нуля". Архивировано из оригинала 3 января 2020 г.
  • Сингх, С.; Окун, А.; Джексон, А. (2017). "AOP". Nature . 550 (7676): 336– 337. Bibcode :2017Natur.550..336S. doi : 10.1038/550336a . PMID  29052631. S2CID  4447445.
  • Silver, David; Schrittwieser, Julian; Simonyan, Karen; Antonoglou, Ioannis; Huang, Aja; Guez, Arthur; Hubert, Thomas; Baker, Lucas; Lai, Matthew; Bolton, Adrian; Chen, Yutian; Lillicrap, Timothy; Hui, Fan; Sifre, Laurent; Van Den Driessche, George; Graepel, Thore; Hassabis, Demis (2017). «Освоение игры в го без человеческих знаний» (PDF) . Nature . 550 (7676): 354– 359. Bibcode : 2017Natur.550..354S. doi : 10.1038/nature24270. PMID  29052630. S2CID  205261034.
  • AlphaGo Zero Игры
Retrieved from "https://en.wikipedia.org/w/index.php?title=AlphaGo_Zero&oldid=1260292956"