Часть серии статей о |
Искусственный интеллект |
---|
AlphaGo Zero — это версия программного обеспечения AlphaGo от DeepMind для игры в го . Команда AlphaGo опубликовала статью в Nature в октябре 2017 года, в которой представила AlphaGo Zero — версию, созданную без использования данных из человеческих игр и более мощную, чем любая предыдущая версия. [1] Играя против самой себя, AlphaGo Zero: превзошла силу AlphaGo Lee за три дня, выиграв 100 игр до 0; достигла уровня AlphaGo Master за 21 день; и превзошла все предыдущие версии за 40 дней. [2]
Обучение искусственного интеллекта (ИИ) без наборов данных, полученных от экспертов-людей , имеет значительные последствия для разработки ИИ со сверхчеловеческими навыками, поскольку экспертные данные «часто дороги, ненадежны или просто недоступны». [3] Демис Хассабис , соучредитель и генеральный директор DeepMind, сказал, что AlphaGo Zero был настолько мощным, потому что он «больше не был ограничен пределами человеческих знаний». [4] Кроме того, AlphaGo Zero показал себя лучше, чем стандартные модели глубокого обучения с подкреплением (такие как реализации Deep Q-Network [5] ) из-за его интеграции поиска по дереву Монте-Карло . Дэвид Сильвер , один из первых авторов статей DeepMind, опубликованных в Nature на AlphaGo, сказал, что можно иметь обобщенные алгоритмы ИИ, устранив необходимость учиться у людей. [6]
Позже Google разработала AlphaZero , обобщённую версию AlphaGo Zero, которая могла играть в шахматы и сёги в дополнение к го. [7] В декабре 2017 года AlphaZero победила трёхдневную версию AlphaGo Zero, выиграв 60 игр против 40, и после 8 часов тренировок превзошла AlphaGo Lee по шкале Эло . AlphaZero также победила лучшую шахматную программу ( Stockfish ) и лучшую программу сёги ( Elmo ). [8] [9]
Сеть в AlphaGo Zero представляет собой ResNet с двумя головками. [1] : Приложение: Методы
Нейронная сеть AlphaGo Zero была обучена с использованием TensorFlow с 64 рабочими GPU и 19 серверами параметров CPU. Для вывода использовались только четыре TPU . Нейронная сеть изначально ничего не знала о Go за пределами правил . В отличие от более ранних версий AlphaGo, Zero воспринимала только камни доски, а не имела некоторых редких запрограммированных человеком пограничных случаев, чтобы помочь распознать необычные позиции доски Go. ИИ занимался обучением с подкреплением , играя против себя, пока не смог предвидеть свои собственные ходы и то, как эти ходы повлияют на исход игры. [10] За первые три дня AlphaGo Zero сыграла против себя 4,9 миллиона игр подряд. [11] Казалось, что он развил навыки, необходимые для победы над лучшими людьми, всего за несколько дней, тогда как более ранней AlphaGo потребовались месяцы обучения, чтобы достичь того же уровня. [12]
Обучение обошлось в 3e23 FLOPs, что в десять раз больше, чем у AlphaZero. [13]
Для сравнения исследователи также обучили версию AlphaGo Zero с использованием человеческих игр, AlphaGo Master, и обнаружили, что она обучалась быстрее, но на самом деле работала хуже в долгосрочной перспективе. [14] DeepMind представила свои первоначальные результаты в статье в Nature в апреле 2017 года, которая была затем опубликована в октябре 2017 года. [1]
Стоимость оборудования для одной системы AlphaGo Zero в 2017 году, включая четыре TPU, оценивалась примерно в 25 миллионов долларов. [15]
По словам Хассабиса, алгоритмы AlphaGo, вероятно, будут наиболее полезны в областях, требующих интеллектуального поиска в огромном пространстве возможностей, таких как сворачивание белков (см. AlphaFold ) или точное моделирование химических реакций. [16] Методы AlphaGo, вероятно, менее полезны в областях, которые трудно моделировать, таких как обучение вождению автомобиля. [17] DeepMind заявила в октябре 2017 года, что она уже начала активную работу по попытке использования технологии AlphaGo Zero для сворачивания белков, и заявила, что вскоре опубликует новые результаты. [18] [19]
AlphaGo Zero широко расценивали как значительный прогресс, даже по сравнению с его новаторским предшественником AlphaGo. Орен Этциони из Института искусственного интеллекта Аллена назвал AlphaGo Zero «очень впечатляющим техническим результатом» в «как их способности сделать это, так и их способности обучить систему за 40 дней на четырех TPU». [10] The Guardian назвал это «крупным прорывом в области искусственного интеллекта», цитируя Элени Василаки из Шеффилдского университета и Тома Митчелла из Университета Карнеги-Меллона , которые назвали это впечатляющим подвигом и «выдающимся инженерным достижением» соответственно. [17] Марк Песке из Сиднейского университета назвал AlphaGo Zero «большим технологическим прогрессом», выводящим нас на «неизведанную территорию». [20]
Гэри Маркус , психолог из Нью-Йоркского университета , предупредил, что, насколько нам известно, AlphaGo может содержать «неявные знания, которые есть у программистов о том, как конструировать машины для решения таких задач, как го», и его необходимо будет протестировать в других областях, прежде чем можно будет быть уверенным, что его базовая архитектура эффективна не только для игры в го. Напротив, DeepMind «уверен, что этот подход можно обобщить для большого количества областей». [11]
В ответ на сообщения южнокорейский профессионал го Ли Седоль сказал: «Предыдущая версия AlphaGo не была идеальной, и я считаю, что именно поэтому была создана AlphaGo Zero». О потенциале развития AlphaGo Ли сказал, что ему придется подождать и посмотреть, но также сказал, что это повлияет на молодых игроков го. Мок Джин-сок , который руководит южнокорейской национальной сборной по го, сказал, что мир го уже подражает стилям игры предыдущих версий AlphaGo и создает новые идеи из них, и он надеется, что новые идеи появятся в AlphaGo Zero. Мок также добавил, что общие тенденции в мире го теперь зависят от стиля игры AlphaGo. «Сначала было трудно понять, и я почти чувствовал, что играю против инопланетянина. Однако, имея большой опыт, я привык к этому», - сказал Мок. «Сейчас мы прошли точку, когда мы обсуждали разрыв между возможностями AlphaGo и людей. Теперь он между компьютерами». Сообщается, что Мок уже начал анализировать стиль игры AlphaGo Zero вместе с игроками национальной сборной. «Хотя, посмотрев всего несколько матчей, у нас сложилось впечатление, что AlphaGo Zero играет больше как человек, чем его предшественники», — сказал Мок. [21] Китайский профессиональный игрок в го Кэ Цзе прокомментировал замечательные достижения новой программы: «Чистая самообучающаяся AlphaGo — самая сильная. Люди кажутся излишними на фоне ее самосовершенствования». [22]
Версии | Игровое оборудование [24] | Рейтинг Эло | Совпадения |
---|---|---|---|
AlphaGo Fan | 176 графических процессоров , [2] распределенных | 3,144 [1] | 5:0 против Фань Хуэй |
АльфаГо Ли | 48 TPU , [2] распределенных | 3,739 [1] | 4:1 против Ли Седоля |
АльфаГо Мастер | 4 TPU, [2] одна машина | 4,858 [1] | 60:0 против профессиональных игроков; |
AlphaGo Zero (40 дней) | 4 TPU, [2] одна машина | 5,185 [1] | 100:0 против AlphaGo Lee 89:11 против AlphaGo Master |
АльфаЗеро (34 часа) | 4 TPU, одна машина [8] | 4430 (оценка) [8] | 60:40 против 3-дневного AlphaGo Zero |
5 декабря 2017 года команда DeepMind опубликовала препринт на arXiv , в котором представила AlphaZero — программу, использующую обобщенный подход AlphaGo Zero, которая в течение 24 часов достигла сверхчеловеческого уровня игры в шахматы , сёги и го , победив в каждом случае программы-чемпионы мира Stockfish , Elmo и 3-дневную версию AlphaGo Zero. [8]
AlphaZero (AZ) — более обобщенный вариант алгоритма AlphaGo Zero (AGZ) , который может играть в сёги и шахматы, а также в го. Различия между AZ и AGZ включают: [8]
Доступна программа с открытым исходным кодом Leela Zero , основанная на идеях из статей AlphaGo. Она использует GPU вместо TPU, на которые опираются последние версии AlphaGo.
{{citation}}
: CS1 maint: numeric names: authors list (link)