В теории игр народные теоремы — это класс теорем, описывающих обилие профилей выплат равновесий Нэша в повторяющихся играх (Фридман, 1971). [1] Первоначальная Народная теорема касалась выплат всех равновесий Нэша бесконечно повторяющейся игры. Этот результат был назван Народной теоремой, потому что он был широко известен среди теоретиков игр в 1950-х годах, хотя никто его не публиковал. Теорема Фридмана (1971) касается выплат определенных совершенных для подигры равновесий Нэша (SPE) бесконечно повторяющейся игры и, таким образом, усиливает исходную Народную теорему, используя более сильную концепцию равновесия: совершенные для подигры равновесия Нэша, а не равновесия Нэша. [2]
Народная теорема предполагает, что если игроки достаточно терпеливы и дальновидны (т. е. если коэффициент дисконтирования ), то повторное взаимодействие может привести к практически любому среднему выигрышу в равновесии SPE. [3] «Практически любому» здесь технически определяется как «осуществимому» и «индивидуально рациональному».
Начнем с базовой игры , также известной как игра-сцена , которая является игрой с n игроками . В этой игре у каждого игрока есть конечное число действий на выбор, и они делают свой выбор одновременно и без знания выбора другого игрока. Коллективный выбор игроков приводит к профилю выплат, т. е. к выплате для каждого из игроков. Сопоставление коллективного выбора с профилями выплат известно игрокам, и каждый игрок стремится максимизировать свою выплату. Если коллективный выбор обозначается как x, выплата, которую получает игрок i , также известная как полезность игрока i , будет обозначаться как .
Затем мы рассмотрим повторение этой игры на этапе конечное или бесконечное количество раз. В каждом повторении каждый игрок выбирает один из своих вариантов игры на этапе, и при этом выборе он может учитывать выбор других игроков в предыдущих итерациях. В этой повторяющейся игре стратегия для одного из игроков является детерминированным правилом, которое определяет выбор игрока в каждой итерации игры на этапе, основываясь на выборе всех других игроков в предыдущих итерациях. Выбор стратегии для каждого из игроков является профилем стратегии, и он приводит к профилю выплат для повторяющейся игры. Существует несколько различных способов, которыми такой профиль стратегии может быть переведен в профиль выплат, описанных ниже.
Любой профиль выигрыша в равновесии Нэша в повторяющейся игре должен удовлетворять двум свойствам:
Народные теоремы являются частично обратными утверждениями: они утверждают, что при определенных условиях (которые различны в каждой народной теореме) каждый профиль выплат, который является одновременно рациональным и осуществимым по отдельности, может быть реализован как профиль выплат равновесия Нэша в повторяющейся игре.
Существуют различные народные теоремы; некоторые из них относятся к конечно-повторяемым играм, а другие — к бесконечно-повторяемым играм. [4]
В недисконтированной модели игроки терпеливы. Они не различают полезности в разные периоды времени. Следовательно, их полезность в повторяющейся игре представлена суммой полезностей в основных играх.
Когда игра бесконечна, общей моделью для полезности в бесконечно повторяющейся игре является нижний предел средней полезности: если игра приводит к траектории результатов , где обозначает коллективный выбор игроков на итерации t ( t=0,1,2,...), полезность игрока i определяется как
где — базовая игровая функция полезности игрока i .
Бесконечно повторяемая игра без дисконтирования часто называется «суперигрой».
Народная теорема в этом случае очень проста и не содержит никаких предварительных условий: каждый индивидуально рациональный и возможный профиль выплат в базовой игре является профилем выплат равновесия Нэша в повторяющейся игре.
Доказательство использует так называемую стратегию grim [5] или grim trigger [6] . Все игроки начинают с предписанного действия и продолжают делать это до тех пор, пока кто-то не отклонится. Если игрок i отклоняется, все остальные игроки переключаются на выбор действия, которое minmax игрока i навсегда. Одноэтапный выигрыш от отклонения вносит 0 в общую полезность игрока i . Полезность отклоняющегося игрока не может быть выше его minmax выигрыша. Следовательно, все игроки остаются на предполагаемом пути, и это действительно равновесие Нэша.
Вышеуказанное равновесие Нэша не всегда идеально для подигры . Если наказание дорого обходится наказывающим, угроза наказания не заслуживает доверия.
Идеальное равновесие подигры требует немного более сложной стратегии. [5] [7] : 146–149 Наказание не должно длиться вечно; оно должно длиться только конечное время, которого достаточно, чтобы свести на нет выгоды от отклонения. После этого другие игроки должны вернуться на путь равновесия.
Критерий предела средств гарантирует, что любое наказание с конечным сроком не влияет на конечный результат. Следовательно, наказание с ограниченным сроком является подыгровым идеальным равновесием.
Некоторые авторы утверждают, что критерий предела средних нереалистичен, поскольку он подразумевает, что полезности в любом конечном промежутке времени вносят 0 в общую полезность. Однако, если полезности в любом конечном промежутке времени вносят положительный вклад, и это значение не дисконтируется, то невозможно приписать конечную числовую полезность бесконечной последовательности результатов. Возможным решением этой проблемы является то, что вместо определения числовой полезности для каждой бесконечной последовательности результатов мы просто определяем отношение предпочтения между двумя бесконечными последовательностями. Мы говорим, что агент (строго) предпочитает последовательность результатов последовательности , если: [6] [7] : 139 [8]
Например, рассмотрим последовательности и . Согласно критерию предела средств, они предоставляют игроку i одинаковую полезность, но согласно критерию обгона, лучше, чем для игрока i . Для получения дополнительной информации см. критерий обгона .
Народные теоремы с критерием обгона немного слабее, чем с критерием предела средств. Только строго индивидуально рациональные результаты могут быть достигнуты в равновесии Нэша. Это происходит потому, что если агент отклоняется, он выигрывает в краткосрочной перспективе, и этот выигрыш может быть уничтожен только в том случае, если наказание дает отклоняющемуся строго меньшую полезность, чем путь соглашения. Известны следующие народные теоремы для критерия обгона:
Предположим, что выигрыш игрока в бесконечно повторяющейся игре определяется средним дисконтированным критерием с коэффициентом дисконтирования 0 < δ < 1:
Фактор дисконтирования показывает, насколько терпеливы игроки. Фактор вводится для того, чтобы выигрыш оставался ограниченным, когда .
Народная теорема в этом случае требует, чтобы профиль выплат в повторяющейся игре строго доминировал над профилем минимальных выплат (т. е. каждый игрок получал строго больше минимального выигрыша).
Пусть a будет профилем стратегии игры этапа с профилем выплат u , который строго доминирует над профилем выплат minmax. Можно определить равновесие Нэша игры с u как результирующим профилем выплат следующим образом:
Если игрок i получает на ε больше своего минимального максимального выигрыша на каждом этапе, следуя правилу 1, то потенциальный убыток от наказания составляет
Если δ близко к 1, это перевешивает любой конечный одноэтапный выигрыш, делая стратегию равновесием Нэша.
Альтернативное утверждение этой народной теоремы [4] позволяет равновесному платежному профилю u быть любым индивидуально рациональным допустимым платежным профилем; для этого требуется только, чтобы существовал индивидуально рациональный допустимый платежный профиль, который строго доминирует над минимальным максимальным платежным профилем. Тогда народная теорема гарантирует, что можно приблизиться к u в равновесии с любой желаемой точностью (для каждого ε существует равновесие Нэша, где платежный профиль находится на расстоянии ε от u ).
Достижение идеального равновесия подигры в дисконтированных играх сложнее, чем в недисконтированных. Стоимость наказания не исчезает (как в случае с критерием предела средств). Не всегда возможно бесконечно наказывать ненаказывающих (как в случае с критерием обгона), поскольку фактор дисконтирования делает наказания в далеком будущем неактуальными для настоящего. Следовательно, необходим другой подход: наказывающие должны быть вознаграждены.
Это требует дополнительного предположения, что множество допустимых профилей выплат полномерно и профиль min-max лежит внутри него. Стратегия заключается в следующем.
У игрока j ≠ i теперь нет стимула отклоняться от фазы наказания 2. Это доказывает идеальную народную теорему подигры.
Предположим, что выигрыш игрока i в игре, которая повторяется T раз, определяется простым арифметическим средним:
Народная теорема для этого случая имеет следующее дополнительное требование: [4]
Это требование сильнее, чем требование для дисконтированных бесконечных игр, которое, в свою очередь, сильнее, чем требование для недисконтированных бесконечных игр.
Это требование необходимо из-за последнего шага. На последнем шаге единственным стабильным результатом является равновесие Нэша в базовой игре. Предположим, что игрок i ничего не выигрывает от равновесия Нэша (поскольку оно дает ему только его minmax выигрыш). Тогда нет способа наказать этого игрока.
С другой стороны, если для каждого игрока существует базовое равновесие, которое строго лучше, чем minmax, то равновесие в повторяющейся игре можно построить в два этапа:
В последней фазе ни один игрок не отклоняется, поскольку действия уже являются равновесием базовой игры. Если агент отклоняется в первой фазе, его можно наказать, минимизируя его в последней фазе. Если игра достаточно длинная, эффект последней фазы незначителен, поэтому равновесный выигрыш приближается к желаемому профилю.
Народные теоремы могут применяться в самых разных областях. Например:
С другой стороны, экономист Массачусетского технологического института Франклин Фишер отметил, что народная теорема не является позитивной теорией. [13] При рассмотрении, например, поведения олигополии народная теорема не говорит экономисту, что будут делать фирмы, а скорее то, что функции затрат и спроса недостаточны для общей теории олигополии, и экономисты должны включить контекст, в котором действуют олигополии, в свою теорию. [13]
В 2007 году Боргс и др. доказали, что, несмотря на народную теорему, в общем случае вычисление равновесий Нэша для повторяющихся игр не проще, чем вычисление равновесий Нэша для однократных конечных игр, проблема, которая относится к классу сложности PPAD . [14] Практическим следствием этого является то, что не известно эффективного (полиномиального времени) алгоритма, который вычисляет стратегии, требуемые народными теоремами в общем случае.
В следующей таблице сравниваются различные народные теоремы по нескольким аспектам:
Опубликовано | Горизонт | Коммунальные услуги | Условия на G | Условия по x | Гарантия | Тип равновесия | Вид наказания |
---|---|---|---|---|---|---|---|
Бенуа и Кришна [15] | Конечный ( ) | Среднее арифметическое | Для каждого игрока существует равновесный выигрыш, строго лучший, чем минимакс. | Никто | Для всех существует такое, что если , то для каждого существует равновесие с выигрышем, близким к . | Нэш | |
Ауманн и Шепли [5] | Бесконечный | Предел средств | Никто | Никто | Выплата именно та . | Нэш | Мрачный |
Ауманн и Шепли [5] и Рубинштейн [8] [16] | Бесконечный | Предел средств | Никто | Никто | Выплата именно та . | Идеальная подигра | Ограниченное по времени наказание. [7] : 146–149 |
Рубинштейн [6] | Бесконечный | Обгон | Никто | Строго выше минимакса. | Единичный результат или периодическая последовательность. | Идеальная подигра | Наказание тех, кто не наказывает. [7] : 149–150 |
Рубинштейн [8] | Бесконечный | Предел средств | Никто | Парето-эффективный и слабокоалиционно-индивидуально-рациональный [10] | Никто | Коалиция-подигра-идеальная | |
Рубинштейн [8] | Бесконечный | Обгон | Никто | Парето-эффективный и строго коалиционно-индивидуально-рациональный [12] | Никто | Коалиция-Нэш | |
Фуденберг и Маскин [17] | Бесконечный | Сумма со скидкой | Допускаются коррелированные смешанные стратегии. | Строго выше минимакса. | Когда достаточно близко к 1, существует равновесие с выигрышем ровно . | Нэш | Мрачный |
Фуденберг и Маскин [17] | Бесконечный | Сумма со скидкой | Разрешены только чистые стратегии. | Строго выше минимакса. | Для всех существует такое, что если , то для каждого существует равновесие с выигрышем, близким к . | Нэш | Жестокое наказание. |
Фридман (1971, 1977) | Бесконечный | Сумма со скидкой | Допускаются коррелированные смешанные стратегии. | Строго над равновесием Нэша в G. | Когда достаточно близко к 1, достигается равновесие с выигрышем ровно . | Идеальная подигра | Жестокое наказание с использованием равновесия Нэша. |
Фуденберг и Маскин [17] | Бесконечный | Сумма со скидкой | Два игрока | Строго выше минимакса. | Для всех существует такое, что если , то существует равновесие с выигрышем ровно . | Идеальная подигра | Ограниченное по времени наказание. |
Фуденберг и Маскин [17] | Бесконечный | Сумма со скидкой | Допустимое пространство IR полномерно. [18] | Строго выше минимакса. | Для всех существует такое, что если , то существует равновесие с выигрышем ровно . | Идеальная подигра | Награждение карателей. [7] : 150–153 |
В качестве намёка на народные теоремы для повторяющихся игр некоторые авторы использовали термин «народная теорема» для обозначения результатов на множестве возможных равновесий или равновесных выплат в других условиях, особенно если результаты схожи в том, какие равновесные выплаты они допускают. Например, Тенненхольц доказывает «народную теорему» для программного равновесия . Многие другие народные теоремы были доказаны в условиях с обязательством. [19] [20] [21] [22]