метрика Вассерштейна

Функция расстояния, определенная между распределениями вероятностей

В математике расстояние Вассерштейна или метрика КанторовичаРубинштейна – это функция расстояния, определённая между распределениями вероятностей на заданном метрическом пространстве . Она названа в честь Леонида Васерштейна . М {\displaystyle М}

Интуитивно, если каждое распределение рассматривать как единицу количества земли (почвы), сложенной на , метрика представляет собой минимальную «стоимость» превращения одной кучи в другую, которая, как предполагается, равна количеству земли, которое необходимо переместить, умноженному на среднее расстояние, на которое ее необходимо переместить. Эта задача была впервые формализована Гаспаром Монжем в 1781 году. Из-за этой аналогии метрика известна в информатике как расстояние землекопа . М {\displaystyle М}

Название «расстояние Вассерштейна» было придумано Р. Л. Добрушиным в 1970 году после того, как он узнал о нем из работы Леонида Васерштейна о марковских процессах, описывающих большие системы автоматов [1] (русский, 1969). Однако впервые метрика была определена Леонидом Канторовичем в «Математическом методе планирования и организации производства» [2] (русский оригинал 1939) в контексте оптимального планирования перевозок товаров и материалов. Некоторые ученые поэтому поощряют использование терминов «метрика Канторовича» и «расстояние Канторовича». Большинство англоязычных публикаций используют немецкое написание «Wasserstein» (приписывается фамилии «Васерштейн» (русский: Васерштейн ), которая имеет идишское происхождение).

Определение

Пусть будет метрическим пространством , которое является польским пространством . Для , расстояние Вассерштейна между двумя вероятностными мерами и на с конечными - моментами равно , где - множество всех связей и ; определяется как и соответствует супремум-норме . Здесь связь - это совместная вероятностная мера на которой маргиналы и на первом и втором факторах соответственно. Это означает, что для всех измеримых она удовлетворяет и . ( М , г ) {\displaystyle (М,д)} п [ 1 , + ] {\displaystyle p\in [1,+\infty]} п {\displaystyle p} μ {\displaystyle \мю} ν {\displaystyle \nu} М {\displaystyle М} п {\displaystyle p} Вт п ( μ , ν ) = инф γ Г ( μ , ν ) ( Э ( х , у ) γ г ( х , у ) п ) 1 / п , {\displaystyle W_{p}(\mu,\nu)=\inf _{\gamma \in \Gamma (\mu,\nu)}\left(\mathbf {E} _{(x,y)\sim \гамма }d(x,y)^{p}\right)^{1/p},} Г ( μ , ν ) {\displaystyle \Gamma (\mu,\nu)} μ {\displaystyle \мю} ν {\displaystyle \nu} Вт ( μ , ν ) {\displaystyle W_ {\infty }(\mu,\nu)} лим п + Вт п ( μ , ν ) {\displaystyle \lim _ {p\rightarrow +\infty }W_ {p}(\mu,\nu)} γ {\displaystyle \гамма} М × М {\displaystyle М\times М} μ {\displaystyle \мю} ν {\displaystyle \nu} А М {\displaystyle A\подмножество M} γ ( А × М ) = μ ( А ) {\displaystyle \gamma (A\times M)=\mu (A)} γ ( М × А ) = ν ( А ) {\displaystyle \gamma (M\times A)=\nu (A)}

Интуиция и связь с оптимальным транспортом

Два одномерных распределения и , нанесенные на оси x и y, и одно возможное совместное распределение, которое определяет план транспортировки между ними. Совместный план распределения/транспортировки не является уникальным μ {\displaystyle \мю} ν {\displaystyle \nu}

Один из способов понять приведенное выше определение — рассмотреть задачу оптимальной транспортировки . То есть, для распределения массы на пространстве мы хотим переместить массу таким образом, чтобы она трансформировалась в распределение на том же пространстве; преобразуя «кучу земли» в кучу . Эта задача имеет смысл только в том случае, если создаваемая куча имеет ту же массу, что и перемещаемая куча; поэтому без потери общности предположим, что и являются распределениями вероятностей, содержащими общую массу 1. Предположим также, что задана некоторая функция стоимости μ ( х ) {\displaystyle \мю (х)} Х {\displaystyle X} ν ( х ) {\displaystyle \nu (x)} μ {\displaystyle \мю} ν {\displaystyle \nu} μ {\displaystyle \мю} ν {\displaystyle \nu}

с ( х , у ) 0 {\displaystyle c(x,y)\geq 0}

что дает стоимость транспортировки единицы массы из точки в точку . План транспортировки для перемещения в можно описать функцией , которая дает количество массы для перемещения из в . Вы можете представить себе задачу как необходимость переместить кучу земли формы в яму в земле формы таким образом, чтобы в конце и куча земли, и яма в земле полностью исчезли. Для того чтобы этот план был осмысленным, он должен удовлетворять следующим свойствам: х {\displaystyle x} у {\displaystyle y} μ {\displaystyle \мю} ν {\displaystyle \nu} γ ( х , у ) {\displaystyle \гамма (x,y)} х {\displaystyle x} у {\displaystyle y} μ {\displaystyle \мю} ν {\displaystyle \nu}

  1. количество земли, перемещенной из точки, должно быть равно количеству, которое там было изначально; то есть, и х {\displaystyle x} γ ( х , у ) г у = μ ( х ) , {\displaystyle \int \gamma (x,y)\,\mathrm {d} y=\mu (x),}
  2. количество земли, перемещенной в точку, должно быть равно глубине ямы, которая была там в начале; то есть, у {\displaystyle y} γ ( х , у ) г х = ν ( у ) . {\displaystyle \int \gamma (x,y)\,\mathrm {d} x=\nu (y).}

То есть, общая масса, перемещенная из бесконечно малой области вокруг, должна быть равна , а общая масса, перемещенная в область вокруг, должна быть . Это эквивалентно требованию, чтобы было совместным распределением вероятностей с маргиналами и . Таким образом, бесконечно малая масса, перемещенная из в , равна , а стоимость перемещения равна , следуя определению функции стоимости. Таким образом, общая стоимость плана транспортировки равна х {\displaystyle x} μ ( х ) г х {\displaystyle \mu (x)\mathrm {d} x} у {\displaystyle y} ν ( у ) г у {\displaystyle \nu (y)\mathrm {d} y} γ {\displaystyle \гамма} μ {\displaystyle \мю} ν {\displaystyle \nu} х {\displaystyle x} у {\displaystyle y} γ ( х , у ) г х г у {\displaystyle \gamma (x,y)\,\mathrm {d} x\,\mathrm {d} y} с ( х , у ) γ ( х , у ) г х г у {\displaystyle c(x,y)\gamma (x,y)\,\mathrm {d} x\,\mathrm {d} y} γ {\displaystyle \гамма} с ( х , у ) γ ( х , у ) г х г у = с ( х , у ) г γ ( х , у ) . {\displaystyle \iint c(x,y)\gamma (x,y)\,\mathrm {d} x\,\mathrm {d} y = \int c(x,y)\,\mathrm {d} \гамма (x,y).}

План не является уникальным; оптимальный транспортный план — это план с минимальной стоимостью из всех возможных транспортных планов. Как уже упоминалось, требование к плану, чтобы быть действительным, заключается в том, чтобы он был совместным распределением с маргиналами и ; обозначим набор всех таких мер, как в первом разделе, стоимость оптимального плана равна Если стоимость перемещения — это просто расстояние между двумя точками, то оптимальная стоимость идентична определению расстояния . γ {\displaystyle \гамма} μ {\displaystyle \мю} ν {\displaystyle \nu} Г {\displaystyle \Гамма} С = инф γ Г ( μ , ν ) с ( х , у ) г γ ( х , у ) . {\displaystyle C=\inf _ {\gamma \in \Gamma (\mu,\nu)}\int c(x,y)\,\mathrm {d} \gamma (x,y).} Вт 1 {\displaystyle W_{1}}

Примеры

Точечные массы

Детерминированные распределения

Пусть и будут двумя вырожденными распределениями (т.е. дельта-распределениями Дирака ), расположенными в точках и в . Существует только одна возможная связь этих двух мер, а именно точечная масса, расположенная в . Таким образом, используя обычную функцию абсолютного значения в качестве функции расстояния на , для любого расстояние -Вассерштейна между и равно По аналогичным рассуждениям, если и являются точечными массами, расположенными в точках и в , и мы используем обычную евклидову норму на в качестве функции расстояния, то μ 1 = δ а 1 {\displaystyle \mu _{1}=\delta _{a_{1}}} μ 2 = δ а 2 {\displaystyle \mu _{2}=\delta _{a_{2}}} а 1 {\displaystyle а_{1}} а 2 {\displaystyle а_{2}} Р {\displaystyle \mathbb {R} } δ ( а 1 , а 2 ) {\displaystyle \delta _{(a_{1},a_{2})}} ( а 1 , а 2 ) Р 2 {\displaystyle (a_{1},a_{2})\in \mathbb {R} ^{2}} Р {\displaystyle \mathbb {R} } п 1 {\displaystyle p\geq 1} п {\displaystyle p} μ 1 {\displaystyle \mu _{1}} μ 2 {\displaystyle \mu _{2}} Вт п ( μ 1 , μ 2 ) = | а 1 а 2 | . {\displaystyle W_{p}(\mu _{1},\mu _{2})=|a_{1}-a_{2}|.} μ 1 = δ а 1 {\displaystyle \mu _{1}=\delta _{a_{1}}} μ 2 = δ а 2 {\displaystyle \mu _{2}=\delta _{a_{2}}} а 1 {\displaystyle а_{1}} а 2 {\displaystyle а_{2}} Р н {\displaystyle \mathbb {R} ^{n}} Р н {\displaystyle \mathbb {R} ^{n}} Вт п ( μ 1 , μ 2 ) = а 1 а 2 2 . {\displaystyle W_{p}(\mu _{1},\mu _{2})=\|a_{1}-a_{2}\|_{2}.}

Эмпирические распределения

Одно измерение

Если — эмпирическая мера с выборками и — эмпирическая мера с выборками , то расстояние является простой функцией порядковой статистики : П {\displaystyle P} Х 1 , , Х н {\displaystyle X_{1},\ldots ,X_{n}} В {\displaystyle Q} И 1 , , И н {\displaystyle Y_{1},\ldots ,Y_{n}} Вт п ( П , В ) = ( 1 н я = 1 н Х ( я ) И ( я ) п ) 1 / п . {\displaystyle W_{p}(P,Q)=\left({\frac {1}{n}}\sum _{i=1}^{n}\|X_{(i)}-Y_{(i)}\|^{p}\right)^{1/p}.}

Более высокие измерения

Если и являются эмпирическими распределениями, каждое из которых основано на наблюдениях, то П {\displaystyle P} В {\displaystyle Q} н {\displaystyle n}

Вт п ( П , В ) = инф π ( 1 н я = 1 н Х я И π ( я ) п ) 1 / п , {\displaystyle W_{p}(P,Q)=\inf _{\pi }\left({\frac {1}{n}}\sum _{i=1}^{n}\|X_{i}-Y_{\pi (i)}\|^{p}\right)^{1/p},}

где инфимум берется по всем перестановкам элементов . Это линейная задача о назначениях , и ее можно решить венгерским алгоритмом за кубическое время . π {\displaystyle \пи} н {\displaystyle n}

Нормальные распределения

Пусть и будут двумя невырожденными гауссовыми мерами (т.е. нормальными распределениями ) на , с соответствующими ожидаемыми значениями и и симметричными положительно полуопределенными ковариационными матрицами и . Тогда, [3] относительно обычной евклидовой нормы на , расстояние Вассерштейна 2 между и равно , где обозначает главный квадратный корень из . Обратите внимание, что второй член (включающий след) является в точности (ненормализованной) метрикой Буреса между и . Этот результат обобщает более ранний пример расстояния Вассерштейна между двумя точечными массами (по крайней мере, в случае ), поскольку точечную массу можно рассматривать как нормальное распределение с ковариационной матрицей, равной нулю, в этом случае член следа исчезает и остается только член, включающий евклидово расстояние между средними. μ 1 = Н ( м 1 , С 1 ) {\displaystyle \mu _{1}={\mathcal {N}}(m_{1},C_{1})} μ 2 = Н ( м 2 , С 2 ) {\displaystyle \mu _{2}={\mathcal {N}}(m_{2},C_{2})} Р н {\displaystyle \mathbb {R} ^{n}} м 1 {\displaystyle m_{1}} м 2 Р н {\displaystyle m_{2}\in \mathbb {R} ^{n}} С 1 {\displaystyle C_{1}} С 2 Р н × н {\displaystyle C_{2}\in \mathbb {R} ^{n\times n}} Р н {\displaystyle \mathbb {R} ^{n}} μ 1 {\displaystyle \mu _{1}} μ 2 {\displaystyle \mu _{2}} Вт 2 ( μ 1 , μ 2 ) 2 = м 1 м 2 2 2 + т г а с е ( С 1 + С 2 2 ( С 2 1 / 2 С 1 С 2 1 / 2 ) 1 / 2 ) . {\displaystyle W_{2}(\mu _{1},\mu _{2})^{2}=\|m_{1}-m_{2}\|_{2}^{2}+\mathop {\mathrm {след} } {\bigl (}C_{1}+C_{2}-2{\bigl (}C_{2}^{1/2}C_{1}C_{2}^{1/2}{\bigr )}^{1/2}{\bigr )}.} С 1 / 2 {\displaystyle C^{1/2}} C {\displaystyle C} C 1 {\displaystyle C_{1}} C 2 {\displaystyle C_{2}} p = 2 {\displaystyle p=2}

Одномерные распределения

Пусть будут вероятностными мерами на , и обозначим их кумулятивные функции распределения через и . Тогда транспортная задача имеет аналитическое решение: Оптимальный транспорт сохраняет порядок элементов массы вероятности, поэтому масса в квантиле перемещается в квантиль . Таким образом, расстояние -Вассерштейна между и равно , где и являются функциями квантиля (обратными CDF). В случае замена переменных приводит к формуле μ 1 , μ 2 P p ( R ) {\displaystyle \mu _{1},\mu _{2}\in P_{p}(\mathbb {R} )} R {\displaystyle \mathbb {R} } F 1 ( x ) {\displaystyle F_{1}(x)} F 2 ( x ) {\displaystyle F_{2}(x)} q {\displaystyle q} μ 1 {\displaystyle \mu _{1}} q {\displaystyle q} μ 2 {\displaystyle \mu _{2}} p {\displaystyle p} μ 1 {\displaystyle \mu _{1}} μ 2 {\displaystyle \mu _{2}} W p ( μ 1 , μ 2 ) = ( 0 1 | F 1 1 ( q ) F 2 1 ( q ) | p d q ) 1 / p , {\displaystyle W_{p}(\mu _{1},\mu _{2})=\left(\int _{0}^{1}\left|F_{1}^{-1}(q)-F_{2}^{-1}(q)\right|^{p}\,\mathrm {d} q\right)^{1/p},} F 1 1 {\displaystyle F_{1}^{-1}} F 2 1 {\displaystyle F_{2}^{-1}} p = 1 {\displaystyle p=1} W 1 ( μ 1 , μ 2 ) = R | F 1 ( x ) F 2 ( x ) | d x . {\displaystyle W_{1}(\mu _{1},\mu _{2})=\int _{\mathbb {R} }\left|F_{1}(x)-F_{2}(x)\right|\,\mathrm {d} x.}

Приложения

Метрика Вассерштейна — это естественный способ сравнения распределений вероятностей двух переменных X и Y , где одна переменная выводится из другой посредством небольших неравномерных возмущений (случайных или детерминированных).

В информатике, например, метрика W 1 широко используется для сравнения дискретных распределений, например, цветовых гистограмм двух цифровых изображений ; более подробную информацию см. в разделе «Расстояние землеройной машины» .

В своей статье « Вассерштейн GAN » Арджовски и др. [4] используют метрику Вассерштейна-1 как способ улучшения исходной структуры генеративно-состязательных сетей (GAN), чтобы смягчить проблемы исчезающего градиента и коллапса мод. Частный случай нормальных распределений используется в начальной дистанции Фреше .

Метрика Вассерштейна формально связана с анализом Прокруста , с применением к мерам хиральности [5] и к анализу формы [6] .

В вычислительной биологии метрика Вассерштейна может использоваться для сравнения диаграмм устойчивости наборов данных цитометрии. [7]

Метрика Вассерштейна также использовалась в обратных задачах геофизики. [8]

Метрика Вассерштейна используется в теории интегрированной информации для вычисления разницы между концепциями и концептуальными структурами. [9]

Метрика Вассерштейна и связанные с ней формулировки также использовались для создания единой теории для анализа наблюдаемой формы в наборах данных физики высоких энергий и коллайдеров. [10] [11]

Характеристики

Метрическая структура

Можно показать, что W p удовлетворяет всем аксиомам метрики на пространстве Вассерштейна P p ( M ) , состоящем из всех борелевских вероятностных мер на M, имеющих конечный p -й момент. Более того, сходимость относительно W p эквивалентна обычной слабой сходимости мер плюс сходимость первых p -х моментов. [12]

Двойное представлениеВт1

Следующее дуальное представление W 1 является частным случаем теоремы двойственности Канторовича и Рубинштейна (1958): когда μ и ν имеют ограниченный носитель ,

W 1 ( μ , ν ) = sup { M f ( x ) d ( μ ν ) ( x ) |  continuous  f : M R , Lip ( f ) 1 } , {\displaystyle W_{1}(\mu ,\nu )=\sup \left\{\left.\int _{M}f(x)\,\mathrm {d} (\mu -\nu )(x)\,\right|{\text{ continuous }}f:M\to \mathbb {R} ,\operatorname {Lip} (f)\leq 1\right\},}

где Lip( f ) обозначает минимальную константу Липшица для f . Эта форма показывает, что W 1 является интегральной вероятностной метрикой .

Сравните это с определением метрики Радона :

ρ ( μ , ν ) := sup { M f ( x ) d ( μ ν ) ( x ) |  continuous  f : M [ 1 , 1 ] } . {\displaystyle \rho (\mu ,\nu ):=\sup \left\{\left.\int _{M}f(x)\,\mathrm {d} (\mu -\nu )(x)\,\right|{\text{ continuous }}f:M\to [-1,1]\right\}.}

Если метрика d метрического пространства ( M , d ) ограничена некоторой константой C , то

2 W 1 ( μ , ν ) C ρ ( μ , ν ) , {\displaystyle 2W_{1}(\mu ,\nu )\leq C\rho (\mu ,\nu ),}

и поэтому сходимость в метрике Радона (идентичная сходимости по полной вариации, когда Mпольское пространство ) подразумевает сходимость в метрике Вассерштейна, но не наоборот.

Доказательство

Ниже приведено интуитивное доказательство, которое пропускает технические моменты. Полностью строгое доказательство находится в [13] .

Дискретный случай : Когда дискретно, решение для 1-расстояния Вассерштейна является задачей линейного программирования: где — общая «функция стоимости». M {\displaystyle M} { min γ x , y c ( x , y ) γ ( x , y ) y γ ( x , y ) = μ ( x ) x γ ( x , y ) = ν ( y ) γ 0 {\displaystyle {\begin{cases}\min _{\gamma }\sum _{x,y}c(x,y)\gamma (x,y)\\\sum _{y}\gamma (x,y)=\mu (x)\\\sum _{x}\gamma (x,y)=\nu (y)\\\gamma \geq 0\end{cases}}} c : M × M [ 0 , ) {\displaystyle c:M\times M\to [0,\infty )}

Тщательно записывая приведенные выше уравнения как матричные уравнения, мы получаем ее двойственную задачу : [14] и по теореме двойственности линейного программирования , поскольку первичная задача является допустимой и ограниченной, то двойственная задача также является допустимой, и минимум в первой задаче равен максимуму во второй задаче. То есть, пара задач демонстрирует сильную двойственность . { max f , g x μ ( x ) f ( x ) + y ν ( y ) g ( y ) f ( x ) + g ( y ) c ( x , y ) {\displaystyle {\begin{cases}\max _{f,g}\sum _{x}\mu (x)f(x)+\sum _{y}\nu (y)g(y)\\f(x)+g(y)\leq c(x,y)\end{cases}}}

Для общего случая двойственная задача находится путем преобразования сумм в интегралы: и сильная двойственность все еще сохраняется. Это теорема двойственности Канторовича . Седрик Виллани приводит следующую интерпретацию Луиса Каффарелли : [15] { sup f , g E x μ [ f ( x ) ] + E y ν [ g ( y ) ] f ( x ) + g ( y ) c ( x , y ) {\displaystyle {\begin{cases}\sup _{f,g}\mathbb {E} _{x\sim \mu }[f(x)]+\mathbb {E} _{y\sim \nu }[g(y)]\\f(x)+g(y)\leq c(x,y)\end{cases}}}

Предположим, вы хотите отправить уголь из шахт, распределенных как , на заводы, распределенные как . Функция стоимости транспортировки равна . Теперь приходит грузоотправитель и предлагает выполнить транспортировку для вас. Вы бы заплатили ему за уголь за погрузку угля в , и заплатили бы ему за уголь за разгрузку угля в . μ {\displaystyle \mu } ν {\displaystyle \nu } c {\displaystyle c} f ( x ) {\displaystyle f(x)} x {\displaystyle x} g ( y ) {\displaystyle g(y)} y {\displaystyle y}

Чтобы вы приняли сделку, ценовой график должен удовлетворять . Двойственность Канторовича гласит, что грузоотправитель может составить ценовой график, который заставит вас заплатить почти столько же, сколько вы бы отправили сами. f ( x ) + g ( y ) c ( x , y ) {\displaystyle f(x)+g(y)\leq c(x,y)}

Этот результат можно преобразовать далее, чтобы получить:

Теорема  (двойственность Канторовича-Рубенштейна)  —  Когда вероятностное пространство является метрическим, то для любого фиксированного , где — норма Липшица . Ω {\displaystyle \Omega } K > 0 {\displaystyle K>0} W 1 ( μ , ν ) = 1 K sup f L K E x μ [ f ( x ) ] E y ν [ f ( y ) ] {\displaystyle W_{1}(\mu ,\nu )={\frac {1}{K}}\sup _{\|f\|_{L}\leq K}\mathbb {E} _{x\sim \mu }[f(x)]-\mathbb {E} _{y\sim \nu }[f(y)]} L {\displaystyle \|\cdot \|_{L}}

Доказательство

Достаточно доказать случай . Начнем с Тогда для любого выбора можно поднять член выше, установив , сделав его инфимальной сверткой с конусом. Это подразумевает для любого , то есть . K = 1 {\displaystyle K=1} W 1 ( μ , ν ) = sup f ( x ) + g ( y ) d ( x , y ) E x μ [ f ( x ) ] + E y ν [ g ( y ) ] . {\displaystyle W_{1}(\mu ,\nu )=\sup _{f(x)+g(y)\leq d(x,y)}\mathbb {E} _{x\sim \mu }[f(x)]+\mathbb {E} _{y\sim \nu }[g(y)].} g {\displaystyle g} f ( x ) = inf y d ( x , y ) g ( y ) {\displaystyle f(x)=\inf _{y}d(x,y)-g(y)} g {\displaystyle -g} f ( x ) f ( y ) d ( x , y ) {\displaystyle f(x)-f(y)\leq d(x,y)} x , y {\displaystyle x,y} f L 1 {\displaystyle \|f\|_{L}\leq 1}

Таким образом, Next, для любого выбора , можно оптимизировать, установив . Поскольку , это подразумевает . W 1 ( μ , ν ) = sup g sup f ( x ) + g ( y ) d ( x , y ) E x μ [ f ( x ) ] + E y ν [ g ( y ) ] = sup g sup f L 1 , f ( x ) + g ( y ) d ( x , y ) E x μ [ f ( x ) ] + E y ν [ g ( y ) ] = sup f L 1 sup g , f ( x ) + g ( y ) d ( x , y ) E x μ [ f ( x ) ] + E y ν [ g ( y ) ] . {\displaystyle {\begin{aligned}W_{1}(\mu ,\nu )&=\sup _{g}\sup _{f(x)+g(y)\leq d(x,y)}\mathbb {E} _{x\sim \mu }[f(x)]+\mathbb {E} _{y\sim \nu }[g(y)]\\&=\sup _{g}\sup _{\|f\|_{L}\leq 1,f(x)+g(y)\leq d(x,y)}\mathbb {E} _{x\sim \mu }[f(x)]+\mathbb {E} _{y\sim \nu }[g(y)]\\&=\sup _{\|f\|_{L}\leq 1}\sup _{g,f(x)+g(y)\leq d(x,y)}\mathbb {E} _{x\sim \mu }[f(x)]+\mathbb {E} _{y\sim \nu }[g(y)].\end{aligned}}} f L 1 {\displaystyle \|f\|_{L}\leq 1} g {\displaystyle g} g ( y ) = inf x d ( x , y ) f ( x ) {\displaystyle g(y)=\inf _{x}d(x,y)-f(x)} f L 1 {\displaystyle \|f\|_{L}\leq 1} g ( y ) = f ( y ) {\displaystyle g(y)=-f(y)}

Инфинимальная свертка конуса с кривой. Обратите внимание, что нижняя огибающая имеет наклон , и что нижняя огибающая равна кривой на тех частях, где сама кривая имеет наклон . 1 {\displaystyle \leq 1} 1 {\displaystyle \leq 1}

Два нижних шага свертки визуально понятны, когда вероятностное пространство равно . R {\displaystyle \mathbb {R} }

Для удобства записи обозначим операцию инфимальной свертки. {\displaystyle \square }

Для первого шага, где мы использовали , постройте кривую , затем в каждой точке нарисуйте конус с наклоном 1 и возьмите нижнюю огибающую конусов как , как показано на диаграмме, затем не может увеличиваться с наклоном больше 1. Таким образом, все его секущие имеют наклон . f = cone ( g ) {\displaystyle f={\text{cone}}\mathbin {\square } (-g)} g {\displaystyle -g} f {\displaystyle f} f {\displaystyle f} | f ( x ) f ( y ) x y | 1 {\displaystyle {\bigg |}{\frac {f(x)-f(y)}{x-y}}{\bigg |}\leq 1}

Для второго шага представьте себе инфимальную свертку , тогда, если все секущие имеют наклон не более 1, то нижняя огибающая — это просто сами вершины конуса, таким образом . cone ( f ) {\displaystyle {\text{cone}}\mathbin {\square } (-f)} f {\displaystyle f} cone ( f ) {\displaystyle {\text{cone}}\mathbin {\square } (-f)} cone ( f ) = f {\displaystyle {\text{cone}}\mathbin {\square } (-f)=-f}

Пример 1D . Когда оба являются распределениями на , то интегрирование по частям дает таким образом μ , ν {\displaystyle \mu ,\nu } R {\displaystyle \mathbb {R} } E x μ [ f ( x ) ] E y ν [ f ( y ) ] = f ( x ) ( F ν ( x ) F μ ( x ) ) d x , {\displaystyle \mathbb {E} _{x\sim \mu }[f(x)]-\mathbb {E} _{y\sim \nu }[f(y)]=\int f'(x)(F_{\nu }(x)-F_{\mu }(x))\,\mathrm {d} x,} f ( x ) = K sign ( F ν ( x ) F μ ( x ) ) . {\displaystyle f(x)=K\cdot \operatorname {sign} (F_{\nu }(x)-F_{\mu }(x)).}

интерпретация механики жидкостиВт2

Бенаму и Брениер нашли двойственное представление с помощью механики жидкости , которое допускает эффективное решение с помощью выпуклой оптимизации . [16] [17] W 2 {\displaystyle W_{2}}

Даны две плотности вероятности на , где пробегает поля скорости, управляющие уравнением непрерывности с граничными условиями в поле плотности жидкости: То есть масса должна сохраняться, а поле скорости должно переносить распределение вероятностей в течение интервала времени . p , q {\displaystyle p,q} R n {\displaystyle \mathbb {R} ^{n}} W 2 2 ( p , q ) = min v 0 1 R n v ( x , t ) 2 ρ ( x , t ) d x d t {\displaystyle W_{2}^{2}(p,q)=\min _{\mathbf {v}}\int _{0}^{1}\int _{\mathbb {R} ^{n}}\|{\mathbf {v}}({\mathbf {x}},t)\|^{2}\rho ({\mathbf {x}},t)\,d{\mathbf {x}}\,dt} v {\displaystyle {\mathbf {v}}} ρ ˙ + ( ρ v ) = 0 ρ ( , 0 ) = p , ρ ( , 1 ) = q {\displaystyle {\dot {\rho }}+\nabla \cdot (\rho {\mathbf {v}})=0\quad \rho (\cdot ,0)=p,\;\rho (\cdot ,1)=q} p {\displaystyle p} q {\displaystyle q} [ 0 , 1 ] {\displaystyle [0,1]}

ЭквивалентностьВт2и отрицательная норма Соболева

При подходящих предположениях расстояние Вассерштейна порядка два эквивалентно Липшицу однородной норме Соболева отрицательного порядка . Точнее, если мы возьмем связное риманово многообразие , снабженное положительной мерой , то мы можем определить для полунормы и для знаковой меры на дуальной норме Тогда любые две вероятностные меры и на удовлетворяют верхней границе [18] В другом направлении, если и каждая имеет плотности относительно стандартной меры объема на , которые обе ограничены сверху некоторым , и имеет неотрицательную кривизну Риччи , то [19] [20] W 2 {\displaystyle W_{2}} M {\displaystyle M} π {\displaystyle \pi } f : M R {\displaystyle f\colon M\to \mathbb {R} } f H ˙ 1 ( π ) 2 = M f ( x ) 2 π ( d x ) {\displaystyle \|f\|_{{\dot {H}}^{1}(\pi )}^{2}=\int _{M}\|\nabla f(x)\|^{2}\,\pi (\mathrm {d} x)} μ {\displaystyle \mu } M {\displaystyle M} μ H ˙ 1 ( π ) = sup { | f , μ | | f H ˙ 1 ( π ) 1 } . {\displaystyle \|\mu \|_{{\dot {H}}^{-1}(\pi )}=\sup {\bigg \{}|\langle f,\mu \rangle |\,{\bigg |}\,\|f\|_{{\dot {H}}^{1}(\pi )}\leq 1{\bigg \}}.} μ {\displaystyle \mu } ν {\displaystyle \nu } M {\displaystyle M} W 2 ( μ , ν ) 2 μ ν H ˙ 1 ( π ) . {\displaystyle W_{2}(\mu ,\nu )\leq 2\,\|\mu -\nu \|_{{\dot {H}}^{-1}(\pi )}.} μ {\displaystyle \mu } ν {\displaystyle \nu } M {\displaystyle M} 0 < C < {\displaystyle 0<C<\infty } M {\displaystyle M} μ ν H ˙ 1 ( π ) C W 2 ( μ , ν ) . {\displaystyle \|\mu -\nu \|_{{\dot {H}}^{-1}(\pi )}\leq {\sqrt {C}}\,W_{2}(\mu ,\nu ).}

Отделимость и полнота

Для любого p ≥ 1 метрическое пространство ( P p ( M ), W p ) является сепарабельным и полным , если ( M , d ) является сепарабельным и полным. [21]

Расстояние Вассерштейна дляп= ∞

Также можно рассмотреть метрику Вассерштейна для . В этом случае определяющая формула становится: где обозначает существенный супремум относительно меры . Метрическое пространство ( P ( M ), W ) является полным, если ( Md ) является сепарабельным и полным. Здесь P — пространство всех вероятностных мер с ограниченным носителем. [22] p = {\displaystyle p=\infty } W ( μ , ν ) = lim p + W p ( μ , ν ) = inf γ Γ ( μ , ν ) γ - e s s u p d ( x , y ) , {\displaystyle W_{\infty }(\mu ,\nu )=\lim _{p\rightarrow +\infty }W_{p}(\mu ,\nu )=\inf _{\gamma \in \Gamma (\mu ,\nu )}\gamma \operatorname {-essup} d(x,y),} γ - e s s u p d ( x , y ) {\displaystyle \gamma \operatorname {-essup} d(x,y)} d ( x , y ) {\displaystyle d(x,y)} γ {\displaystyle \gamma }

Смотрите также

Ссылки

  1. ^ Васерштейн Л. Н. (1969). «Марковские процессы над счетными произведениями пространств, описывающие большие системы автоматов» (PDF) . Проблемы передачи информации . 5 (3): 64–72.
  2. ^ Канторович Л. В. (1939). «Математические методы организации и планирования производства». Наука управления . 6 (4): 366–422. doi :10.1287/mnsc.6.4.366. JSTOR  2627082.
  3. ^ Олкин И, Пукельсхайм Ф (октябрь 1982). «Расстояние между двумя случайными векторами с заданными матрицами дисперсии». Линейная алгебра и ее приложения . 48 : 257–263. doi : 10.1016/0024-3795(82)90112-4 . ISSN  0024-3795.
  4. ^ Arjovsky M, Chintala S, Bottou L (июль 2017 г.). «Генеративно-состязательные сети Вассерштейна». Международная конференция по машинному обучению 214-223 : 214–223.
  5. ^ Petitjean M (2002). "Хиральные смеси" (PDF) . Журнал математической физики . 43 (8): 4147–4157. Bibcode :2002JMP....43.4147P. doi :10.1063/1.1484559. S2CID  85454709.
  6. ^ Petitjean M (2004). «От сходства форм к взаимодополняемости форм: к теории стыковки». Журнал математической химии . 35 (3): 147–158. doi :10.1023/B:JOMC.0000033252.59423.6b. S2CID  121320315.
  7. ^ Мукерджи С., Уэтингтон Д., Дей ТК., Дас Дж. (март 2022 г.). «Определение клинически значимых признаков в данных цитометрии с использованием устойчивой гомологии». PLOS Computational Biology . 18 (3): e1009931. arXiv : 2203.06263 . Bibcode : 2022PLSCB..18E9931M. doi : 10.1371/journal.pcbi.1009931 . PMC 9009779. PMID  35312683 . 
  8. ^ Фредерик, Кристина; Ян, Юнань (2022-05-06). «Видение сквозь камень с помощью оптимального транспорта». Снимки современной математики из Обервольфаха . doi :10.14760/SNAP-2022-004-EN.
  9. ^ Оидзуми, Масафуми; Альбантакис, Лариса; Тонони, Джулио (2014-05-08). «От феноменологии к механизмам сознания: интегрированная теория информации 3.0». PLOS Computational Biology . 10 (5): e1003588. Bibcode : 2014PLSCB..10E3588O. doi : 10.1371/journal.pcbi.1003588 . PMC 4014402. PMID  24811198 . 
  10. ^ Ba, Demba; Dogra, Akshunna S.; Gambhir, Rikab; Tasissa, Abiy; Thaler, Jesse (29.06.2023). "SHAPER: можете ли вы услышать форму струи?". Journal of High Energy Physics . 2023 (6): 195. arXiv : 2302.12266 . Bibcode : 2023JHEP...06..195B. doi : 10.1007/JHEP06(2023)195. ISSN  1029-8479. S2CID  257205971.
  11. ^ "Награды, стипендии и форма физики: новости из колледжа | Imperial News | Imperial College London". Imperial News . 2023-03-29 . Получено 2023-10-31 .
  12. ^ Клемент П., Деш В. (2008). «Элементарное доказательство неравенства треугольника для метрики Вассерштейна». Труды Американского математического общества . 136 (1): 333–339. doi : 10.1090/S0002-9939-07-09020-X .
  13. ^ Виллани, Седрик (2003). "Глава 1: Двойственность Канторовича". Темы оптимальной транспортировки. Провиденс, Род-Айленд: Американское математическое общество. ISBN 0-8218-3312-X. OCLC  51477002.
  14. ^ Матоушек, Йиржи; Гертнер, Бернд (2007), «Двойственность линейного программирования», Понимание и использование линейного программирования, Universitext, Берлин, Гейдельберг: Springer Berlin Heidelberg, стр. 81–104, doi :10.1007/978-3-540-30717-4_6, ISBN 978-3-540-30697-9, получено 2022-07-15
  15. ^ Виллани, Седрик (2003). "1.1.3. Проблема грузоотправителя". Темы оптимальной транспортировки. Провиденс, Род-Айленд: Американское математическое общество. ISBN 0-8218-3312-X. OCLC  51477002.
  16. ^ Бенаму, Жан-Давид; Бренье, Янн (1 января 2000 г.). «Вычислительное решение проблемы массопереноса Монжа-Канторовича с помощью механики жидкости». Нумерическая математика . 84 (3): 375–393. дои : 10.1007/s002110050002. ISSN  0945-3245. S2CID  1100384.
  17. ^ Финлей, Крис; Якобсен, Йорн-Хенрик; Нурбекян, Левон; Оберман, Адам (2020-11-21). «Как обучить нейронный ОДУ: мир якобианской и кинетической регуляризации». Международная конференция по машинному обучению . PMLR: 3154–3164. arXiv : 2002.02798 .
  18. ^ Пейр Р. (октябрь 2018 г.). «Сравнение расстояния W2 и нормы Ḣ−1 и локализация расстояния Вассерштейна». ESAIM: Управление, оптимизация и вариационное исчисление . 24 (4): 1489–1501. doi : 10.1051/cocv/2017050 . ISSN  1292-8119.(См. теорему 2.1.)
  19. ^ Loeper G (июль 2006 г.). «Единственность решения системы Власова–Пуассона с ограниченной плотностью». Journal de Mathématiques Pures et Appliquées . 86 (1): 68–79. arXiv : math/0504140 . doi : 10.1016/j.matpur.2006.01.005 . ISSN  1292-8119.(См. теорему 2.9.)
  20. ^ Пейр Р. (октябрь 2018 г.). «Сравнение расстояния W2 и нормы Ḣ−1 и локализация расстояния Вассерштейна». ESAIM: Управление, оптимизация и вариационное исчисление . 24 (4): 1489–1501. doi : 10.1051/cocv/2017050 .(См. теорему 2.5.)
  21. ^ Богачев В.И., Колесников А.В. (октябрь 2012 г.). «Проблема Монжа – Канторовича: достижения, связи и перспективы». Российские математические обзоры . 67 (5): 785–890. Бибкод :2012РуМаС..67..785Б. doi : 10.1070/RM2012v067n05ABEH004808. S2CID  121411457.
  22. ^ Гивенс, Кларк Р.; Шорт, Рэй Майкл (1984). «Класс метрик Вассерштейна для распределений вероятностей». Michigan Mathematical Journal . 31 (2): 231–240. doi : 10.1307/mmj/1029003026 .

Дальнейшее чтение

  • Амброзио Л., Джильи Н., Саваре Г. (2005). Градиентные потоки в метрических пространствах и в пространстве вероятностных мер . Базель: ETH Zürich, Birkhäuser Verlag. ISBN 978-3-7643-2428-5.
  • Jordan R, Kinderlehrer D, Otto F (январь 1998 г.). «Вариационная формулировка уравнения Фоккера–Планка». SIAM Journal on Mathematical Analysis . 29 (1): 1–17 (электронный). CiteSeerX  10.1.1.6.8815 . doi :10.1137/S0036141096303359. ISSN  0036-1410. MR  1617171. S2CID  13890235.
  • Рюшендорф Л (2001) [1994], "Метрика Вассерштейна", Энциклопедия математики , EMS Press
  • Виллани С. (2008). Оптимальный транспорт, старый и новый . Springer. ISBN 978-3-540-71050-9.
  • «В чем преимущества метрики Вассерштейна по сравнению с дивергенцией Кульбака–Лейблера?». Stack Exchange . 1 августа 2017 г.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Wasserstein_metric&oldid=1254953979"