Теория распределенного обучения

Теория распределения обучения или обучения распределению вероятностей является структурой в теории вычислительного обучения . Она была предложена Майклом Кернсом , Ишаем Мансуром, Даной Роном , Рониттом Рубинфельдом , Робертом Шапиром и Линдой Селли в 1994 году ^[1] и была вдохновлена структурой PAC, представленной Лесли Валиантом . ^[2]

В этой структуре входными данными является ряд выборок, взятых из распределения, принадлежащего определенному классу распределений. Цель состоит в том, чтобы найти эффективный алгоритм, который на основе этих выборок с высокой вероятностью определяет распределение, из которого были взяты выборки. Благодаря своей общности эта структура использовалась в самых разных областях, таких как машинное обучение , алгоритмы аппроксимации , прикладная вероятность и статистика .

В данной статье объясняются основные определения, инструменты и результаты данной структуры с точки зрения теории вычислений.

Определения

Пусть будет носителем интересующих распределений. Как и в оригинальной работе Кернса и др. ^[1], если конечно, то можно предположить без потери общности, что где — число битов, которое необходимо использовать для представления любого . Мы фокусируемся на вероятностных распределениях над . $\textstyle X$ $\textstyle X$ $\textstyle X=\{0,1\}^{n}$ $\textstyle н$ $\textstyle y\in X$ $\textstyle X$

Существует два возможных представления распределения вероятностей по . $\textstyle D$ $\textstyle X$

Функция распределения вероятностей (или оценщик) оценщик для принимает в качестве входных данных любое и выводит действительное число , которое обозначает вероятность того, что согласно , т.е. если . $\textstyle E_{D}$ $\textstyle D$ $\textstyle y\in X$ $\textstyle E_{D}[y]$ $\textstyle y$ $\textstyle D$ $\textstyle E_{D}[y]=\Pr[Y=y]$ $\textstyle Y\sim D$
генератор генератор для принимает в качестве входных данных строку действительно случайных битов и выдает выходные данные в соответствии с распределением . Генератор можно интерпретировать как процедуру, которая имитирует выборку из распределения, заданного последовательностью честных подбрасываний монеты. $\textstyle G_{D}$ $\textstyle D$ $\textstyle y$ $\textstyle G_{D}[y]\in X$ $\textstyle D$ $\textstyle D$

Распределение называется имеющим полиномиальный генератор (соответственно оценщик), если его генератор (соответственно оценщик) существует и может быть вычислен за полиномиальное время. $\textstyle D$

Пусть класс распределения над X, то есть множество такое, что каждое является распределением вероятностей с носителем . Для простоты его можно также записать как . $\textstyle C_{X}$ $\textstyle C_{X}$ $\textstyle D\in C_{X}$ $\textstyle X$ $\textstyle C_{X}$ $\textstyle C$

Прежде чем определять обучаемость, необходимо определить хорошие приближения распределения . Существует несколько способов измерения расстояния между двумя распределениями. Три наиболее распространенных возможности: $\textstyle D$

Самым сильным из этих расстояний является расхождение Кульбака-Лейблера , а самым слабым — расстояние Колмогорова . Это означает , что для любой пары распределений : $\textstyle D$ $\textstyle D'$

{\text{KL-distance}}(D,D')\geq {\text{TV-distance}}(D,D')\geq {\text{Kolmogorov-distance}}(D,D')

Поэтому, например, если и близки относительно расхождения Кульбака-Лейблера , то они также близки относительно всех других расстояний. $\textstyle D$ $\textstyle D'$

Следующие определения справедливы для всех расстояний, и поэтому символ обозначает расстояние между распределением и распределением, использующим одно из расстояний, которые мы описали выше. Хотя обучаемость класса распределений может быть определена с использованием любого из этих расстояний, приложения относятся к конкретному расстоянию. $\textstyle d(D,D')$ $\textstyle D$ $\textstyle D'$

Базовый ввод, который мы используем для изучения распределения, — это количество образцов, полученных этим распределением. С вычислительной точки зрения предполагается, что такой образец предоставляется в постоянном количестве времени. Таким образом, это похоже на доступ к оракулу , который возвращает образец из распределения . Иногда интерес заключается в том, чтобы, помимо измерения временной сложности, измерить количество образцов, которые необходимо использовать для изучения определенного распределения в классе распределений . Эта величина называется сложностью образца алгоритма обучения. $\textstyle GEN(D)$ $\textstyle D$ $\textstyle D$ $\textstyle C$

Для того чтобы проблема распределения обучения была более ясной, рассмотрим проблему контролируемого обучения, как определено в. ^[3] В этой структуре статистической теории обучения обучающий набор и цель состоит в том, чтобы найти целевую функцию , которая минимизирует некоторую функцию потерь, например, квадратичную функцию потерь. Более формально , где - функция потерь, например , и распределение вероятностей, в соответствии с которым выбираются элементы обучающего набора. Если условное распределение вероятностей известно, то целевая функция имеет замкнутую форму . Таким образом, набор представляет собой набор выборок из распределения вероятностей . Теперь цель теории распределения обучения заключается в том, чтобы найти заданное , которое можно использовать для нахождения целевой функции . $\textstyle S=\{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}$ $\textstyle f:X\rightarrow Y$ $f=\arg \min _{g}\int V(y,g(x))d\rho (x,y)$ $V(\cdot ,\cdot )$ $V(y,z)=(y-z)^{2}$ $\rho (x,y)$ $\rho _{x}(y)$ $f(x)=\int _{y}yd\rho _{x}(y)$ $S$ $\rho (x,y)$ $\rho$ $S$ $f$

Определение обучаемости

Класс распределений называется эффективно обучаемым, если для каждого и заданного доступа к для неизвестного распределения существует алгоритм полиномиального времени , называемый алгоритмом обучения , который выводит генератор или оценщик распределения, такой что $\textstyle C$ $\textstyle \epsilon >0$ $\textstyle 0<\delta \leq 1$ $\textstyle GEN(D)$ $\textstyle D\in C$ $\textstyle A$ $\textstyle C$ $\textstyle D'$

\Pr[d(D,D')\leq \epsilon ]\geq 1-\delta

Если мы это знаем, то это называется правильным алгоритмом обучения , в противном случае это называется неправильным алгоритмом обучения . $\textstyle D'\in C$ $\textstyle A$

В некоторых настройках класс распределений — это класс с хорошо известными распределениями, которые можно описать набором параметров. Например, это может быть класс всех гауссовых распределений . В этом случае алгоритм должен уметь оценивать параметры . В этом случае это называется алгоритмом обучения параметрам . $\textstyle C$ $\textstyle C$ $\textstyle N(\mu ,\sigma ^{2})$ $\textstyle A$ $\textstyle \mu ,\sigma$ $\textstyle A$

Очевидно, что параметрическое обучение для простых распределений является очень хорошо изученной областью, которая называется статистической оценкой, и существует очень длинная библиография по различным оценщикам для различных видов простых известных распределений. Но теория обучения распределений имеет дело с классом обучения распределений, которые имеют более сложное описание.

Первые результаты

В своей основополагающей работе Кернс и др. рассматривают случай, когда описывается в терминах конечной полиномиальной схемы, и они доказали следующее для некоторых конкретных классов распределений. ^[1] $\textstyle A$

$\textstyle OR$ распределения вентилей для этого типа распределений нет оценщика полиномиального размера, если только . С другой стороны, этот класс эффективно обучается с помощью генератора. $\textstyle \#P\subseteq P/{\text{poly}}$
Распределения вентилей четности. Этот класс эффективно изучается как с помощью генератора, так и с помощью оценщика.
Смеси шаров Хэмминга. Этот класс эффективно изучается как с помощью генератора, так и с помощью оценщика.
Вероятностные конечные автоматы. Этот класс не поддается эффективному обучению с помощью оценщика при условии предположения о шумовой четности, что является невозможным предположением в рамках обучения PAC.

$\textstyle \epsilon -$ Обложки

Одним из самых распространенных методов поиска алгоритма обучения для класса распределений является поиск сначала небольшого покрытия . $\textstyle C$ $\textstyle \epsilon -$ $\textstyle C$

Определение

Множество называется -покрытием , если для каждого существует такое, что . Покрытие является малым, если оно имеет полиномиальный размер относительно параметров, описывающих . $\textstyle C_{\epsilon }$ $\textstyle \epsilon$ $\textstyle C$ $\textstyle D\in C$ $\textstyle D'\in C_{\epsilon }$ $\textstyle d(D,D')\leq \epsilon$ $\textstyle \epsilon -$ $\textstyle D$

Как только появится эффективная процедура, которая для каждого находит небольшое покрытие C, то единственной оставшейся задачей будет выбрать распределение , которое ближе к распределению , которое необходимо изучить. $\textstyle \epsilon >0$ $\textstyle \epsilon -$ $\textstyle C_{\epsilon }$ $\textstyle C_{\epsilon }$ $\textstyle D'\in C_{\epsilon }$ $\textstyle D\in C$

Проблема в том, что, учитывая, что нетривиально, как мы можем сравнивать и для того, чтобы решить, какой из них ближе всего к , поскольку неизвестно. Следовательно, для выполнения этих сравнений должны использоваться образцы из . Очевидно, что результат сравнения всегда имеет вероятность ошибки. Поэтому задача похожа на нахождение минимума в наборе элементов с использованием шумных сравнений. Существует множество классических алгоритмов для достижения этой цели. Самый последний, который достигает наилучших гарантий, был предложен Даскалакисом и Каматом ^[4]. Этот алгоритм устанавливает быстрый турнир между элементами , где победителем этого турнира становится элемент, который близок к (т.е. ) с вероятностью не менее . Для этого их алгоритм использует образцы из и работает за время, где . $\textstyle D',D''\in C_{\epsilon }$ $\textstyle d(D,D')$ $\textstyle d(D,D'')$ $\textstyle D$ $\textstyle D$ $\textstyle D$ $\textstyle C_{\epsilon }$ $\textstyle D^{*}$ $\textstyle \epsilon -$ $\textstyle D$ $\textstyle d(D^{*},D)\leq \epsilon$ $\textstyle 1-\delta$ $\textstyle O(\log N/\epsilon ^{2})$ $\textstyle D$ $\textstyle O(N\log N/\epsilon ^{2})$ $\textstyle N=|C_{\epsilon }|$

Изучение сумм случайных величин

Изучение простых известных распределений является хорошо изученной областью, и существует множество оценок, которые можно использовать. Еще один сложный класс распределений — это распределение суммы переменных, которые следуют простым распределениям. Эти процедуры обучения тесно связаны с предельными теоремами, такими как центральная предельная теорема, поскольку они, как правило, изучают один и тот же объект, когда сумма стремится к бесконечной сумме. Недавно было получено два результата, описанных здесь, включая изучение биномиальных распределений Пуассона и изучение сумм независимых целочисленных случайных величин. Все приведенные ниже результаты справедливы при использовании расстояния общей вариации в качестве меры расстояния.

Изучение биномиального распределения Пуассона

Рассмотрим независимые случайные величины Бернулли с вероятностями успеха . Биномиальное распределение Пуассона порядка — это распределение суммы . Для обучения класса . Первый из следующих результатов касается случая неправильного обучения , а второй — правильного обучения . ^[5] $\textstyle n$ $\textstyle X_{1},\dots ,X_{n}$ $\textstyle p_{1},\dots ,p_{n}$ $\textstyle n$ $\textstyle X=\sum _{i}X_{i}$ $\textstyle PBD=\{D:D~{\text{ is a Poisson binomial distribution}}\}$ $\textstyle PBD$ $\textstyle PBD$

Теорема

Пусть тогда существует алгоритм, который при заданных , и доступе к находит такой, что . Сложность этого алгоритма равна , а время выполнения равно . $\textstyle D\in PBD$ $\textstyle n$ $\textstyle \epsilon >0$ $\textstyle 0<\delta \leq 1$ $\textstyle GEN(D)$ $\textstyle D'$ $\textstyle \Pr[d(D,D')\leq \epsilon ]\geq 1-\delta$ $\textstyle {\tilde {O}}((1/\epsilon ^{3})\log(1/\delta ))$ $\textstyle {\tilde {O}}((1/\epsilon ^{3})\log n\log ^{2}(1/\delta ))$

Теорема

Пусть тогда существует алгоритм, который при заданных , и доступе к находит такой, что . Сложность этого алгоритма равна , а время выполнения равно . $\textstyle D\in PBD$ $\textstyle n$ $\textstyle \epsilon >0$ $\textstyle 0<\delta \leq 1$ $\textstyle GEN(D)$ $\textstyle D'\in PBD$ $\textstyle \Pr[d(D,D')\leq \epsilon ]\geq 1-\delta$ $\textstyle {\tilde {O}}((1/\epsilon ^{2}))\log(1/\delta )$ $\textstyle (1/\epsilon )^{O(\log ^{2}(1/\epsilon ))}{\tilde {O}}(\log n\log(1/\delta ))$

Одна часть приведенных выше результатов заключается в том, что сложность выборки алгоритма обучения не зависит от , хотя описание линейно по . Кроме того, второй результат почти оптимален относительно сложности выборки, поскольку также существует нижняя граница . $\textstyle n$ $\textstyle D$ $\textstyle n$ $\textstyle O(1/\epsilon ^{2})$

Доказательство использует небольшое покрытие , созданное Даскалакисом и Пападимитриу ^[6] для получения этого алгоритма. $\textstyle \epsilon -$ $\textstyle PBD$

Изучение сумм независимых целочисленных случайных величин

Рассмотрим независимые случайные величины, каждая из которых следует произвольному распределению с носителем . Сумма независимых целочисленных случайных величин порядка есть распределение суммы . Для изучения класса $\textstyle n$ $\textstyle X_{1},\dots ,X_{n}$ $\textstyle \{0,1,\dots ,k-1\}$ $\textstyle k-$ $\textstyle n$ $\textstyle X=\sum _{i}X_{i}$

$\textstyle k-SIIRV=\{D:D{\text{is a k-sum of independent integer random variable }}\}$

есть следующий результат

Теорема

Пусть тогда есть алгоритм, для которого задано , и доступ к находит такое, что . Сложность этого алгоритма равна , а время выполнения также равно . $\textstyle D\in k-SIIRV$ $\textstyle n$ $\textstyle \epsilon >0$ $\textstyle GEN(D)$ $\textstyle D'$ $\textstyle \Pr[d(D,D')\leq \epsilon ]\geq 1-\delta$ $\textstyle {\text{poly}}(k/\epsilon )$ $\textstyle {\text{poly}}(k/\epsilon )$

Другая часть заключается в том, что выборка и временная сложность не зависят от . Можно сделать вывод об этой независимости для предыдущего раздела, если мы установим . ^[7] $\textstyle n$ $\textstyle k=2$

Изучение смесей гауссианов

Пусть случайные величины и . Определим случайную величину , которая принимает то же значение, что и с вероятностью , и то же значение, что и с вероятностью . Тогда если есть плотность и есть плотность плотности есть . В этом случае говорят, что следует смеси гауссианов. Пирсон ^[8] был первым, кто ввел понятие смесей гауссианов в своей попытке объяснить распределение вероятностей, из которого он получил те же данные, которые он хотел проанализировать. Поэтому, выполнив множество вычислений вручную, он, наконец, подогнал свои данные к смеси гауссианов. Задача обучения в этом случае состоит в определении параметров смеси . $\textstyle X\sim N(\mu _{1},\Sigma _{1})$ $\textstyle Y\sim N(\mu _{2},\Sigma _{2})$ $\textstyle Z$ $\textstyle X$ $\textstyle w_{1}$ $\textstyle Y$ $\textstyle w_{2}=1-w_{1}$ $\textstyle F_{1}$ $\textstyle X$ $\textstyle F_{2}$ $\textstyle Y$ $\textstyle Z$ $\textstyle F=w_{1}F_{1}+w_{2}F_{2}$ $\textstyle Z$ $\textstyle w_{1},w_{2},\mu _{1},\mu _{2},\Sigma _{1},\Sigma _{2}$

Первая попытка решить эту проблему была сделана Дасгуптой. ^[9] В этой работе Дасгупта предполагает, что два средних значения гауссианов достаточно далеки друг от друга. Это означает, что существует нижняя граница расстояния . Используя это предположение, Дасгупта и многие ученые после него смогли узнать параметры смеси. Процедура обучения начинается с кластеризации образцов в два разных кластера, минимизирующих некоторую метрику. Используя предположение, что средние значения гауссианов далеки друг от друга с высокой вероятностью, образцы в первом кластере соответствуют образцам из первого гауссиана, а образцы во втором кластере — образцам из второго. Теперь, когда образцы разделены, можно вычислить с помощью простых статистических оценок и путем сравнения величины кластеров. $\textstyle ||\mu _{1}-\mu _{2}||$ $\textstyle \mu _{i},\Sigma _{i}$ $\textstyle w_{i}$

Если — множество всех смесей двух гауссианов, то с помощью вышеописанной процедуры можно доказать теоремы, подобные следующей. $\textstyle GM$

Теорема ^[9]

Пусть с , где и наибольшее собственное значение , тогда существует алгоритм, который при , и доступе к находит приближение параметров, такое что (соответственно для и . Сложность этого алгоритма равна , а время выполнения равно . $\textstyle D\in GM$ $\textstyle ||\mu _{1}-\mu _{2}||\geq c{\sqrt {n\max(\lambda _{max}(\Sigma _{1}),\lambda _{max}(\Sigma _{2}))}}$ $\textstyle c>1/2$ $\textstyle \lambda _{max}(A)$ $\textstyle A$ $\textstyle \epsilon >0$ $\textstyle 0<\delta \leq 1$ $\textstyle GEN(D)$ $\textstyle w'_{i},\mu '_{i},\Sigma '_{i}$ $\textstyle \Pr[||w_{i}-w'_{i}||\leq \epsilon ]\geq 1-\delta$ $\textstyle \mu _{i}$ $\textstyle \Sigma _{i}$ $\textstyle M=2^{O(\log ^{2}(1/(\epsilon \delta )))}$ $\textstyle O(M^{2}d+Mdn)$

Вышеуказанный результат можно также обобщить на смесь гауссианов. ^[9] $\textstyle k-$

Для случая смеси двух гауссианов существуют результаты обучения без предположения о расстоянии между их средними значениями, как в следующем случае, где в качестве меры расстояния используется расстояние общей вариации.

Теорема ^[10]

Пусть тогда есть алгоритм, которому дано , и доступ к находит такое, что если , где то . Сложность образца и время выполнения этого алгоритма равны . $\textstyle F\in GM$ $\textstyle \epsilon >0$ $\textstyle 0<\delta \leq 1$ $\textstyle GEN(D)$ $\textstyle w'_{i},\mu '_{i},\Sigma '_{i}$ $\textstyle F'=w'_{1}F'_{1}+w'_{2}F'_{2}$ $\textstyle F'_{i}=N(\mu '_{i},\Sigma '_{i})$ $\textstyle \Pr[d(F,F')\leq \epsilon ]\geq 1-\delta$ $\textstyle {\text{poly}}(n,1/\epsilon ,1/\delta ,1/w_{1},1/w_{2},1/d(F_{1},F_{2}))$

Расстояние между и не влияет на качество результата алгоритма, а только на сложность выборки и время выполнения. ^[9]^[10] $\textstyle F_{1}$ $\textstyle F_{2}$

Ссылки

^ abc M. Kearns, Y. Mansour, D. Ron, R. Rubinfeld, R. Schapire, L. Sellie Об обучаемости дискретных распределений . Симпозиум ACM по теории вычислений, 1994 [1]
^ Л. Валиант Теория обучаемого. Сообщения ACM, 1984
^ Лоренцо Росаско, Томазо Поджио, «Регуляризация машинного обучения — заметки лекций MIT-9.520», рукопись, декабрь 2014 г. [2]
^ C. Daskalakis, G. Kamath Более быстрые и выборочные почти оптимальные алгоритмы для правильных обучающих смесей гауссианов . Ежегодная конференция по теории обучения, 2014 [3]
^ C. Daskalakis, I. Diakonikolas, R. Servedio Learning Poisson Binomial Distributions . Симпозиум ACM по теории вычислений, 2012 [4]
^ C. Daskalakis, C. Papadimitriou Sparse Covers for Sums of Indicators . Теория вероятностей и смежные области, 2014 [5]
^ C. Daskalakis, I. Diakonikolas, R. O'Donnell, R. Servedio, L. Tan Learning Sums of Independent Integer Random Variables . Симпозиум IEEE по основам компьютерной науки, 2013 [6]
^ Вклад К. Пирсона в математическую теорию эволюции . Философские труды Королевского общества в Лондоне, 1894 [7]
^ abcd S. Dasgupta Learning Mixtures of Gaussians . Симпозиум IEEE по основам компьютерной науки, 1999 [8]
^ ab A. Kalai, A. Moitra, G. Valiant Эффективное обучение смесям двух гауссианов Симпозиум ACM по теории вычислений, 2010 [9]

[KMRRSS94-1] M. Kearns, Y. Mansour, D. Ron, R. Rubinfeld, R. Schapire, L. Sellie Об обучаемости дискретных распределений . Симпозиум ACM по теории вычислений, 1994 [1]

[Val84-2] Л. Валиант Теория обучаемого. Сообщения ACM, 1984

[RP14-3] Лоренцо Росаско, Томазо Поджио, «Регуляризация машинного обучения — заметки лекций MIT-9.520», рукопись, декабрь 2014 г. [2]

[DK14-4] C. Daskalakis, G. Kamath Более быстрые и выборочные почти оптимальные алгоритмы для правильных обучающих смесей гауссианов . Ежегодная конференция по теории обучения, 2014 [3]

[DDS12-5] C. Daskalakis, I. Diakonikolas, R. Servedio Learning Poisson Binomial Distributions . Симпозиум ACM по теории вычислений, 2012 [4]

[DP14-6] C. Daskalakis, C. Papadimitriou Sparse Covers for Sums of Indicators . Теория вероятностей и смежные области, 2014 [5]

[DDOST13-7] C. Daskalakis, I. Diakonikolas, R. O'Donnell, R. Servedio, L. Tan Learning Sums of Independent Integer Random Variables . Симпозиум IEEE по основам компьютерной науки, 2013 [6]

[Pea1894-8] Вклад К. Пирсона в математическую теорию эволюции . Философские труды Королевского общества в Лондоне, 1894 [7]

[Das99-9] S. Dasgupta Learning Mixtures of Gaussians . Симпозиум IEEE по основам компьютерной науки, 1999 [8]

[KMV10-10] A. Kalai, A. Moitra, G. Valiant Эффективное обучение смесям двух гауссианов Симпозиум ACM по теории вычислений, 2010 [9]

Теория распределенного обучения

Определения

Первые результаты

ϵ − {\displaystyle \textstyle \epsilon -} Обложки

Изучение сумм случайных величин

Изучение биномиального распределения Пуассона

Изучение сумм независимых целочисленных случайных величин

Изучение смесей гауссианов

Ссылки

$\textstyle \epsilon -$ Обложки