Теория распределенного обучения

Теория распределения обучения или обучения распределению вероятностей является структурой в теории вычислительного обучения . Она была предложена Майклом Кернсом , Ишаем Мансуром, Даной Роном , Рониттом Рубинфельдом , Робертом Шапиром и Линдой Селли в 1994 году [1] и была вдохновлена ​​структурой PAC, представленной Лесли Валиантом . [2]

В этой структуре входными данными является ряд выборок, взятых из распределения, принадлежащего определенному классу распределений. Цель состоит в том, чтобы найти эффективный алгоритм, который на основе этих выборок с высокой вероятностью определяет распределение, из которого были взяты выборки. Благодаря своей общности эта структура использовалась в самых разных областях, таких как машинное обучение , алгоритмы аппроксимации , прикладная вероятность и статистика .

В данной статье объясняются основные определения, инструменты и результаты данной структуры с точки зрения теории вычислений.

Определения

Пусть будет носителем интересующих распределений. Как и в оригинальной работе Кернса и др. [1], если конечно, то можно предположить без потери общности, что где — число битов, которое необходимо использовать для представления любого . Мы фокусируемся на вероятностных распределениях над . Х {\displaystyle \textstyle X} Х {\displaystyle \textstyle X} Х = { 0 , 1 } н {\displaystyle \textstyle X=\{0,1\}^{n}} н {\displaystyle \textstyle н} у Х {\displaystyle \textstyle y\in X} Х {\displaystyle \textstyle X}

Существует два возможных представления распределения вероятностей по . Д {\displaystyle \textstyle D} Х {\displaystyle \textstyle X}

  • Функция распределения вероятностей (или оценщик) оценщик для принимает в качестве входных данных любое и выводит действительное число , которое обозначает вероятность того, что согласно , т.е. если . Э Д {\displaystyle \textstyle E_{D}} Д {\displaystyle \textstyle D} у Х {\displaystyle \textstyle y\in X} Э Д [ у ] {\displaystyle \textstyle E_{D}[y]} у {\displaystyle \textstyle y} Д {\displaystyle \textstyle D} Э Д [ у ] = Пр [ И = у ] {\displaystyle \textstyle E_{D}[y]=\Pr[Y=y]} И Д {\displaystyle \textstyle Y\sim D}
  • генератор генератор для принимает в качестве входных данных строку действительно случайных битов и выдает выходные данные в соответствии с распределением . Генератор можно интерпретировать как процедуру, которая имитирует выборку из распределения, заданного последовательностью честных подбрасываний монеты. G D {\displaystyle \textstyle G_{D}} D {\displaystyle \textstyle D} y {\displaystyle \textstyle y} G D [ y ] X {\displaystyle \textstyle G_{D}[y]\in X} D {\displaystyle \textstyle D} D {\displaystyle \textstyle D}

Распределение называется имеющим полиномиальный генератор (соответственно оценщик), если его генератор (соответственно оценщик) существует и может быть вычислен за полиномиальное время. D {\displaystyle \textstyle D}

Пусть класс распределения над X, то есть множество такое, что каждое является распределением вероятностей с носителем . Для простоты его можно также записать как . C X {\displaystyle \textstyle C_{X}} C X {\displaystyle \textstyle C_{X}} D C X {\displaystyle \textstyle D\in C_{X}} X {\displaystyle \textstyle X} C X {\displaystyle \textstyle C_{X}} C {\displaystyle \textstyle C}

Прежде чем определять обучаемость, необходимо определить хорошие приближения распределения . Существует несколько способов измерения расстояния между двумя распределениями. Три наиболее распространенных возможности: D {\displaystyle \textstyle D}

Самым сильным из этих расстояний является расхождение Кульбака-Лейблера , а самым слабым — расстояние Колмогорова . Это означает  , что для любой пары распределений : D {\displaystyle \textstyle D} D {\displaystyle \textstyle D'}

KL-distance ( D , D ) TV-distance ( D , D ) Kolmogorov-distance ( D , D ) {\displaystyle {\text{KL-distance}}(D,D')\geq {\text{TV-distance}}(D,D')\geq {\text{Kolmogorov-distance}}(D,D')}

Поэтому, например, если и близки относительно расхождения Кульбака-Лейблера , то они также близки относительно всех других расстояний. D {\displaystyle \textstyle D} D {\displaystyle \textstyle D'}

Следующие определения справедливы для всех расстояний, и поэтому символ обозначает расстояние между распределением и распределением, использующим одно из расстояний, которые мы описали выше. Хотя обучаемость класса распределений может быть определена с использованием любого из этих расстояний, приложения относятся к конкретному расстоянию. d ( D , D ) {\displaystyle \textstyle d(D,D')} D {\displaystyle \textstyle D} D {\displaystyle \textstyle D'}

Базовый ввод, который мы используем для изучения распределения, — это количество образцов, полученных этим распределением. С вычислительной точки зрения предполагается, что такой образец предоставляется в постоянном количестве времени. Таким образом, это похоже на доступ к оракулу , который возвращает образец из распределения . Иногда интерес заключается в том, чтобы, помимо измерения временной сложности, измерить количество образцов, которые необходимо использовать для изучения определенного распределения в классе распределений . Эта величина называется сложностью образца алгоритма обучения. G E N ( D ) {\displaystyle \textstyle GEN(D)} D {\displaystyle \textstyle D} D {\displaystyle \textstyle D} C {\displaystyle \textstyle C}

Для того чтобы проблема распределения обучения была более ясной, рассмотрим проблему контролируемого обучения, как определено в. [3] В этой структуре статистической теории обучения обучающий набор и цель состоит в том, чтобы найти целевую функцию , которая минимизирует некоторую функцию потерь, например, квадратичную функцию потерь. Более формально , где - функция потерь, например , и распределение вероятностей, в соответствии с которым выбираются элементы обучающего набора. Если условное распределение вероятностей известно, то целевая функция имеет замкнутую форму . Таким образом, набор представляет собой набор выборок из распределения вероятностей . Теперь цель теории распределения обучения заключается в том, чтобы найти заданное , которое можно использовать для нахождения целевой функции . S = { ( x 1 , y 1 ) , , ( x n , y n ) } {\displaystyle \textstyle S=\{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}} f : X Y {\displaystyle \textstyle f:X\rightarrow Y} f = arg min g V ( y , g ( x ) ) d ρ ( x , y ) {\displaystyle f=\arg \min _{g}\int V(y,g(x))d\rho (x,y)} V ( , ) {\displaystyle V(\cdot ,\cdot )} V ( y , z ) = ( y z ) 2 {\displaystyle V(y,z)=(y-z)^{2}} ρ ( x , y ) {\displaystyle \rho (x,y)} ρ x ( y ) {\displaystyle \rho _{x}(y)} f ( x ) = y y d ρ x ( y ) {\displaystyle f(x)=\int _{y}yd\rho _{x}(y)} S {\displaystyle S} ρ ( x , y ) {\displaystyle \rho (x,y)} ρ {\displaystyle \rho } S {\displaystyle S} f {\displaystyle f}

Определение обучаемости

Класс распределений называется эффективно обучаемым, если для каждого и заданного доступа к для неизвестного распределения существует алгоритм полиномиального времени , называемый алгоритмом обучения , который выводит генератор или оценщик распределения, такой что C {\displaystyle \textstyle C} ϵ > 0 {\displaystyle \textstyle \epsilon >0} 0 < δ 1 {\displaystyle \textstyle 0<\delta \leq 1} G E N ( D ) {\displaystyle \textstyle GEN(D)} D C {\displaystyle \textstyle D\in C} A {\displaystyle \textstyle A} C {\displaystyle \textstyle C} D {\displaystyle \textstyle D'}

Pr [ d ( D , D ) ϵ ] 1 δ {\displaystyle \Pr[d(D,D')\leq \epsilon ]\geq 1-\delta }

Если мы это знаем, то это называется правильным алгоритмом обучения , в противном случае это называется неправильным алгоритмом обучения . D C {\displaystyle \textstyle D'\in C} A {\displaystyle \textstyle A}

В некоторых настройках класс распределений — это класс с хорошо известными распределениями, которые можно описать набором параметров. Например, это может быть класс всех гауссовых распределений . В этом случае алгоритм должен уметь оценивать параметры . В этом случае это называется алгоритмом обучения параметрам . C {\displaystyle \textstyle C} C {\displaystyle \textstyle C} N ( μ , σ 2 ) {\displaystyle \textstyle N(\mu ,\sigma ^{2})} A {\displaystyle \textstyle A} μ , σ {\displaystyle \textstyle \mu ,\sigma } A {\displaystyle \textstyle A}

Очевидно, что параметрическое обучение для простых распределений является очень хорошо изученной областью, которая называется статистической оценкой, и существует очень длинная библиография по различным оценщикам для различных видов простых известных распределений. Но теория обучения распределений имеет дело с классом обучения распределений, которые имеют более сложное описание.

Первые результаты

В своей основополагающей работе Кернс и др. рассматривают случай, когда описывается в терминах конечной полиномиальной схемы, и они доказали следующее для некоторых конкретных классов распределений. [1] A {\displaystyle \textstyle A}

  • O R {\displaystyle \textstyle OR} распределения вентилей для этого типа распределений нет оценщика полиномиального размера, если только . С другой стороны, этот класс эффективно обучается с помощью генератора. # P P / poly {\displaystyle \textstyle \#P\subseteq P/{\text{poly}}}
  • Распределения вентилей четности. Этот класс эффективно изучается как с помощью генератора, так и с помощью оценщика.
  • Смеси шаров Хэмминга. Этот класс эффективно изучается как с помощью генератора, так и с помощью оценщика.
  • Вероятностные конечные автоматы. Этот класс не поддается эффективному обучению с помощью оценщика при условии предположения о шумовой четности, что является невозможным предположением в рамках обучения PAC.

ϵ {\displaystyle \textstyle \epsilon -} Обложки

Одним из самых распространенных методов поиска алгоритма обучения для класса распределений является поиск сначала небольшого покрытия . C {\displaystyle \textstyle C} ϵ {\displaystyle \textstyle \epsilon -} C {\displaystyle \textstyle C}

Определение

Множество называется -покрытием , если для каждого существует такое, что . Покрытие является малым, если оно имеет полиномиальный размер относительно параметров, описывающих . C ϵ {\displaystyle \textstyle C_{\epsilon }} ϵ {\displaystyle \textstyle \epsilon } C {\displaystyle \textstyle C} D C {\displaystyle \textstyle D\in C} D C ϵ {\displaystyle \textstyle D'\in C_{\epsilon }} d ( D , D ) ϵ {\displaystyle \textstyle d(D,D')\leq \epsilon } ϵ {\displaystyle \textstyle \epsilon -} D {\displaystyle \textstyle D}

Как только появится эффективная процедура, которая для каждого находит небольшое покрытие C, то единственной оставшейся задачей будет выбрать распределение , которое ближе к распределению , которое необходимо изучить. ϵ > 0 {\displaystyle \textstyle \epsilon >0} ϵ {\displaystyle \textstyle \epsilon -} C ϵ {\displaystyle \textstyle C_{\epsilon }} C ϵ {\displaystyle \textstyle C_{\epsilon }} D C ϵ {\displaystyle \textstyle D'\in C_{\epsilon }} D C {\displaystyle \textstyle D\in C}

Проблема в том, что, учитывая, что нетривиально, как мы можем сравнивать и для того, чтобы решить, какой из них ближе всего к , поскольку неизвестно. Следовательно, для выполнения этих сравнений должны использоваться образцы из . Очевидно, что результат сравнения всегда имеет вероятность ошибки. Поэтому задача похожа на нахождение минимума в наборе элементов с использованием шумных сравнений. Существует множество классических алгоритмов для достижения этой цели. Самый последний, который достигает наилучших гарантий, был предложен Даскалакисом и Каматом [4]. Этот алгоритм устанавливает быстрый турнир между элементами , где победителем этого турнира становится элемент, который близок к (т.е. ) с вероятностью не менее . Для этого их алгоритм использует образцы из и работает за время, где . D , D C ϵ {\displaystyle \textstyle D',D''\in C_{\epsilon }} d ( D , D ) {\displaystyle \textstyle d(D,D')} d ( D , D ) {\displaystyle \textstyle d(D,D'')} D {\displaystyle \textstyle D} D {\displaystyle \textstyle D} D {\displaystyle \textstyle D} C ϵ {\displaystyle \textstyle C_{\epsilon }} D {\displaystyle \textstyle D^{*}} ϵ {\displaystyle \textstyle \epsilon -} D {\displaystyle \textstyle D} d ( D , D ) ϵ {\displaystyle \textstyle d(D^{*},D)\leq \epsilon } 1 δ {\displaystyle \textstyle 1-\delta } O ( log N / ϵ 2 ) {\displaystyle \textstyle O(\log N/\epsilon ^{2})} D {\displaystyle \textstyle D} O ( N log N / ϵ 2 ) {\displaystyle \textstyle O(N\log N/\epsilon ^{2})} N = | C ϵ | {\displaystyle \textstyle N=|C_{\epsilon }|}

Изучение сумм случайных величин

Изучение простых известных распределений является хорошо изученной областью, и существует множество оценок, которые можно использовать. Еще один сложный класс распределений — это распределение суммы переменных, которые следуют простым распределениям. Эти процедуры обучения тесно связаны с предельными теоремами, такими как центральная предельная теорема, поскольку они, как правило, изучают один и тот же объект, когда сумма стремится к бесконечной сумме. Недавно было получено два результата, описанных здесь, включая изучение биномиальных распределений Пуассона и изучение сумм независимых целочисленных случайных величин. Все приведенные ниже результаты справедливы при использовании расстояния общей вариации в качестве меры расстояния.

Изучение биномиального распределения Пуассона

Рассмотрим независимые случайные величины Бернулли с вероятностями успеха . Биномиальное распределение Пуассона порядка — это распределение суммы . Для обучения класса . Первый из следующих результатов касается случая неправильного обучения , а второй — правильного обучения . [5] n {\displaystyle \textstyle n} X 1 , , X n {\displaystyle \textstyle X_{1},\dots ,X_{n}} p 1 , , p n {\displaystyle \textstyle p_{1},\dots ,p_{n}} n {\displaystyle \textstyle n} X = i X i {\displaystyle \textstyle X=\sum _{i}X_{i}} P B D = { D : D    is a Poisson binomial distribution } {\displaystyle \textstyle PBD=\{D:D~{\text{ is a Poisson binomial distribution}}\}} P B D {\displaystyle \textstyle PBD} P B D {\displaystyle \textstyle PBD}

Теорема

Пусть тогда существует алгоритм, который при заданных , и доступе к находит такой, что . Сложность этого алгоритма равна , а время выполнения равно . D P B D {\displaystyle \textstyle D\in PBD} n {\displaystyle \textstyle n} ϵ > 0 {\displaystyle \textstyle \epsilon >0} 0 < δ 1 {\displaystyle \textstyle 0<\delta \leq 1} G E N ( D ) {\displaystyle \textstyle GEN(D)} D {\displaystyle \textstyle D'} Pr [ d ( D , D ) ϵ ] 1 δ {\displaystyle \textstyle \Pr[d(D,D')\leq \epsilon ]\geq 1-\delta } O ~ ( ( 1 / ϵ 3 ) log ( 1 / δ ) ) {\displaystyle \textstyle {\tilde {O}}((1/\epsilon ^{3})\log(1/\delta ))} O ~ ( ( 1 / ϵ 3 ) log n log 2 ( 1 / δ ) ) {\displaystyle \textstyle {\tilde {O}}((1/\epsilon ^{3})\log n\log ^{2}(1/\delta ))}

Теорема

Пусть тогда существует алгоритм, который при заданных , и доступе к находит такой, что . Сложность этого алгоритма равна , а время выполнения равно . D P B D {\displaystyle \textstyle D\in PBD} n {\displaystyle \textstyle n} ϵ > 0 {\displaystyle \textstyle \epsilon >0} 0 < δ 1 {\displaystyle \textstyle 0<\delta \leq 1} G E N ( D ) {\displaystyle \textstyle GEN(D)} D P B D {\displaystyle \textstyle D'\in PBD} Pr [ d ( D , D ) ϵ ] 1 δ {\displaystyle \textstyle \Pr[d(D,D')\leq \epsilon ]\geq 1-\delta } O ~ ( ( 1 / ϵ 2 ) ) log ( 1 / δ ) {\displaystyle \textstyle {\tilde {O}}((1/\epsilon ^{2}))\log(1/\delta )} ( 1 / ϵ ) O ( log 2 ( 1 / ϵ ) ) O ~ ( log n log ( 1 / δ ) ) {\displaystyle \textstyle (1/\epsilon )^{O(\log ^{2}(1/\epsilon ))}{\tilde {O}}(\log n\log(1/\delta ))}

Одна часть приведенных выше результатов заключается в том, что сложность выборки алгоритма обучения не зависит от , хотя описание линейно по . Кроме того, второй результат почти оптимален относительно сложности выборки, поскольку также существует нижняя граница . n {\displaystyle \textstyle n} D {\displaystyle \textstyle D} n {\displaystyle \textstyle n} O ( 1 / ϵ 2 ) {\displaystyle \textstyle O(1/\epsilon ^{2})}

Доказательство использует небольшое покрытие , созданное Даскалакисом и Пападимитриу [6] для получения этого алгоритма. ϵ {\displaystyle \textstyle \epsilon -} P B D {\displaystyle \textstyle PBD}

Изучение сумм независимых целочисленных случайных величин

Рассмотрим независимые случайные величины, каждая из которых следует произвольному распределению с носителем . Сумма независимых целочисленных случайных величин порядка есть распределение суммы . Для изучения класса n {\displaystyle \textstyle n} X 1 , , X n {\displaystyle \textstyle X_{1},\dots ,X_{n}} { 0 , 1 , , k 1 } {\displaystyle \textstyle \{0,1,\dots ,k-1\}} k {\displaystyle \textstyle k-} n {\displaystyle \textstyle n} X = i X i {\displaystyle \textstyle X=\sum _{i}X_{i}}

k S I I R V = { D : D is a k-sum of independent integer random variable  } {\displaystyle \textstyle k-SIIRV=\{D:D{\text{is a k-sum of independent integer random variable }}\}}

есть следующий результат

Теорема

Пусть тогда есть алгоритм, для которого задано , и доступ к находит такое, что . Сложность этого алгоритма равна , а время выполнения также равно . D k S I I R V {\displaystyle \textstyle D\in k-SIIRV} n {\displaystyle \textstyle n} ϵ > 0 {\displaystyle \textstyle \epsilon >0} G E N ( D ) {\displaystyle \textstyle GEN(D)} D {\displaystyle \textstyle D'} Pr [ d ( D , D ) ϵ ] 1 δ {\displaystyle \textstyle \Pr[d(D,D')\leq \epsilon ]\geq 1-\delta } poly ( k / ϵ ) {\displaystyle \textstyle {\text{poly}}(k/\epsilon )} poly ( k / ϵ ) {\displaystyle \textstyle {\text{poly}}(k/\epsilon )}

Другая часть заключается в том, что выборка и временная сложность не зависят от . Можно сделать вывод об этой независимости для предыдущего раздела, если мы установим . [7] n {\displaystyle \textstyle n} k = 2 {\displaystyle \textstyle k=2}

Изучение смесей гауссианов

Пусть случайные величины и . Определим случайную величину , которая принимает то же значение, что и с вероятностью , и то же значение, что и с вероятностью . Тогда если есть плотность и есть плотность плотности есть . В этом случае говорят, что следует смеси гауссианов. Пирсон [8] был первым, кто ввел понятие смесей гауссианов в своей попытке объяснить распределение вероятностей, из которого он получил те же данные, которые он хотел проанализировать. Поэтому, выполнив множество вычислений вручную, он, наконец, подогнал свои данные к смеси гауссианов. Задача обучения в этом случае состоит в определении параметров смеси . X N ( μ 1 , Σ 1 ) {\displaystyle \textstyle X\sim N(\mu _{1},\Sigma _{1})} Y N ( μ 2 , Σ 2 ) {\displaystyle \textstyle Y\sim N(\mu _{2},\Sigma _{2})} Z {\displaystyle \textstyle Z} X {\displaystyle \textstyle X} w 1 {\displaystyle \textstyle w_{1}} Y {\displaystyle \textstyle Y} w 2 = 1 w 1 {\displaystyle \textstyle w_{2}=1-w_{1}} F 1 {\displaystyle \textstyle F_{1}} X {\displaystyle \textstyle X} F 2 {\displaystyle \textstyle F_{2}} Y {\displaystyle \textstyle Y} Z {\displaystyle \textstyle Z} F = w 1 F 1 + w 2 F 2 {\displaystyle \textstyle F=w_{1}F_{1}+w_{2}F_{2}} Z {\displaystyle \textstyle Z} w 1 , w 2 , μ 1 , μ 2 , Σ 1 , Σ 2 {\displaystyle \textstyle w_{1},w_{2},\mu _{1},\mu _{2},\Sigma _{1},\Sigma _{2}}

Первая попытка решить эту проблему была сделана Дасгуптой. [9] В этой работе Дасгупта предполагает, что два средних значения гауссианов достаточно далеки друг от друга. Это означает, что существует нижняя граница расстояния . Используя это предположение, Дасгупта и многие ученые после него смогли узнать параметры смеси. Процедура обучения начинается с кластеризации образцов в два разных кластера, минимизирующих некоторую метрику. Используя предположение, что средние значения гауссианов далеки друг от друга с высокой вероятностью, образцы в первом кластере соответствуют образцам из первого гауссиана, а образцы во втором кластере — образцам из второго. Теперь, когда образцы разделены, можно вычислить с помощью простых статистических оценок и путем сравнения величины кластеров. | | μ 1 μ 2 | | {\displaystyle \textstyle ||\mu _{1}-\mu _{2}||} μ i , Σ i {\displaystyle \textstyle \mu _{i},\Sigma _{i}} w i {\displaystyle \textstyle w_{i}}

Если — множество всех смесей двух гауссианов, то с помощью вышеописанной процедуры можно доказать теоремы, подобные следующей. G M {\displaystyle \textstyle GM}

Теорема [9]

Пусть с , где и наибольшее собственное значение , тогда существует алгоритм, который при , и доступе к находит приближение параметров, такое что (соответственно для и . Сложность этого алгоритма равна , а время выполнения равно . D G M {\displaystyle \textstyle D\in GM} | | μ 1 μ 2 | | c n max ( λ m a x ( Σ 1 ) , λ m a x ( Σ 2 ) ) {\displaystyle \textstyle ||\mu _{1}-\mu _{2}||\geq c{\sqrt {n\max(\lambda _{max}(\Sigma _{1}),\lambda _{max}(\Sigma _{2}))}}} c > 1 / 2 {\displaystyle \textstyle c>1/2} λ m a x ( A ) {\displaystyle \textstyle \lambda _{max}(A)} A {\displaystyle \textstyle A} ϵ > 0 {\displaystyle \textstyle \epsilon >0} 0 < δ 1 {\displaystyle \textstyle 0<\delta \leq 1} G E N ( D ) {\displaystyle \textstyle GEN(D)} w i , μ i , Σ i {\displaystyle \textstyle w'_{i},\mu '_{i},\Sigma '_{i}} Pr [ | | w i w i | | ϵ ] 1 δ {\displaystyle \textstyle \Pr[||w_{i}-w'_{i}||\leq \epsilon ]\geq 1-\delta } μ i {\displaystyle \textstyle \mu _{i}} Σ i {\displaystyle \textstyle \Sigma _{i}} M = 2 O ( log 2 ( 1 / ( ϵ δ ) ) ) {\displaystyle \textstyle M=2^{O(\log ^{2}(1/(\epsilon \delta )))}} O ( M 2 d + M d n ) {\displaystyle \textstyle O(M^{2}d+Mdn)}

Вышеуказанный результат можно также обобщить на смесь гауссианов. [9] k {\displaystyle \textstyle k-}

Для случая смеси двух гауссианов существуют результаты обучения без предположения о расстоянии между их средними значениями, как в следующем случае, где в качестве меры расстояния используется расстояние общей вариации.

Теорема [10]

Пусть тогда есть алгоритм, которому дано , и доступ к находит такое, что если , где то . Сложность образца и время выполнения этого алгоритма равны . F G M {\displaystyle \textstyle F\in GM} ϵ > 0 {\displaystyle \textstyle \epsilon >0} 0 < δ 1 {\displaystyle \textstyle 0<\delta \leq 1} G E N ( D ) {\displaystyle \textstyle GEN(D)} w i , μ i , Σ i {\displaystyle \textstyle w'_{i},\mu '_{i},\Sigma '_{i}} F = w 1 F 1 + w 2 F 2 {\displaystyle \textstyle F'=w'_{1}F'_{1}+w'_{2}F'_{2}} F i = N ( μ i , Σ i ) {\displaystyle \textstyle F'_{i}=N(\mu '_{i},\Sigma '_{i})} Pr [ d ( F , F ) ϵ ] 1 δ {\displaystyle \textstyle \Pr[d(F,F')\leq \epsilon ]\geq 1-\delta } poly ( n , 1 / ϵ , 1 / δ , 1 / w 1 , 1 / w 2 , 1 / d ( F 1 , F 2 ) ) {\displaystyle \textstyle {\text{poly}}(n,1/\epsilon ,1/\delta ,1/w_{1},1/w_{2},1/d(F_{1},F_{2}))}

Расстояние между и не влияет на качество результата алгоритма, а только на сложность выборки и время выполнения. [9] [10] F 1 {\displaystyle \textstyle F_{1}} F 2 {\displaystyle \textstyle F_{2}}

Ссылки

  1. ^ abc M. Kearns, Y. Mansour, D. Ron, R. Rubinfeld, R. Schapire, L. Sellie Об обучаемости дискретных распределений . Симпозиум ACM по теории вычислений, 1994 [1]
  2. ^ Л. Валиант Теория обучаемого. Сообщения ACM, 1984
  3. ^ Лоренцо Росаско, Томазо Поджио, «Регуляризация машинного обучения — заметки лекций MIT-9.520», рукопись, декабрь 2014 г. [2]
  4. ^ C. Daskalakis, G. Kamath Более быстрые и выборочные почти оптимальные алгоритмы для правильных обучающих смесей гауссианов . Ежегодная конференция по теории обучения, 2014 [3]
  5. ^ C. Daskalakis, I. Diakonikolas, R. Servedio Learning Poisson Binomial Distributions . Симпозиум ACM по теории вычислений, 2012 [4]
  6. ^ C. Daskalakis, C. Papadimitriou Sparse Covers for Sums of Indicators . Теория вероятностей и смежные области, 2014 [5]
  7. ^ C. Daskalakis, I. Diakonikolas, R. O'Donnell, R. Servedio, L. Tan Learning Sums of Independent Integer Random Variables . Симпозиум IEEE по основам компьютерной науки, 2013 [6]
  8. ^ Вклад К. Пирсона в математическую теорию эволюции . Философские труды Королевского общества в Лондоне, 1894 [7]
  9. ^ abcd S. Dasgupta Learning Mixtures of Gaussians . Симпозиум IEEE по основам компьютерной науки, 1999 [8]
  10. ^ ab A. Kalai, A. Moitra, G. Valiant Эффективное обучение смесям двух гауссианов Симпозиум ACM по теории вычислений, 2010 [9]
Retrieved from "https://en.wikipedia.org/w/index.php?title=Distribution_learning_theory&oldid=1083045386"