Теория распределения обучения или обучения распределению вероятностей является структурой в теории вычислительного обучения . Она была предложена Майклом Кернсом , Ишаем Мансуром, Даной Роном , Рониттом Рубинфельдом , Робертом Шапиром и Линдой Селли в 1994 году и была вдохновлена структурой PAC, представленной Лесли Валиантом . [2]
В этой структуре входными данными является ряд выборок, взятых из распределения, принадлежащего определенному классу распределений. Цель состоит в том, чтобы найти эффективный алгоритм, который на основе этих выборок с высокой вероятностью определяет распределение, из которого были взяты выборки. Благодаря своей общности эта структура использовалась в самых разных областях, таких как машинное обучение , алгоритмы аппроксимации , прикладная вероятность и статистика .
В данной статье объясняются основные определения, инструменты и результаты данной структуры с точки зрения теории вычислений.
Определения
Пусть будет носителем интересующих распределений. Как и в оригинальной работе Кернса и др. если конечно, то можно предположить без потери общности, что где — число битов, которое необходимо использовать для представления любого . Мы фокусируемся на вероятностных распределениях над .
Существует два возможных представления распределения вероятностей по .
- Функция распределения вероятностей (или оценщик) оценщик для принимает в качестве входных данных любое и выводит действительное число , которое обозначает вероятность того, что согласно , т.е. если .
- генератор генератор для принимает в качестве входных данных строку действительно случайных битов и выдает выходные данные в соответствии с распределением . Генератор можно интерпретировать как процедуру, которая имитирует выборку из распределения, заданного последовательностью честных подбрасываний монеты.
Распределение называется имеющим полиномиальный генератор (соответственно оценщик), если его генератор (соответственно оценщик) существует и может быть вычислен за полиномиальное время.
Пусть класс распределения над X, то есть множество такое, что каждое является распределением вероятностей с носителем . Для простоты его можно также записать как .
Прежде чем определять обучаемость, необходимо определить хорошие приближения распределения . Существует несколько способов измерения расстояния между двумя распределениями. Три наиболее распространенных возможности:
Самым сильным из этих расстояний является расхождение Кульбака-Лейблера , а самым слабым — расстояние Колмогорова . Это означает , что для любой пары распределений :
Поэтому, например, если и близки относительно расхождения Кульбака-Лейблера , то они также близки относительно всех других расстояний.
Следующие определения справедливы для всех расстояний, и поэтому символ обозначает расстояние между распределением и распределением, использующим одно из расстояний, которые мы описали выше. Хотя обучаемость класса распределений может быть определена с использованием любого из этих расстояний, приложения относятся к конкретному расстоянию.
Базовый ввод, который мы используем для изучения распределения, — это количество образцов, полученных этим распределением. С вычислительной точки зрения предполагается, что такой образец предоставляется в постоянном количестве времени. Таким образом, это похоже на доступ к оракулу , который возвращает образец из распределения . Иногда интерес заключается в том, чтобы, помимо измерения временной сложности, измерить количество образцов, которые необходимо использовать для изучения определенного распределения в классе распределений . Эта величина называется сложностью образца алгоритма обучения.
Для того чтобы проблема распределения обучения была более ясной, рассмотрим проблему контролируемого обучения, как определено в. [3] В этой структуре статистической теории обучения обучающий набор и цель состоит в том, чтобы найти целевую функцию , которая минимизирует некоторую функцию потерь, например, квадратичную функцию потерь. Более формально , где - функция потерь, например , и распределение вероятностей, в соответствии с которым выбираются элементы обучающего набора. Если условное распределение вероятностей известно, то целевая функция имеет замкнутую форму . Таким образом, набор представляет собой набор выборок из распределения вероятностей . Теперь цель теории распределения обучения заключается в том, чтобы найти заданное , которое можно использовать для нахождения целевой функции .
Определение обучаемости
Класс распределений называется эффективно обучаемым, если для каждого и заданного доступа к для неизвестного распределения существует алгоритм полиномиального времени , называемый алгоритмом обучения , который выводит генератор или оценщик распределения, такой что
Если мы это знаем, то это называется правильным алгоритмом обучения , в противном случае это называется неправильным алгоритмом обучения .
В некоторых настройках класс распределений — это класс с хорошо известными распределениями, которые можно описать набором параметров. Например, это может быть класс всех гауссовых распределений . В этом случае алгоритм должен уметь оценивать параметры . В этом случае это называется алгоритмом обучения параметрам .
Очевидно, что параметрическое обучение для простых распределений является очень хорошо изученной областью, которая называется статистической оценкой, и существует очень длинная библиография по различным оценщикам для различных видов простых известных распределений. Но теория обучения распределений имеет дело с классом обучения распределений, которые имеют более сложное описание.
Первые результаты
В своей основополагающей работе Кернс и др. рассматривают случай, когда описывается в терминах конечной полиномиальной схемы, и они доказали следующее для некоторых конкретных классов распределений.
- распределения вентилей для этого типа распределений нет оценщика полиномиального размера, если только . С другой стороны, этот класс эффективно обучается с помощью генератора.
- Распределения вентилей четности. Этот класс эффективно изучается как с помощью генератора, так и с помощью оценщика.
- Смеси шаров Хэмминга. Этот класс эффективно изучается как с помощью генератора, так и с помощью оценщика.
- Вероятностные конечные автоматы. Этот класс не поддается эффективному обучению с помощью оценщика при условии предположения о шумовой четности, что является невозможным предположением в рамках обучения PAC.
Обложки
Одним из самых распространенных методов поиска алгоритма обучения для класса распределений является поиск сначала небольшого покрытия .
Определение
Множество называется -покрытием , если для каждого существует такое, что . Покрытие является малым, если оно имеет полиномиальный размер относительно параметров, описывающих .
Как только появится эффективная процедура, которая для каждого находит небольшое покрытие C, то единственной оставшейся задачей будет выбрать распределение , которое ближе к распределению , которое необходимо изучить.
Проблема в том, что, учитывая, что нетривиально, как мы можем сравнивать и для того, чтобы решить, какой из них ближе всего к , поскольку неизвестно. Следовательно, для выполнения этих сравнений должны использоваться образцы из . Очевидно, что результат сравнения всегда имеет вероятность ошибки. Поэтому задача похожа на нахождение минимума в наборе элементов с использованием шумных сравнений. Существует множество классических алгоритмов для достижения этой цели. Самый последний, который достигает наилучших гарантий, был предложен Даскалакисом и Каматом [4]. Этот алгоритм устанавливает быстрый турнир между элементами , где победителем этого турнира становится элемент, который близок к (т.е. ) с вероятностью не менее . Для этого их алгоритм использует образцы из и работает за время, где .
Изучение сумм случайных величин
Изучение простых известных распределений является хорошо изученной областью, и существует множество оценок, которые можно использовать. Еще один сложный класс распределений — это распределение суммы переменных, которые следуют простым распределениям. Эти процедуры обучения тесно связаны с предельными теоремами, такими как центральная предельная теорема, поскольку они, как правило, изучают один и тот же объект, когда сумма стремится к бесконечной сумме. Недавно было получено два результата, описанных здесь, включая изучение биномиальных распределений Пуассона и изучение сумм независимых целочисленных случайных величин. Все приведенные ниже результаты справедливы при использовании расстояния общей вариации в качестве меры расстояния.
Изучение биномиального распределения Пуассона
Рассмотрим независимые случайные величины Бернулли с вероятностями успеха . Биномиальное распределение Пуассона порядка — это распределение суммы . Для обучения класса . Первый из следующих результатов касается случая неправильного обучения , а второй — правильного обучения . [5]
Теорема
Пусть тогда существует алгоритм, который при заданных , и доступе к находит такой, что . Сложность этого алгоритма равна , а время выполнения равно .
Теорема
Пусть тогда существует алгоритм, который при заданных , и доступе к находит такой, что . Сложность этого алгоритма равна , а время выполнения равно .
Одна часть приведенных выше результатов заключается в том, что сложность выборки алгоритма обучения не зависит от , хотя описание линейно по . Кроме того, второй результат почти оптимален относительно сложности выборки, поскольку также существует нижняя граница .
Доказательство использует небольшое покрытие , созданное Даскалакисом и Пападимитриу [6] для получения этого алгоритма.
Изучение сумм независимых целочисленных случайных величин
Рассмотрим независимые случайные величины, каждая из которых следует произвольному распределению с носителем . Сумма независимых целочисленных случайных величин порядка есть распределение суммы . Для изучения класса
есть следующий результат
Теорема
Пусть тогда есть алгоритм, для которого задано , и доступ к находит такое, что . Сложность этого алгоритма равна , а время выполнения также равно .
Другая часть заключается в том, что выборка и временная сложность не зависят от . Можно сделать вывод об этой независимости для предыдущего раздела, если мы установим . [7]
Изучение смесей гауссианов
Пусть случайные величины и . Определим случайную величину , которая принимает то же значение, что и с вероятностью , и то же значение, что и с вероятностью . Тогда если есть плотность и есть плотность плотности есть . В этом случае говорят, что следует смеси гауссианов. Пирсон [8] был первым, кто ввел понятие смесей гауссианов в своей попытке объяснить распределение вероятностей, из которого он получил те же данные, которые он хотел проанализировать. Поэтому, выполнив множество вычислений вручную, он, наконец, подогнал свои данные к смеси гауссианов. Задача обучения в этом случае состоит в определении параметров смеси .
Первая попытка решить эту проблему была сделана Дасгуптой. [9] В этой работе Дасгупта предполагает, что два средних значения гауссианов достаточно далеки друг от друга. Это означает, что существует нижняя граница расстояния . Используя это предположение, Дасгупта и многие ученые после него смогли узнать параметры смеси. Процедура обучения начинается с кластеризации образцов в два разных кластера, минимизирующих некоторую метрику. Используя предположение, что средние значения гауссианов далеки друг от друга с высокой вероятностью, образцы в первом кластере соответствуют образцам из первого гауссиана, а образцы во втором кластере — образцам из второго. Теперь, когда образцы разделены, можно вычислить с помощью простых статистических оценок и путем сравнения величины кластеров.
Если — множество всех смесей двух гауссианов, то с помощью вышеописанной процедуры можно доказать теоремы, подобные следующей.
Теорема [9]
Пусть с , где и наибольшее собственное значение , тогда существует алгоритм, который при , и доступе к находит приближение параметров, такое что (соответственно для и . Сложность этого алгоритма равна , а время выполнения равно .
Вышеуказанный результат можно также обобщить на смесь гауссианов. [9]
Для случая смеси двух гауссианов существуют результаты обучения без предположения о расстоянии между их средними значениями, как в следующем случае, где в качестве меры расстояния используется расстояние общей вариации.
Теорема [10]
Пусть тогда есть алгоритм, которому дано , и доступ к находит такое, что если , где то . Сложность образца и время выполнения этого алгоритма равны .
Расстояние между и не влияет на качество результата алгоритма, а только на сложность выборки и время выполнения. [9] [10]
Ссылки
- ^ Л. Валиант Теория обучаемого. Сообщения ACM, 1984
- ^ Лоренцо Росаско, Томазо Поджио, «Регуляризация машинного обучения — заметки лекций MIT-9.520», рукопись, декабрь 2014 г. [2]
- ^ C. Daskalakis, G. Kamath Более быстрые и выборочные почти оптимальные алгоритмы для правильных обучающих смесей гауссианов . Ежегодная конференция по теории обучения, 2014 [3]
- ^ C. Daskalakis, I. Diakonikolas, R. Servedio Learning Poisson Binomial Distributions . Симпозиум ACM по теории вычислений, 2012 [4]
- ^ C. Daskalakis, C. Papadimitriou Sparse Covers for Sums of Indicators . Теория вероятностей и смежные области, 2014 [5]
- ^ C. Daskalakis, I. Diakonikolas, R. O'Donnell, R. Servedio, L. Tan Learning Sums of Independent Integer Random Variables . Симпозиум IEEE по основам компьютерной науки, 2013 [6]
- ^ Вклад К. Пирсона в математическую теорию эволюции . Философские труды Королевского общества в Лондоне, 1894 [7]
- ^ abcd S. Dasgupta Learning Mixtures of Gaussians . Симпозиум IEEE по основам компьютерной науки, 1999 [8]
- ^ ab A. Kalai, A. Moitra, G. Valiant Эффективное обучение смесям двух гауссианов Симпозиум ACM по теории вычислений, 2010 [9]