Часть серии статей о |
Машинное обучение и интеллектуальный анализ данных |
---|
В теории вычислительного обучения вероятно приблизительно правильное ( PAC ) обучение является основой для математического анализа машинного обучения . Оно было предложено в 1984 году Лесли Валиантом . [1]
В этой структуре обучающийся получает образцы и должен выбрать функцию обобщения (называемую гипотезой ) из определенного класса возможных функций. Цель состоит в том, что с высокой вероятностью (часть «вероятно») выбранная функция будет иметь низкую ошибку обобщения (часть «приблизительно правильно»). Обучающийся должен быть в состоянии изучить концепцию, учитывая любое произвольное отношение аппроксимации, вероятность успеха или распределение образцов .
Позднее модель была расширена для обработки шума (неправильно классифицированных образцов).
Важным нововведением фреймворка PAC является введение концепций теории вычислительной сложности в машинное обучение. В частности, от обучающегося ожидается нахождение эффективных функций (требования времени и пространства, ограниченные полиномом размера примера), а сам обучающийся должен реализовать эффективную процедуру (требующую количества примеров, ограниченного полиномом размера концепции, измененного с помощью аппроксимации и границ правдоподобия ).
Чтобы дать определение тому, что можно изучить с помощью PAC, нам сначала нужно ввести некоторую терминологию. [2]
Для следующих определений будут использоваться два примера. Первый — это проблема распознавания символов , заданная массивом битов, кодирующих двоичное изображение. Другой пример — это проблема нахождения интервала, который будет правильно классифицировать точки внутри интервала как положительные, а точки за пределами диапазона — как отрицательные.
Пусть будет набором, называемым пространством экземпляров или кодированием всех образцов. В задаче распознавания символов пространство экземпляров — это . В задаче интервала пространство экземпляров — это множество всех ограниченных интервалов в , где обозначает множество всех действительных чисел .
Понятие — это подмножество . Одно понятие — это множество всех шаблонов битов, в которых закодировано изображение буквы «P». Примером понятия из второго примера является множество открытых интервалов, , каждый из которых содержит только положительные точки. Класс понятий — это коллекция понятий над . Это может быть множество всех подмножеств массива битов, которые скелетонированы 4-связно (ширина шрифта равна 1).
Пусть будет процедурой, которая рисует пример , используя распределение вероятностей и дает правильную метку , то есть 1, если и 0 в противном случае.
Теперь, учитывая , предположим, что существует алгоритм и полином в (и другие соответствующие параметры класса ), такие, что, учитывая выборку размера, составленную в соответствии с , то с вероятностью не менее , выводит гипотезу , которая имеет среднюю ошибку, меньшую или равную на с тем же распределением . Далее, если приведенное выше утверждение для алгоритма верно для каждой концепции и для каждого распределения по , и для всех , то (эффективно) PAC-обучаемый (или PAC-обучаемый без распределения ). Мы также можем сказать, что является алгоритмом обучения PAC для .
При некоторых условиях регулярности эти условия эквивалентны: [3]