Низкоранговые матричные аппроксимации являются важными инструментами в применении ядерных методов к масштабным задачам обучения. [1]
Методы ядра (например, машины опорных векторов или гауссовские процессы [2] ) проецируют точки данных в многомерное или бесконечномерное пространство признаков и находят оптимальную гиперплоскость разделения. В методе ядра данные представлены в матрице ядра (или матрице Грама ). Многие алгоритмы могут решать задачи машинного обучения с использованием матрицы ядра. Основная проблема метода ядра заключается в его высокой вычислительной стоимости , связанной с матрицами ядра . Стоимость является по крайней мере квадратичной по числу точек обучающих данных, но большинство методов ядра включают вычисление инверсии матрицы или разложения собственных значений , и стоимость становится кубической по числу обучающих данных. Большие обучающие наборы приводят к большим затратам на хранение и вычисления . Хотя методы разложения низкого ранга ( разложение Холецкого ) снижают эту стоимость, они все равно требуют вычисления матрицы ядра. Одним из подходов к решению этой проблемы являются аппроксимации матриц низкого ранга. Наиболее популярными примерами из них являются методы аппроксимации Нистрёма и рандомизированных карт признаков . Оба они успешно применяются для эффективного обучения ядра.
Методы ядра становятся вычислительно неосуществимыми, когда количество точек настолько велико, что матрицу ядра невозможно сохранить в памяти.
Если — число обучающих примеров, то затраты на хранение и вычисление, необходимые для нахождения решения задачи с использованием общего метода ядра , составляют и соответственно. Аппроксимация Нистрёма может позволить значительно ускорить вычисления. [2] [3] Это ускорение достигается за счет использования вместо матрицы ядра ее аппроксимации ранга . Преимущество метода заключается в том, что нет необходимости вычислять или хранить всю матрицу ядра, а только подматрицу размера .
Это снижает требования к хранению и сложности до и соответственно.
Метод назван «приближением Нистрёма», поскольку его можно интерпретировать как случай метода Нистрёма из теории интегральных уравнений . [3]
[1] [4] : 357 [5]
Рассмотрим положительно-определенную функцию ядра . Имея некоторые точки данных , мы можем сформировать матрицу ядра, такую что .
Теперь, пусть будет целым числом, тогда мы можем разделить матрицу ядра как , где — верхний левый угол. Также, установите, чтобы быть ее первыми столбцами.
Приближение Нистрёма в этом случае равно , где — псевдообратная матрица Мура–Пенроуза для , которая должна существовать, поскольку является положительно полуопределенной.
По теореме Мерсера мы можем разложить матрицу ядра как матрицу Грама : , где . Пусть — левые столбцы .
Теорема — Мы имеем
1. Верхний левый угол — по предложению о псевдообратном: .
Возьмем SVD , где полные квадраты, и имеет форму . Теперь оценим методом грубой силы верхний правый угол, который дает Count диагональных элементов, и увидим, что сигма-кластер оценивается как .
2. Из первых двух требований мы знаем, что . Из предыдущего расчета мы знаем, что , поэтому можем записать . Третье требование тогда подразумевает .
3. Оцените непосредственно в матричных блоках и получите
Возьмем SVD , где — полные квадраты, и имеет форму . Теперь оценим, где — матрица формы . Она диагональная. Ее первые элементы — 1, а остальные — 0.
Таким образом, является ортогональной проекцией на первые столбцы .
(4) является следствием (3). (5) является следствием (2)
В векторной и ядерной нотации задачу регуляризованных наименьших квадратов можно переписать следующим образом: Вычислив градиент и установив его равным 0, можно получить минимум: Обратную матрицу можно вычислить с использованием тождества матрицы Вудбери : Она имеет желаемые требования к хранению и сложности.
Пусть – выборки данных, – рандомизированная карта признаков (отображает один вектор в вектор более высокой размерности) так, что внутреннее произведение между парой преобразованных точек приближается к их ядерной оценке:
где отображение встроено в ядро RBF .
Поскольку имеет низкую размерность, входные данные можно легко преобразовать с помощью , после чего можно применять различные методы линейного обучения для аппроксимации ответа соответствующего нелинейного ядра. Существуют различные рандомизированные карты признаков для вычисления аппроксимаций ядер RBF. Например, случайные признаки Фурье и случайные признаки биннинга .
Карта случайных признаков Фурье производит аппроксимацию Монте-Карло к карте признаков. Метод Монте-Карло считается рандомизированным. Эти случайные признаки состоят из синусоид, случайно взятых из преобразования Фурье ядра , которое должно быть аппроксимировано, где и являются случайными величинами . Линия выбирается случайным образом, затем точки данных проецируются на нее с помощью отображений. Результирующий скаляр пропускается через синусоиду. Произведение преобразованных точек будет аппроксимировать инвариантное к сдвигу ядро. Поскольку карта гладкая, случайные признаки Фурье хорошо работают в задачах интерполяции.
Случайная карта бининга разделяет входное пространство с помощью случайно сдвинутых сеток со случайно выбранными разрешениями и назначает входной точке двоичную битовую строку, которая соответствует ячейкам, в которые она попадает. Сетки построены таким образом, что вероятность того, что две точки назначены одной и той же ячейке, пропорциональна . Внутренний продукт между парой преобразованных точек пропорционален количеству раз, когда две точки объединяются вместе, и, следовательно, является несмещенной оценкой . Поскольку это отображение не является гладким и использует близость между входными точками, случайные функции бининга хорошо подходят для аппроксимации ядер, которые зависят только от расстояния между точками данных.
Подходы к крупномасштабному ядерному обучению ( метод Нистрёма и случайные признаки) отличаются тем, что метод Нистрёма использует базисные функции, зависящие от данных, тогда как в подходе случайных признаков базисные функции выбираются из распределения, независимого от обучающих данных. Это различие приводит к улучшенному анализу для подходов к ядерному обучению, основанных на методе Нистрёма. Когда в собственном спектре матрицы ядра имеется большой разрыв , подходы, основанные на методе Нистрёма, могут достичь лучших результатов, чем подход, основанный на случайных признаках. [6]