Случайная проекция

Метод понижения размерности точек в евклидовом пространстве

В математике и статистике случайная проекция — это метод, используемый для уменьшения размерности множества точек, лежащих в евклидовом пространстве . Согласно теоретическим результатам, случайная проекция хорошо сохраняет расстояния, но эмпирические результаты разрежены. ^[1] Они были применены ко многим задачам естественного языка под названием случайная индексация .

Уменьшение размерности

Снижение размерности, как следует из названия, — это уменьшение количества случайных величин с использованием различных математических методов из статистики и машинного обучения. Снижение размерности часто используется для уменьшения проблемы управления и манипулирования большими наборами данных. Методы снижения размерности обычно используют линейные преобразования для определения внутренней размерности многообразия, а также для извлечения его главных направлений. Для этой цели существуют различные связанные методы, включая: анализ главных компонентов , линейный дискриминантный анализ , канонический корреляционный анализ , дискретное косинусное преобразование , случайное проецирование и т. д.

Случайная проекция — это простой и вычислительно эффективный способ уменьшить размерность данных, жертвуя контролируемым количеством ошибок ради более быстрого времени обработки и меньших размеров модели. Размеры и распределение случайных проекционных матриц контролируются таким образом, чтобы приблизительно сохранять парные расстояния между любыми двумя образцами набора данных.

Метод

Основная идея случайной проекции изложена в лемме Джонсона-Линденштрауса ^[2] , которая гласит, что если точки в векторном пространстве имеют достаточно высокую размерность, то их можно спроецировать в подходящее пространство меньшей размерности таким образом, чтобы с высокой вероятностью приблизительно сохранить попарные расстояния между точками.

В случайном проецировании исходные d-мерные данные проецируются в k-мерное (k << d) подпространство с использованием случайной -мерной матрицы R, столбцы которой имеют единичную длину. ^[^{требуется ссылка}^] Использование матричной нотации: Если - исходный набор из N d-мерных наблюдений, то - проекция данных на меньшее k-мерное подпространство. Случайное проецирование вычислительно просто: формируем случайную матрицу "R" и проецируем матрицу данных X на K измерений порядка . Если матрица данных X разрежена с примерно c ненулевыми элементами на столбец, то сложность этой операции имеет порядок . ^[3] $k\times d$ $X_{d\times N}$ $X_{k\times N}^{RP}=R_{k\times d}X_{d\times N}$ $d\times N$ $O(dkN)$ $O(ckN)$

Гауссова случайная проекция

Случайная матрица R может быть сгенерирована с использованием гауссовского распределения. Первая строка — это случайный единичный вектор, равномерно выбранный из . Вторая строка — это случайный единичный вектор из пространства, ортогонального первой строке, третья строка — это случайный единичный вектор из пространства, ортогонального первым двум строкам, и т. д. При таком выборе R выполняются следующие свойства: $S^{d-1}$

Сферическая симметрия: Для любой ортогональной матрицы RA и R имеют одинаковое распределение. $A\in O(d)$
Ортогональность: Строки матрицы R ортогональны друг другу.
Нормальность: строки R представляют собой векторы единичной длины.

Более эффективные с вычислительной точки зрения случайные проекции

Ахлиоптас ^[4] показал, что распределение Гаусса можно заменить гораздо более простым распределением, таким как

R_{i,j}={\sqrt {3}}\times {\begin{cases}+1&{\text{с вероятностью }}{\frac {1}{6}}\\0&{\text{с вероятностью }}{\frac {2}{3}}\\-1&{\text{с вероятностью }}{\frac {1}{6}}\end{cases}}

Это эффективно для приложений баз данных, поскольку вычисления могут быть выполнены с использованием целочисленной арифметики. Более соответствующее исследование проводится в ^{[5] .}

Позже в работе над разреженным преобразованием JL было показано, как использовать целочисленную арифметику, делая распределение еще более разреженным, имея очень мало ненулевых значений на столбец. ^[6] Это выгодно, поскольку разреженная матрица вложения означает возможность проецировать данные на более низкую размерность еще быстрее.

Случайная проекция с квантованием

Случайная проекция может быть дополнительно сжата квантованием (дискретизацией) с 1-битным (случайная проекция знака) или многобитным. Это строительный блок SimHash, ^[7] RP-дерева, ^[8] и других методов оценки и обучения с эффективным использованием памяти. ^[9]^[10]

Большой квазиортогональныйбазы

Лемма Джонсона -Линденштрауса утверждает, что большие наборы векторов в многомерном пространстве могут быть линейно отображены в пространстве гораздо меньшей (но все еще высокой) размерности n с приблизительным сохранением расстояний. Одним из объяснений этого эффекта является экспоненциально высокая квазиортогональная размерность n -мерного евклидова пространства . ^[11] Существуют экспоненциально большие (в размерности n ) наборы почти ортогональных векторов (с малым значением скалярных произведений ) в n -мерном евклидовом пространстве. Это наблюдение полезно при индексировании многомерных данных. ^[12]

Квазиортогональность больших случайных множеств важна для методов случайной аппроксимации в машинном обучении . В больших размерностях экспоненциально большое количество случайно и независимо выбранных векторов из равнораспределения на сфере (и из многих других распределений) почти ортогональны с вероятностью, близкой к единице. ^[13] Это означает, что для того, чтобы представить элемент такого многомерного пространства линейными комбинациями случайно и независимо выбранных векторов, часто может потребоваться сгенерировать выборки экспоненциально большой длины, если мы используем ограниченные коэффициенты в линейных комбинациях. С другой стороны, если допускаются коэффициенты с произвольно большими значениями, количество случайно сгенерированных элементов, достаточных для аппроксимации, даже меньше размерности пространства данных.

Реализации

RandPro — пакет R для случайного проецирования ^[14]^[15]
sklearn.random_projection — модуль для случайного проецирования из библиотеки Python scikit-learn
Реализация Weka [1]

Смотрите также

Ссылки

^ Элла, Бингем; Хейкки, Маннила (2001). «Случайная проекция в снижении размерности: приложения к данным изображений и текстов». KDD-2001: Труды Седьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Нью-Йорк: Ассоциация вычислительной техники. С. 245–250. CiteSeerX 10.1.1.24.5135 . doi :10.1145/502512.502546.
^ Джонсон, Уильям Б .; Линденштраус, Джорам (1984). «Расширения липшицевых отображений в гильбертово пространство». Конференция по современному анализу и вероятности (Нью-Хейвен, Коннектикут, 1982) . Contemporary Mathematics. Том 26. Провиденс, Род-Айленд: Американское математическое общество. стр. 189–206. doi :10.1090/conm/026/737400. ISBN 9780821850305. MR 0737400. S2CID 117819162..
^ Бингем, Элла; Маннила, Хейкки (6 мая 2014 г.). «Случайная проекция в снижении размерности: применение к данным изображений и текста» (PDF) .
^ Ахлиоптас, Димитрис (2001). «Случайные проекции, удобные для баз данных». Труды двадцатого симпозиума ACM SIGMOD-SIGACT-SIGART по принципам систем баз данных — PODS '01 . стр. 274–281. CiteSeerX 10.1.1.28.6652 . doi :10.1145/375551.375608. ISBN 978-1581133615. S2CID 2640788.
^ Ли, Пинг; Хасти, Тревор; Чёрч, Кеннет (2006). «Очень редкие случайные проекции». Труды 12-й международной конференции ACM SIGKDD по обнаружению знаний и добыче данных . стр. 287–296. doi :10.1145/1150402.1150436. ISBN 1595933395. S2CID 7995734.
^ Кейн, Дэниел М.; Нельсон, Джелани (2014). «Преобразования Спарсера Джонсона-Линденштраусса». Журнал ACM . 61 (1): 1–23. arXiv : 1012.1577 . doi : 10.1145/2559902. MR 3167920. S2CID 7821848.
^ Чарикар, Моисей (2002). «Методы оценки сходства на основе алгоритмов округления». Труды тридцать четвертого ежегодного симпозиума ACM по теории вычислений . Том 1. С. 380–388. doi :10.1145/509907.509965. ISBN 1581134959. S2CID 4229473.
^ Фройнд, Йоав; Дасгупта, Санджой; Кабра, Маянк; Верма, Накул (2007). «Изучение структуры многообразий с использованием случайных проекций». 20-я Международная конференция по нейронным системам обработки информации . 1 (1): 473–480.
^ Буфонос, Петрос; Баранюк, Ричард (2008). «1-битное сжатие данных». 42-я ежегодная конференция по информационным наукам и системам . 1 (1): 16–21. doi :10.1109/CISS.2008.4558487. S2CID 206563812.
^ Ли, Сяоюнь; Ли, Пин (2019). «Анализ ошибок обобщения квантованного сжатого обучения». 33-я Международная конференция по нейронным системам обработки информации . 1 : 15150–15160.
^ Kainen, Paul C. ; Kůrková, Věra (1993), «Квазиортогональная размерность евклидовых пространств», Applied Mathematics Letters , 6 (3): 7–10, doi : 10.1016/0893-9659(93)90023-G , MR 1347278
^ Хехт-Нильсен, Р. (1994). «Контекстные векторы: универсальные приближенные смысловые представления, самоорганизованные из необработанных данных». В Zurada, Jacek M.; Marks, Robert Jackson; Robinson, Charles J. (ред.). Computational Intelligence: Imitating Life . IEEE. стр. 43–56. ISBN 978-0-7803-1104-6.
^ Горбань, Александр Н .; Тюкин, Иван Ю.; Прохоров, Данил В.; Софейков, Константин И. (2016). «Аппроксимация со случайными базами: Pro et Contra». Information Sciences . 364–365: 129–145. arXiv : 1506.04631 . doi :10.1016/j.ins.2015.09.021. S2CID 2239376.
^ Равиндран, Сиддхарт (2020). «Независимая от данных многоразовая проекция (DIRP) для сокращения размерности в классификации больших данных с использованием k-ближайших соседей (k-NN)». National Academy Science Letters . 43 : 13–21. doi : 10.1007/s40009-018-0771-6. S2CID 91946077.
^ Сиддхарт, Р.; Агила, Г. (июль 2020 г.). "RandPro - Практическая реализация извлечения случайных проекционных признаков для многомерного анализа многомерных данных в R". SoftwareX . 12 : 100629. Bibcode :2020SoftX..1200629S. doi : 10.1016/j.softx.2020.100629 .

Дальнейшее чтение

Фодор, Имола К (2002). Обзор методов уменьшения размерности (Отчет). CiteSeerX 10.1.1.8.5098 .
Менон, Адитья Кришна (2007). Случайные проекции и их применение к уменьшению размерности (диссертация). CiteSeerX 10.1.1.164.640 .
Рамдас, Адитья. Случайное введение в случайные проекции (отчет). CiteSeerX 10.1.1.377.2593 .

[1] Элла, Бингем; Хейкки, Маннила (2001). «Случайная проекция в снижении размерности: приложения к данным изображений и текстов». KDD-2001: Труды Седьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . Нью-Йорк: Ассоциация вычислительной техники. С. 245–250. CiteSeerX 10.1.1.24.5135 . doi :10.1145/502512.502546.

[2] Джонсон, Уильям Б .; Линденштраус, Джорам (1984). «Расширения липшицевых отображений в гильбертово пространство». Конференция по современному анализу и вероятности (Нью-Хейвен, Коннектикут, 1982) . Contemporary Mathematics. Том 26. Провиденс, Род-Айленд: Американское математическое общество. стр. 189–206. doi :10.1090/conm/026/737400. ISBN 9780821850305. MR 0737400. S2CID 117819162..

[3] Бингем, Элла; Маннила, Хейкки (6 мая 2014 г.). «Случайная проекция в снижении размерности: применение к данным изображений и текста» (PDF) .

[4] Ахлиоптас, Димитрис (2001). «Случайные проекции, удобные для баз данных». Труды двадцатого симпозиума ACM SIGMOD-SIGACT-SIGART по принципам систем баз данных — PODS '01 . стр. 274–281. CiteSeerX 10.1.1.28.6652 . doi :10.1145/375551.375608. ISBN 978-1581133615. S2CID 2640788.

[5] Ли, Пинг; Хасти, Тревор; Чёрч, Кеннет (2006). «Очень редкие случайные проекции». Труды 12-й международной конференции ACM SIGKDD по обнаружению знаний и добыче данных . стр. 287–296. doi :10.1145/1150402.1150436. ISBN 1595933395. S2CID 7995734.

[6] Кейн, Дэниел М.; Нельсон, Джелани (2014). «Преобразования Спарсера Джонсона-Линденштраусса». Журнал ACM . 61 (1): 1–23. arXiv : 1012.1577 . doi : 10.1145/2559902. MR 3167920. S2CID 7821848.

[7] Чарикар, Моисей (2002). «Методы оценки сходства на основе алгоритмов округления». Труды тридцать четвертого ежегодного симпозиума ACM по теории вычислений . Том 1. С. 380–388. doi :10.1145/509907.509965. ISBN 1581134959. S2CID 4229473.

[8] Фройнд, Йоав; Дасгупта, Санджой; Кабра, Маянк; Верма, Накул (2007). «Изучение структуры многообразий с использованием случайных проекций». 20-я Международная конференция по нейронным системам обработки информации . 1 (1): 473–480.

[9] Буфонос, Петрос; Баранюк, Ричард (2008). «1-битное сжатие данных». 42-я ежегодная конференция по информационным наукам и системам . 1 (1): 16–21. doi :10.1109/CISS.2008.4558487. S2CID 206563812.

[10] Ли, Сяоюнь; Ли, Пин (2019). «Анализ ошибок обобщения квантованного сжатого обучения». 33-я Международная конференция по нейронным системам обработки информации . 1 : 15150–15160.

[11] Kainen, Paul C. ; Kůrková, Věra (1993), «Квазиортогональная размерность евклидовых пространств», Applied Mathematics Letters , 6 (3): 7–10, doi : 10.1016/0893-9659(93)90023-G , MR 1347278

[12] Хехт-Нильсен, Р. (1994). «Контекстные векторы: универсальные приближенные смысловые представления, самоорганизованные из необработанных данных». В Zurada, Jacek M.; Marks, Robert Jackson; Robinson, Charles J. (ред.). Computational Intelligence: Imitating Life . IEEE. стр. 43–56. ISBN 978-0-7803-1104-6.

[GorbanTyukin2016-13] Горбань, Александр Н .; Тюкин, Иван Ю.; Прохоров, Данил В.; Софейков, Константин И. (2016). «Аппроксимация со случайными базами: Pro et Contra». Information Sciences . 364–365: 129–145. arXiv : 1506.04631 . doi :10.1016/j.ins.2015.09.021. S2CID 2239376.

[14] Равиндран, Сиддхарт (2020). «Независимая от данных многоразовая проекция (DIRP) для сокращения размерности в классификации больших данных с использованием k-ближайших соседей (k-NN)». National Academy Science Letters . 43 : 13–21. doi : 10.1007/s40009-018-0771-6. S2CID 91946077.

[15] Сиддхарт, Р.; Агила, Г. (июль 2020 г.). "RandPro - Практическая реализация извлечения случайных проекционных признаков для многомерного анализа многомерных данных в R". SoftwareX . 12 : 100629. Bibcode :2020SoftX..1200629S. doi : 10.1016/j.softx.2020.100629 .