В этой статье есть несколько проблем. Помогите улучшить ее или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти сообщения )
|
В математике и статистике случайная проекция — это метод, используемый для уменьшения размерности множества точек, лежащих в евклидовом пространстве . Согласно теоретическим результатам, случайная проекция хорошо сохраняет расстояния, но эмпирические результаты разрежены. [1] Они были применены ко многим задачам естественного языка под названием случайная индексация .
Снижение размерности, как следует из названия, — это уменьшение количества случайных величин с использованием различных математических методов из статистики и машинного обучения. Снижение размерности часто используется для уменьшения проблемы управления и манипулирования большими наборами данных. Методы снижения размерности обычно используют линейные преобразования для определения внутренней размерности многообразия, а также для извлечения его главных направлений. Для этой цели существуют различные связанные методы, включая: анализ главных компонентов , линейный дискриминантный анализ , канонический корреляционный анализ , дискретное косинусное преобразование , случайное проецирование и т. д.
Случайная проекция — это простой и вычислительно эффективный способ уменьшить размерность данных, жертвуя контролируемым количеством ошибок ради более быстрого времени обработки и меньших размеров модели. Размеры и распределение случайных проекционных матриц контролируются таким образом, чтобы приблизительно сохранять парные расстояния между любыми двумя образцами набора данных.
Основная идея случайной проекции изложена в лемме Джонсона-Линденштрауса [2] , которая гласит, что если точки в векторном пространстве имеют достаточно высокую размерность, то их можно спроецировать в подходящее пространство меньшей размерности таким образом, чтобы с высокой вероятностью приблизительно сохранить попарные расстояния между точками.
В случайном проецировании исходные d-мерные данные проецируются в k-мерное (k << d) подпространство с использованием случайной -мерной матрицы R, столбцы которой имеют единичную длину. [ требуется ссылка ] Использование матричной нотации: Если - исходный набор из N d-мерных наблюдений, то - проекция данных на меньшее k-мерное подпространство. Случайное проецирование вычислительно просто: формируем случайную матрицу "R" и проецируем матрицу данных X на K измерений порядка . Если матрица данных X разрежена с примерно c ненулевыми элементами на столбец, то сложность этой операции имеет порядок . [3]
Случайная матрица R может быть сгенерирована с использованием гауссовского распределения. Первая строка — это случайный единичный вектор, равномерно выбранный из . Вторая строка — это случайный единичный вектор из пространства, ортогонального первой строке, третья строка — это случайный единичный вектор из пространства, ортогонального первым двум строкам, и т. д. При таком выборе R выполняются следующие свойства:
Ахлиоптас [4] показал, что распределение Гаусса можно заменить гораздо более простым распределением, таким как
Это эффективно для приложений баз данных, поскольку вычисления могут быть выполнены с использованием целочисленной арифметики. Более соответствующее исследование проводится в [5] .
Позже в работе над разреженным преобразованием JL было показано, как использовать целочисленную арифметику, делая распределение еще более разреженным, имея очень мало ненулевых значений на столбец. [6] Это выгодно, поскольку разреженная матрица вложения означает возможность проецировать данные на более низкую размерность еще быстрее.
Случайная проекция может быть дополнительно сжата квантованием (дискретизацией) с 1-битным (случайная проекция знака) или многобитным. Это строительный блок SimHash, [7] RP-дерева, [8] и других методов оценки и обучения с эффективным использованием памяти. [9] [10]
Лемма Джонсона -Линденштрауса утверждает, что большие наборы векторов в многомерном пространстве могут быть линейно отображены в пространстве гораздо меньшей (но все еще высокой) размерности n с приблизительным сохранением расстояний. Одним из объяснений этого эффекта является экспоненциально высокая квазиортогональная размерность n -мерного евклидова пространства . [11] Существуют экспоненциально большие (в размерности n ) наборы почти ортогональных векторов (с малым значением скалярных произведений ) в n -мерном евклидовом пространстве. Это наблюдение полезно при индексировании многомерных данных. [12]
Квазиортогональность больших случайных множеств важна для методов случайной аппроксимации в машинном обучении . В больших размерностях экспоненциально большое количество случайно и независимо выбранных векторов из равнораспределения на сфере (и из многих других распределений) почти ортогональны с вероятностью, близкой к единице. [13] Это означает, что для того, чтобы представить элемент такого многомерного пространства линейными комбинациями случайно и независимо выбранных векторов, часто может потребоваться сгенерировать выборки экспоненциально большой длины, если мы используем ограниченные коэффициенты в линейных комбинациях. С другой стороны, если допускаются коэффициенты с произвольно большими значениями, количество случайно сгенерированных элементов, достаточных для аппроксимации, даже меньше размерности пространства данных.