Полуопределенное вложение

Развертка максимальной дисперсии (MVU) , также известная как полуопределенное вложение (SDE), — это алгоритм в информатике , который использует полуопределенное программирование для выполнения нелинейного снижения размерности многомерных векторных входных данных. ^[1]^[2]^[3]

Это мотивировано наблюдением, что ядерный компонентный анализ (kPCA) не снижает размерность данных ^[4] , поскольку он использует прием ядра для нелинейного отображения исходных данных в пространство внутреннего продукта .

Алгоритм

MVU создает отображение из входных векторов высокой размерности в некоторое евклидово векторное пространство низкой размерности за следующие шаги: ^[5]

Создается граф соседства . Каждый вход соединен с его k-ближайшими входными векторами (согласно евклидовой метрике расстояния), и все k-ближайшие соседи соединены друг с другом. Если данные достаточно хорошо отобраны, то полученный граф является дискретным приближением базового многообразия.
Граф соседства «разворачивается» с помощью полуопределенного программирования. Вместо того, чтобы изучать выходные векторы напрямую, полуопределенное программирование стремится найти матрицу внутреннего произведения, которая максимизирует попарные расстояния между любыми двумя входами, которые не связаны в графе соседства, сохраняя при этом расстояния до ближайших соседей.
Низкоразмерное вложение в конечном итоге получается путем применения многомерного масштабирования к изученной матрице внутреннего произведения.

Шаги применения полуопределенного программирования с последующим шагом линейного снижения размерности для восстановления низкоразмерного вложения в евклидово пространство были впервые предложены Линиалом , Лондоном и Рабиновичем. ^[6]

Формулировка оптимизации

Пусть будет исходным входом, а будет вложением. Если есть два соседа, то локальное изометрическое ограничение, которое должно быть удовлетворено, равно: ^[7]^[8]^[9] $X\,\!$ $Y\,\!$ $я,j\,\!$

|X_{i}-X_{j}|^{2}=|Y_{i}-Y_{j}|^{2}\,\!

Пусть будут матрицами Грама и (т.е.: ). Мы можем выразить указанное выше ограничение для каждой соседней точки в терминах : ^[10]^[11] $Г,К\,\!$ $X\,\!$ $Y\,\!$ $G_{ij}=X_{i}\cdot X_{j},K_{ij}=Y_{i}\cdot Y_{j}\,\!$ $я,j\,\!$ $Г,К\,\!$

G_{ii}+G_{jj}-G_{ij}-G_{ji}=K_{ii}+K_{jj}-K_{ij}-K_{ji}\,\!

Кроме того, мы также хотим ограничить встраивание центром в начале координат: ^[12]^[13]^[14] $Y\,\!$

$0=|\sum _{i}Y_{i}|^{2}\Leftrightarrow (\sum _{i}Y_{i})\cdot (\sum _{i}Y_{i})\Leftrightarrow \sum _{i,j}Y_{i}\cdot Y_{j}\Leftrightarrow \sum _{i,j}K_{ij}$

Как описано выше, за исключением того, что расстояния соседних точек сохраняются, алгоритм стремится максимизировать попарное расстояние каждой пары точек. Целевая функция, которая должна быть максимизирована, это: ^[15]^[16]^[17]

$T(Y)={\dfrac {1}{2N}}\sum _{i,j}|Y_{i}-Y_{j}|^{2}$

Интуитивно, максимизация функции выше эквивалентна вытягиванию точек как можно дальше друг от друга и, следовательно, «разворачиванию» многообразия. Ограничение локальной изометрии ^[18]

Пусть где $\tau =max\{\eta _{ij}|Y_{i}-Y_{j}|^{2}\}\,\!$ $\eta _{ij}:={\begin{cases}1&{\mbox{if}}\ i{\mbox{ является соседом }}j\\0&{\mbox{internally}}.\end{cases}}$

предотвращает расхождение целевой функции (стремление к бесконечности).

Поскольку график имеет N точек, расстояние между любыми двумя точками . Тогда мы можем ограничить целевую функцию следующим образом: ^[19]^[20] $|Y_{i}-Y_{j}|^{2}\leq N\tau \,\!$

T(Y)={\dfrac {1}{2N}}\sum _{i,j}|Y_{i}-Y_{j}|^{2}\leq {\dfrac {1}{ 2N}}\sum _{i,j}(N\tau )^{2}={\dfrac {N^{3}\tau ^{2}}{2}}\,\!

Целевую функцию можно переписать исключительно в виде матрицы Грама: ^[21]^[22]^[23]

{\begin{aligned}T(Y)&{}={\dfrac {1}{2N}}\sum _{i,j}|Y_{i}-Y_{j}|^{2}\\&{}={\dfrac {1}{2N}}\sum _{i,j}(Y_{i}^{2}+Y_{j}^{2}-Y_{i}\cdot Y_{j}-Y_{j}\cdot Y_{i})\\&{}={\dfrac {1}{2N}}(\sum _{i,j}Y_{i}^{2}+\sum _{i,j}Y_{j}^{2}-\sum _{i,j}Y_{i}\cdot Y_{j}-\sum _{i,j}Y_{j}\cdot Y_{i})\\&{}={\dfrac {1}{2N}}(\sum _{i,j}Y_{i}^{2}+\sum _{i,j}Y_{j}^{2}-0-0)\\&{}={\dfrac {1}{N}}(\sum _{i}Y_{i}^{2})={\dfrac {1}{N}}(Tr(K))\\\end{aligned}}\,\!

Наконец, оптимизацию можно сформулировать следующим образом: ^[24]^[25]^[26]

${\begin{aligned}&{\text{Maximize}}&&Tr(\mathbf {K} )\\&{\text{subject to}}&&\mathbf {K} \succeq 0,\sum _{ij}\mathbf {K} _{ij}=0\\&{\text{and}}&&G_{ii}+G_{jj}-G_{ij}-G_{ji}=K_{ii}+K_{jj}-K_{ij}-K_{ji},\forall i,j{\mbox{ where }}\eta _{ij}=1,\end{aligned}}$

После того, как матрица Грама изучена с помощью полуопределенного программирования, выходные данные можно получить с помощью разложения Холецкого . $K\,\!$ $Y\,\!$

В частности, матрицу Грама можно записать как , где — i-й элемент собственного вектора собственного значения . ^[27]^[28] $K_{ij}=\sum _{\alpha =1}^{N}(\lambda _{\alpha }V_{\alpha i}V_{\alpha j})\,\!$ $V_{\alpha i}\,\!$ $V_{\alpha }\,\!$ $\lambda _{\alpha }\,\!$

Из этого следует, что -й элемент вывода равен . ^[29]^[30] $\alpha \,\!$ $Y_{i}\,\!$ ${\sqrt {\lambda _{\alpha }}}V_{\alpha i}\,\!$

Смотрите также

Примечания

^ Вайнбергер, Ша и Саул 2004a
^ Вайнбергер и Сол 2004b
^ Вайнбергер и Сол 2006
^ Лоуренс 2012, стр. 1612
^ Вайнбергер, Ша и Саул 2004a, стр. 7.
^ Линиал, Лондон и Рабинович 1995
^ Вайнбергер, Ша и Саул 2004a, стр. 3, уравнение 8
^ Вайнбергер и Саул 2004b, стр. 3, уравнение 2
^ Вайнбергер и Саул 2006, стр. 4, уравнение 2
^ Вайнбергер, Ша и Саул 2004a, стр. 3, уравнение 9
^ Вайнбергер и Саул 2004b, стр. 3, уравнение 3
^ Вайнбергер, Ша и Саул 2004a, стр. 3, уравнение 6
^ Вайнбергер и Саул 2004b, стр. 3, уравнение 5
^ Вайнбергер и Саул 2006, стр. 5, уравнение 8
^ Вайнбергер, Ша и Саул 2004a, стр. 4, уравнение 10
^ Вайнбергер и Саул 2004b, стр. 4, уравнение 6
^ Вайнбергер и Саул 2006, стр. 5, уравнение 4
^ Вайнбергер и Саул 2004b, стр. 4, уравнение 7
^ Вайнбергер и Саул 2004b, стр. 4, уравнение 8
^ Вайнбергер и Саул 2006, стр. 5, уравнение 6
^ Вайнбергер, Ша и Саул 2004a, стр. 4, уравнение 11
^ Вайнбергер и Саул 2004b, стр. 4, уравнение 9
^ Вайнбергер и Саул 2006, стр. 6, уравнения 10–13
^ Вайнбергер, Ша и Саул 2004a, стр. 4, раздел 3.3
^ Вайнбергер и Саул 2004b, стр. 4, уравнение 9
^ Вайнбергер и Саул 2006, стр. 6, уравнения 10–13
^ Вайнбергер и Саул 2004b, стр. 4, уравнение 10
^ Вайнбергер и Саул 2006, стр. 7, уравнения 14
^ Вайнбергер и Саул 2004b, стр. 4, уравнение 11
^ Вайнбергер и Саул 2006, стр. 7, уравнения 15

Ссылки

Линиал, Лондон и Рабинович, Натан, Эран и Юрий (1995). «Геометрия графов и некоторые ее алгоритмические приложения». Combinatorica . 15 (2): 215– 245. doi :10.1007/BF01200757. S2CID 5071936.{{cite journal}}: CS1 maint: multiple names: authors list (link)
Вайнбергер, Ша и Саул, Килиан К., Фей и Лоуренс К. (4 июля 2004a). Изучение матрицы ядра для нелинейного снижения размерности. Труды Двадцать первой международной конференции по машинному обучению (ICML 2004). Банф, Альберта , Канада.{{cite conference}}: CS1 maint: multiple names: authors list (link)
Вайнбергер и Сол, Килиан К. и Лоуренс К. (27 июня 2004 г.). Неконтролируемое обучение многообразий изображений с помощью полуопределенного программирования. Конференция компьютерного общества IEEE 2004 года по компьютерному зрению и распознаванию образов. Том 2.
Вайнбергер и Сол, Килиан К. и Лоуренс К. (1 мая 2006 г.). "Неконтролируемое обучение многообразий изображений с помощью полуопределенного программирования" (PDF) . International Journal of Computer Vision . 70 : 77–90 . doi :10.1007/s11263-005-4939-z. S2CID 291166.
Лоуренс, Нил Д. (2012). «Унифицированная вероятностная перспектива снижения спектральной размерности: идеи и новые модели». Журнал исследований машинного обучения . 13 (май): 1612. arXiv : 1010.4830 . Bibcode : 2010arXiv1010.4830L.

Дополнительный материал

Код MVU Matlab Килиана К. Вайнбергера

[1] Вайнбергер, Ша и Саул 2004a

[2] Вайнбергер и Сол 2004b

[3] Вайнбергер и Сол 2006

[4] Лоуренс 2012, стр. 1612

[5] Вайнбергер, Ша и Саул 2004a, стр. 7.

[6] Линиал, Лондон и Рабинович 1995

[7] Вайнбергер, Ша и Саул 2004a, стр. 3, уравнение 8

[8] Вайнбергер и Саул 2004b, стр. 3, уравнение 2

[9] Вайнбергер и Саул 2006, стр. 4, уравнение 2

[10] Вайнбергер, Ша и Саул 2004a, стр. 3, уравнение 9

[11] Вайнбергер и Саул 2004b, стр. 3, уравнение 3

[12] Вайнбергер, Ша и Саул 2004a, стр. 3, уравнение 6

[13] Вайнбергер и Саул 2004b, стр. 3, уравнение 5

[14] Вайнбергер и Саул 2006, стр. 5, уравнение 8

[15] Вайнбергер, Ша и Саул 2004a, стр. 4, уравнение 10

[16] Вайнбергер и Саул 2004b, стр. 4, уравнение 6

[17] Вайнбергер и Саул 2006, стр. 5, уравнение 4

[18] Вайнбергер и Саул 2004b, стр. 4, уравнение 7

[19] Вайнбергер и Саул 2004b, стр. 4, уравнение 8

[20] Вайнбергер и Саул 2006, стр. 5, уравнение 6

[21] Вайнбергер, Ша и Саул 2004a, стр. 4, уравнение 11

[22] Вайнбергер и Саул 2004b, стр. 4, уравнение 9

[23] Вайнбергер и Саул 2006, стр. 6, уравнения 10–13

[24] Вайнбергер, Ша и Саул 2004a, стр. 4, раздел 3.3

[25] Вайнбергер и Саул 2004b, стр. 4, уравнение 9

[26] Вайнбергер и Саул 2006, стр. 6, уравнения 10–13

[27] Вайнбергер и Саул 2004b, стр. 4, уравнение 10

[28] Вайнбергер и Саул 2006, стр. 7, уравнения 14

[29] Вайнбергер и Саул 2004b, стр. 4, уравнение 11

[30] Вайнбергер и Саул 2006, стр. 7, уравнения 15