Встраивание данных в многообразие на основе функции подобия
Скрытое пространство , также известное как скрытое пространство признаков или пространство вложения , представляет собой вложение набора элементов в многообразие , в котором элементы, похожие друг на друга, располагаются ближе друг к другу. Положение в скрытом пространстве можно рассматривать как определяемое набором скрытых переменных , которые возникают из сходств объектов.
В большинстве случаев размерность скрытого пространства выбирается ниже размерности пространства признаков, из которого берутся точки данных, что делает построение скрытого пространства примером снижения размерности , которое также можно рассматривать как форму сжатия данных . [1] Скрытые пространства обычно подгоняются с помощью машинного обучения , и затем их можно использовать в качестве пространств признаков в моделях машинного обучения, включая классификаторы и другие контролируемые предикторы.
Интерпретация скрытых пространств моделей машинного обучения является активной областью изучения, но интерпретация скрытого пространства является сложной задачей. Из-за природы черного ящика моделей машинного обучения скрытое пространство может быть совершенно неинтуитивным. Кроме того, скрытое пространство может быть многомерным, сложным и нелинейным, что может усложнить интерпретацию. [2] Были разработаны некоторые методы визуализации для связи скрытого пространства с визуальным миром, но часто нет прямой связи между интерпретацией скрытого пространства и самой моделью. Такие методы включают t-распределенное стохастическое соседнее встраивание (t-SNE), где скрытое пространство отображается в два измерения для визуализации. Расстояния скрытого пространства не имеют физических единиц, поэтому интерпретация этих расстояний может зависеть от приложения. [3]
Встраивание моделей
Было разработано несколько моделей встраивания для выполнения этого преобразования с целью создания встраиваний скрытого пространства с учетом набора элементов данных и функции подобия . Эти модели изучают встраивания, используя статистические методы и алгоритмы машинного обучения. Вот некоторые часто используемые модели встраивания:
Word2Vec : [4] Word2Vec — популярная модель встраивания, используемая в обработке естественного языка (NLP). Она изучает встраивания слов, обучая нейронную сеть на большом корпусе текста. Word2Vec фиксирует семантические и синтаксические связи между словами, позволяя проводить осмысленные вычисления, такие как аналогии слов.
GloVe : [5] GloVe (глобальные векторы для представления слов) — еще одна широко используемая модель встраивания для обработки естественного языка. Она объединяет глобальную статистическую информацию из корпуса с локальной контекстной информацией для изучения встраиваний слов. Встраивания GloVe известны тем, что фиксируют как семантические, так и реляционные сходства между словами.
Сиамские сети : [6] Сиамские сети — это тип архитектуры нейронных сетей, обычно используемый для встраивания на основе сходства. Они состоят из двух идентичных подсетей, которые обрабатывают два входных образца и производят их соответствующие встраивания. Сиамские сети часто используются для таких задач, как сходство изображений, рекомендательные системы и распознавание лиц.
Вариационные автокодировщики (VAE): [7] VAE — это генеративные модели, которые одновременно обучаются кодированию и декодированию данных. Скрытое пространство в VAE действует как пространство внедрения. Обучая VAE на высокоразмерных данных, таких как изображения или аудио, модель обучается кодировать данные в компактное скрытое представление. VAE известны своей способностью генерировать новые образцы данных из изученного скрытого пространства.
Мультимодальность
Мультимодальность относится к интеграции и анализу нескольких режимов или типов данных в рамках одной модели или фреймворка. Встраивание мультимодальных данных подразумевает захват отношений и взаимодействий между различными типами данных, такими как изображения, текст, аудио и структурированные данные.
Мультимодальные модели встраивания нацелены на изучение совместных представлений, которые объединяют информацию из нескольких модальностей, позволяя проводить кросс-модальный анализ и задачи. Эти модели позволяют использовать такие приложения, как субтитры изображений, визуальные ответы на вопросы и мультимодальный анализ настроений.
Для встраивания мультимодальных данных используются специализированные архитектуры, такие как глубокие мультимодальные сети или мультимодальные трансформаторы. Эти архитектуры объединяют различные типы модулей нейронных сетей для обработки и интеграции информации из различных модальностей. Полученные встраивания фиксируют сложные отношения между различными типами данных, облегчая мультимодальный анализ и понимание.
Приложения
Модели встраивания скрытого пространства и многомодального встраивания нашли многочисленные применения в различных областях:
Извлечение информации: Методы внедрения позволяют создавать эффективные системы поиска по сходству и рекомендации, представляя точки данных в компактном пространстве.
Обработка естественного языка: внедрение слов произвело революцию в таких задачах обработки естественного языка, как анализ настроений, машинный перевод и классификация документов.
Компьютерное зрение: встраивание изображений и видео позволяет выполнять такие задачи, как распознавание объектов, поиск изображений и обобщение видео.
Системы рекомендаций: встраивания помогают фиксировать предпочтения пользователей и характеристики товаров, позволяя давать персонализированные рекомендации.
Здравоохранение: Методы внедрения применяются к электронным медицинским картам, медицинским изображениям и геномным данным для прогнозирования, диагностики и лечения заболеваний.
Социальные системы: Методы внедрения могут использоваться для изучения скрытых представлений социальных систем, таких как системы внутренней миграции, [8] сети академического цитирования [9] и мировые торговые сети. [10]
^ Лю, Ян; Цзюнь, Юнис; Ли, Цишэн; Хир, Джеффри (июнь 2019 г.). «Картография скрытого пространства: визуальный анализ вложений векторного пространства». Computer Graphics Forum . 38 (3): 67– 78. doi :10.1111/cgf.13672. ISSN 0167-7055. S2CID 189858337.
^ Ли, Цзыцян; Тао, Жэньто; Ван, Цзе; Ли, Фу; Ню, Хунцзин; Юэ, Миндао; Ли, Бин (февраль 2021 г.). «Интерпретация скрытого пространства GAN с помощью измерения развязки». Труды IEEE по искусственному интеллекту . 2 (1): 58– 70. doi :10.1109/TAI.2021.3071642. ISSN 2691-4581. S2CID 234847784.
^ Миколов, Томас; Суцкевер, Илья; Чен, Кай; Коррадо, Грег С.; Дин, Джефф (2013). «Распределенные представления слов и фраз и их композиционность». Достижения в области нейронных систем обработки информации . 26. Curran Associates, Inc. arXiv : 1310.4546 .
^ Пеннингтон, Джеффри; Сохер, Ричард; Мэннинг, Кристофер (октябрь 2014 г.). «Перчатка: глобальные векторы для представления слов». Труды конференции 2014 г. по эмпирическим методам обработки естественного языка (EMNLP) . Доха, Катар: Ассоциация компьютерной лингвистики. стр. 1532–1543 . doi : 10.3115/v1/D14-1162 .
^ Чикко, Давиде (2021), Картрайт, Хью (ред.), «Сиамские нейронные сети: обзор», Искусственные нейронные сети , Методы в молекулярной биологии, т. 2190, Нью-Йорк, Нью-Йорк: Springer US, стр. 73–94 , doi :10.1007/978-1-0716-0826-5_3, ISBN978-1-0716-0826-5, PMID 32804361, S2CID 221144012 , получено 2023-06-26
^ Кингма, Дидерик П.; Веллинг, Макс (2019-11-27). «Введение в вариационные автоэнкодеры». Основы и тенденции в машинном обучении . 12 (4): 307–392 . arXiv : 1906.02691 . doi : 10.1561/2200000056. ISSN 1935-8237. S2CID 174802445.
^ Гюрсой, Фуркан; Бадур, Бертан (2022-10-06). «Исследование внутренней миграции с помощью сетевого анализа и представлений скрытого пространства: применение к Турции». Анализ и добыча социальных сетей . 12 (1): 150. doi :10.1007/s13278-022-00974-w. ISSN 1869-5469. PMC 9540093. PMID 36246429 .
^ Асатани, Кимитака; Мори, Дзюнъитиро; Очи, Масанао; Саката, Ичиро (2018-05-21). «Обнаружение тенденций в академических исследованиях с помощью сети цитирования с использованием обучения сетевому представлению». PLOS ONE . 13 (5): e0197260. Bibcode : 2018PLoSO..1397260A. doi : 10.1371/journal.pone.0197260 . ISSN 1932-6203. PMC 5962067. PMID 29782521 .
^ Гарсия-Перес, Гильермо; Богунья, Мариан; Аллард, Антуан; Серрано, М. Анхелес (16.09.2016). «Скрытая гиперболическая геометрия международной торговли: Атлас мировой торговли 1870–2013». Scientific Reports . 6 (1): 33441. arXiv : 1512.02233 . Bibcode :2016NatSR...633441G. doi :10.1038/srep33441. ISSN 2045-2322. PMC 5025783 . PMID 27633649.