Перчатка

Алгоритм получения векторных представлений слов

GloVe , придуманная от Global Vectors, является моделью для распределенного представления слов. Модель представляет собой алгоритм неконтролируемого обучения для получения векторных представлений слов. Это достигается путем отображения слов в осмысленное пространство, где расстояние между словами связано с семантическим сходством. ^{[1] Обучение выполняется на агрегированной глобальной}статистике совместного появления слов из корпуса, и полученные представления демонстрируют интересные линейные подструктуры векторного пространства слов . Как модель логарифмически-билинейной регрессии для неконтролируемого обучения представлений слов, она объединяет особенности двух семейств моделей, а именно методы глобальной матричной факторизации и локального контекстного окна.

Он разработан как проект с открытым исходным кодом в Стэнфорде ^[2] и был запущен в 2014 году. Он был разработан как конкурент word2vec , и в оригинальной статье отмечались множественные улучшения GloVe по сравнению с word2vec. По состоянию на 2022 год ^{[обновлять]}оба подхода устарели, и модели на основе Transformer , такие как BERT , которые добавляют несколько слоев внимания нейронной сети поверх модели встраивания слов, похожей на Word2vec, стали считаться последним словом в области обработки естественного языка. ^[3]

Определение

Вы узнаете слово по его окружению (Ферт, Дж. Р. 1957:11) ^[4]

Идея GloVe заключается в построении для каждого слова двух векторов , так что относительные положения векторов захватывают часть статистических закономерностей слова . Статистическая закономерность определяется как вероятности совместного появления. Слова, которые похожи друг на друга по значению, должны также быть похожи друг на друга по вероятностям совместного появления. $я$ $w_{i},{\tilde {w}}_{i}$ $i$

Подсчет слов

Пусть словарь будет , набор всех возможных слов (т.е. «токенов»). Пунктуация либо игнорируется, либо рассматривается как словарь, и аналогично для заглавных букв и других типографских деталей. ^[1] $V$

Если два слова встречаются близко друг к другу, то мы говорим, что они встречаются в контексте друг друга. Например, если длина контекста равна 3, то мы говорим, что в следующем предложении

GloVe ₁_, созданный ₂ из ₃ Global ₄ Vectors ₅ , является ₆ моделью ₇ для ₉ распределенного ₁₀ слова 11 _{представления}₁₂

слово «модель ₈ » находится в контексте «слова ₁₁ », но не в контексте «представления ₁₂ ».

Слово не находится в контексте самого себя, поэтому «модель ₈ » не находится в контексте слова «модель ₈ », хотя, если слово появляется снова в том же контексте, то оно учитывается.

Пусть будет числом раз, которое слово появляется в контексте слова во всем корпусе. Например, если корпус состоит только из «Я не думаю, что это проблема». мы имеем с тех пор, как первое «это» появляется в контексте второго, и наоборот. $X_{ij}$ $j$ $i$ $X_{{\text{that}},{\text{that}}}=2$

Пусть будет числом слов в контексте всех случаев слова . Подсчитав, мы имеем (за исключением слов, встречающихся в самом начале и конце корпуса) $X_{i}=\sum _{j\in V}X_{ij}$ $i$ $X_{i}=2\times ({\text{context size}})\times \#({\text{occurrences of word }}i)$

Вероятностное моделирование

Пусть будет вероятностью совместного появления . То есть, если выбрать случайное появление слова во всем документе и случайное слово в его контексте, то это слово с вероятностью . Обратите внимание, что в общем случае. Например, в типичном корпусе современного английского языка близко к единице, но близко к нулю. Это потому, что слово "ado" почти всегда используется только в контексте архаичной фразы " much ado about ", но слово "much" встречается во всех видах контекстов. $P_{ik}:=P(k|i):={\frac {X_{ik}}{X_{i}}}$ $i$ $k$ $P_{ik}$ $P_{ik}\neq P_{ki}$ $P_{{\text{ado}},{\text{much}}}$ $P_{{\text{much}},{\text{ado}}}$

Например, в корпусе из 6 миллиардов токенов мы имеем

Таблица 1 из ^[1]
Вероятность и соотношение	$k={\text{ solid }}$	$k={\text{ gas }}$	$k={\text{ water }}$	$k={\text{ fashion }}$
$P(k\mid {\text{ ice }})$	$1.9\times 10^{-4}$	$6.6\times 10^{-5}$	$3.0\times 10^{-3}$	$1.7\times 10^{-5}$
$P(k\mid {\text{ steam }})$	$2.2\times 10^{-5}$	$7.8\times 10^{-4}$	$2.2\times 10^{-3}$	$1.8\times 10^{-5}$
$P(k\mid {\text{ ice }})/P(k\mid {\text{ steam }})$	$8.9$	$8.5\times 10^{-2}$	$1.36$	$0.96$

Рассматривая таблицу, мы видим, что слова «лёд» и «пар» неразличимы по сравнению со словами «вода» (часто встречается вместе с обоими) и «мода» (редко встречается вместе с тем или другим), но различимы по сравнению со словами «твёрдое тело» (чаще встречается вместе со льдом) и «газ» (чаще встречается вместе со «паром»).

Идея состоит в том, чтобы узнать два вектора для каждого слова , так чтобы у нас была полиномиальная логистическая регрессия : а термины являются неважными параметрами. $w_{i},{\tilde {w}}_{i}$ $i$ $w_{i}^{T}{\tilde {w}}_{j}+b_{i}+{\tilde {b}}_{j}\approx \ln P_{ij}$ $b_{i},{\tilde {b}}_{j}$

Это означает, что если слова имеют схожие вероятности совместной встречаемости , то их векторы также должны быть схожими: . $i,j$ $(P_{ik})_{k\in V}\approx (P_{jk})_{k\in V}$ $w_{i}\approx w_{j}$

Логистическая регрессия

Наивно, логистическая регрессия может быть запущена путем минимизации квадратичных потерь: Однако, это было бы шумно для редких совместных событий. Чтобы исправить проблему, квадратичные потери взвешиваются так, чтобы потери медленно увеличивались по мере увеличения абсолютного числа совместных событий: где и являются гиперпараметрами . В оригинальной статье авторы обнаружили, что, похоже, хорошо работает на практике. $L=\sum _{i,j\in V}(w_{i}^{T}{\tilde {w}}_{j}+b_{i}+{\tilde {b}}_{j}-\ln P_{ij})^{2}$ $X_{ij}$ $L=\sum _{i,j\in V}f(X_{ij})(w_{i}^{T}{\tilde {w}}_{j}+b_{i}+{\tilde {b}}_{j}-\ln P_{ij})^{2}$ $f(x)=\left\{{\begin{array}{cc}\left(x/x_{\max }\right)^{\alpha }&{\text{ if }}x<x_{\max }\\1&{\text{ otherwise }}\end{array}}\right.$ $x_{\max },\alpha$ $x_{\max }=100,\alpha =3/4$

Использовать

После обучения модели у нас есть 4 обученных параметра для каждого слова: . Параметры нерелевантны, а релевантны только они. $w_{i},{\tilde {w}}_{i},b_{i},{\tilde {b}}_{i}$ $b_{i},{\tilde {b}}_{i}$ $w_{i},{\tilde {w}}_{i}$

Авторы рекомендовали использовать в качестве окончательного вектора представления для слова , поскольку эмпирически он работал лучше, чем или по отдельности. $w_{i}+{\tilde {w}}_{i}$ $i$ $w_{i}$ ${\tilde {w}}_{i}$

Приложения

GloVe можно использовать для поиска связей между словами, такими как синонимы, связи между компанией и продуктом, почтовые индексы и города и т. д. Однако алгоритм неконтролируемого обучения неэффективен при идентификации омографов, т. е. слов с одинаковым написанием и разными значениями. Это связано с тем, что алгоритм неконтролируемого обучения вычисляет один набор векторов для слов с одинаковой морфологической структурой. ^[5] Алгоритм также используется библиотекой SpaCy для построения семантических признаков встраивания слов, при этом вычисляя список слов, которые соответствуют мерам расстояния, таким как косинусное сходство и подход евклидова расстояния . ^[6] GloVe также использовался в качестве структуры представления слов для онлайн- и офлайн-систем, разработанных для обнаружения психологического стресса в интервью с пациентами. ^[7]

Смотрите также

Ссылки

^ abc Pennington, Jeffrey; Socher, Richard; Manning, Christopher (октябрь 2014 г.). Moschitti, Alessandro; Pang, Bo; Daelemans, Walter (ред.). "GloVe: Global Vectors for Word Representation". Труды конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP) . Доха, Катар: Ассоциация компьютерной лингвистики: 1532– 1543. doi :10.3115/v1/D14-1162.
^ GloVe: Глобальные векторы для представления слов (pdf) Архивировано 03.09.2020 в Wayback Machine «Мы используем наши идеи для построения новой модели представления слов, которую мы называем GloVe, Global Vectors, поскольку глобальная статистика корпуса фиксируется непосредственно моделью».
^ Фон дер Мозель, Джулиан; Траутш, Александр; Гербольд, Штеффен (2022). «О валидности предварительно обученных преобразователей для обработки естественного языка в области программной инженерии». IEEE Transactions on Software Engineering . 49 (4): 1487– 1507. arXiv : 2109.04738 . doi : 10.1109/TSE.2022.3178469. ISSN 1939-3520. S2CID 237485425.
^ Фирт, Дж. Р. (1957). Исследования по лингвистическому анализу (PDF) . Wiley-Blackwell.
^ Вениг, Филлип (2019). «Создание вложений предложений на основе тематических представлений слов: подход к универсальному пониманию языка». На пути к науке о данных .
^ Singh, Mayank; Gupta, PK; Tyagi, Vipin; Flusser, Jan; Ören, Tuncer I. (2018). Advances in Computing and Data Sciences: Second International Conference, ICACDS 2018, Dehradun, India, April 20-21, 2018, Revised Selected Papers . Singapore: Springer. p. 171. ISBN 9789811318122.
^ Абад, Альберто; Ортега, Альфонсо; Тейшейра, Антониу; Матео, Кармен; Хинарехос, Карлос; Пердигао, Фернандо; Батиста, Фернандо; Мамеде, Нуно (2016). Достижения в области речи и языковых технологий для иберийских языков: Третья международная конференция, IberSPEECH 2016, Лиссабон, Португалия, 23-25 ноября 2016 г., Материалы . Чам: Спрингер. п. 165. ИСБН 9783319491691.

Внешние ссылки

GloVe Архивировано 2016-12-19 в Wayback Machine
Deeplearning4j GloVe Архивировано 2019-02-02 на Wayback Machine

[:1-1] Pennington, Jeffrey; Socher, Richard; Manning, Christopher (октябрь 2014 г.). Moschitti, Alessandro; Pang, Bo; Daelemans, Walter (ред.). "GloVe: Global Vectors for Word Representation". Труды конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP) . Доха, Катар: Ассоциация компьютерной лингвистики: 1532– 1543. doi :10.3115/v1/D14-1162.

[2] GloVe: Глобальные векторы для представления слов (pdf) Архивировано 03.09.2020 в Wayback Machine «Мы используем наши идеи для построения новой модели представления слов, которую мы называем GloVe, Global Vectors, поскольку глобальная статистика корпуса фиксируется непосредственно моделью».

[3] Фон дер Мозель, Джулиан; Траутш, Александр; Гербольд, Штеффен (2022). «О валидности предварительно обученных преобразователей для обработки естественного языка в области программной инженерии». IEEE Transactions on Software Engineering . 49 (4): 1487– 1507. arXiv : 2109.04738 . doi : 10.1109/TSE.2022.3178469. ISSN 1939-3520. S2CID 237485425.

[4] Фирт, Дж. Р. (1957). Исследования по лингвистическому анализу (PDF) . Wiley-Blackwell.

[5] Вениг, Филлип (2019). «Создание вложений предложений на основе тематических представлений слов: подход к универсальному пониманию языка». На пути к науке о данных .

[6] Singh, Mayank; Gupta, PK; Tyagi, Vipin; Flusser, Jan; Ören, Tuncer I. (2018). Advances in Computing and Data Sciences: Second International Conference, ICACDS 2018, Dehradun, India, April 20-21, 2018, Revised Selected Papers . Singapore: Springer. p. 171. ISBN 9789811318122.

[:0-7] Абад, Альберто; Ортега, Альфонсо; Тейшейра, Антониу; Матео, Кармен; Хинарехос, Карлос; Пердигао, Фернандо; Батиста, Фернандо; Мамеде, Нуно (2016). Достижения в области речи и языковых технологий для иберийских языков: Третья международная конференция, IberSPEECH 2016, Лиссабон, Португалия, 23-25 ноября 2016 г., Материалы . Чам: Спрингер. п. 165. ИСБН 9783319491691.