Вероятностный латентно-семантический анализ

Вероятностный латентный семантический анализ ( PLSA ), также известный как вероятностное латентное семантическое индексирование ( PLSI , особенно в кругах информационного поиска) — это статистический метод анализа двухмодовых и совместно встречающихся данных. По сути, можно вывести низкоразмерное представление наблюдаемых переменных с точки зрения их близости к определенным скрытым переменным, как и в латентном семантическом анализе , из которого произошел PLSA.

По сравнению со стандартным латентно-семантическим анализом , который вытекает из линейной алгебры и сокращает таблицы вхождений (обычно с помощью разложения по сингулярным значениям ), вероятностный латентно-семантический анализ основан на смешанном разложении, полученном из модели латентных классов .

Модель

Обозначение пластины , представляющее модель PLSA («асимметричная» формулировка). — переменная индекса документа, — тема слова, взятая из распределения тем документа, , а — слово, взятое из распределения слов темы этого слова, . И — наблюдаемые переменные , тема — скрытая переменная . г {\displaystyle д} с {\displaystyle с} П ( с | г ) {\displaystyle P(c|d)} ж {\displaystyle w} П ( ж | с ) {\displaystyle P(w|c)} г {\displaystyle д} ж {\displaystyle w} с {\displaystyle с}

Рассматривая наблюдения в виде совместных появлений слов и документов, PLSA моделирует вероятность каждого совместного появления как смесь условно независимых мультиномиальных распределений : ( ж , г ) {\displaystyle (ш,д)}

П ( ж , г ) = с П ( с ) П ( г | с ) П ( ж | с ) = П ( г ) с П ( с | г ) П ( ж | с ) {\displaystyle P(w,d)=\sum _{c}P(c)P(d|c)P(w|c)=P(d)\sum _{c}P(c|d)P(w|c)}

с темой слов. Обратите внимание, что количество тем — это гиперпараметр, который должен быть выбран заранее и не оценивается на основе данных. Первая формулировка — это симметричная формулировка, где и оба генерируются из латентного класса схожими способами (с использованием условных вероятностей и ), тогда как вторая формулировка — это асимметричная формулировка, где для каждого документа латентный класс выбирается условно для документа в соответствии с , а затем из этого класса генерируется слово в соответствии с . Хотя в этом примере мы использовали слова и документы, совместное появление любой пары дискретных переменных может быть смоделировано точно таким же образом. с {\displaystyle с} ж {\displaystyle w} г {\displaystyle д} с {\displaystyle с} П ( г | с ) {\displaystyle P(d|c)} П ( ж | с ) {\displaystyle P(w|c)} г {\displaystyle д} П ( с | г ) {\displaystyle P(c|d)} П ( ж | с ) {\displaystyle P(w|c)}

Итак, количество параметров равно . Количество параметров линейно растет с количеством документов. Кроме того, хотя PLSA является генеративной моделью документов в коллекции, по которой она оценивается, она не является генеративной моделью новых документов. с г + ж с {\displaystyle cd+wc}

Их параметры изучаются с помощью алгоритма ЭМ .

Приложение

PLSA может использоваться в дискриминационной обстановке с помощью ядер Фишера . [1]

PLSA применяется в поиске и фильтрации информации , обработке естественного языка , машинном обучении на основе текста, биоинформатике [ 2] и смежных областях.

Сообщается, что аспектная модель, используемая в вероятностном латентно-семантическом анализе, имеет серьезные проблемы переобучения . [3]

Расширения

  • Иерархические расширения:
    • Асимметричный: MASHA («Мультиномиальный асимметричный иерархический анализ») [4]
    • Симметричный: HPLSA («Иерархический вероятностный латентный семантический анализ») [5]
  • Генеративные модели: Следующие модели были разработаны для устранения часто критикуемого недостатка PLSA, а именно того, что она не является подходящей генеративной моделью для новых документов.
  • Данные более высокого порядка: Хотя это редко обсуждается в научной литературе, PLSA естественным образом распространяется на данные более высокого порядка (три моды и выше), т. е. может моделировать совместные появления по трем или более переменным. В симметричной формулировке выше это делается просто путем добавления условных распределений вероятностей для этих дополнительных переменных. Это вероятностный аналог неотрицательной тензорной факторизации.

История

Это пример модели скрытого класса (см. ссылки в ней), и она связана [6] [7] с неотрицательной матричной факторизацией . Текущая терминология была придумана в 1999 году Томасом Хофманном. [8]

Смотрите также

Ссылки и примечания

  1. ^ Томас Хофманн, Изучение сходства документов: информационно-геометрический подход к поиску и категоризации документов, Достижения в области нейронных систем обработки информации 12, стр. 914-920, MIT Press , 2000
  2. ^ Пиноли, Пьетро; и др. (2013). «Расширенный вероятностный латентный семантический анализ с весовыми схемами для прогнозирования геномных аннотаций». Труды IEEE BIBE 2013. 13-я Международная конференция IEEE по биоинформатике и биоинженерии. IEEE. стр.  1– 4. doi :10.1109/BIBE.2013.6701702. ISBN 978-147993163-7.
  3. ^ Блей, Дэвид М.; Эндрю Й. Нг; Майкл И. Джордан (2003). «Скрытое распределение Дирихле» (PDF) . Журнал исследований машинного обучения . 3 : 993–1022 . doi :10.1162/jmlr.2003.3.4-5.993.
  4. ^ Алексей Винокуров и Марк Джиролами, Вероятностная структура для иерархической организации и классификации коллекций документов, в книге « Обработка информации и управление» , 2002 г.
  5. ^ Эрик Гауссье, Сирил Гутт, Крис Попат и Франсин Чен, Иерархическая модель кластеризации и категоризации документов, архивировано 4 марта 2016 г. на Wayback Machine , в «Достижения в области информационного поиска — Труды 24-го Европейского коллоквиума BCS-IRSG по исследованиям в области информации (ECIR-02)», 2002 г.
  6. ^ Крис Дин, Тао Ли, Вэй Пэн (2006). «Неотрицательная матричная факторизация и вероятностное скрытое семантическое индексирование: эквивалентная статистика хи-квадрат и гибридный метод. AAAI 2006»
  7. ^ Крис Дин, Тао Ли, Вэй Пэн (2008). «Об эквивалентности между неотрицательной матричной факторизацией и вероятностным скрытым семантическим индексированием»
  8. ^ Томас Хофманн, Вероятностное латентное семантическое индексирование, Труды двадцать второй ежегодной международной конференции SIGIR по исследованиям и разработкам в области информационного поиска (SIGIR-99), 1999
  • Вероятностный латентно-семантический анализ
  • Полная PLSA DEMO на языке C#
Взято с "https://en.wikipedia.org/w/index.php?title=Вероятностный_латентный_семантический_анализ&oldid=1149911069"