Вероятностный латентный семантический анализ ( PLSA ), также известный как вероятностное латентное семантическое индексирование ( PLSI , особенно в кругах информационного поиска) — это статистический метод анализа двухмодовых и совместно встречающихся данных. По сути, можно вывести низкоразмерное представление наблюдаемых переменных с точки зрения их близости к определенным скрытым переменным, как и в латентном семантическом анализе , из которого произошел PLSA.
Рассматривая наблюдения в виде совместных появлений слов и документов, PLSA моделирует вероятность каждого совместного появления как смесь условно независимых мультиномиальных распределений :
с темой слов. Обратите внимание, что количество тем — это гиперпараметр, который должен быть выбран заранее и не оценивается на основе данных. Первая формулировка — это симметричная формулировка, где и оба генерируются из латентного класса схожими способами (с использованием условных вероятностей и ), тогда как вторая формулировка — это асимметричная формулировка, где для каждого документа латентный класс выбирается условно для документа в соответствии с , а затем из этого класса генерируется слово в соответствии с . Хотя в этом примере мы использовали слова и документы, совместное появление любой пары дискретных переменных может быть смоделировано точно таким же образом.
Итак, количество параметров равно . Количество параметров линейно растет с количеством документов. Кроме того, хотя PLSA является генеративной моделью документов в коллекции, по которой она оценивается, она не является генеративной моделью новых документов.
Генеративные модели: Следующие модели были разработаны для устранения часто критикуемого недостатка PLSA, а именно того, что она не является подходящей генеративной моделью для новых документов.
Данные более высокого порядка: Хотя это редко обсуждается в научной литературе, PLSA естественным образом распространяется на данные более высокого порядка (три моды и выше), т. е. может моделировать совместные появления по трем или более переменным. В симметричной формулировке выше это делается просто путем добавления условных распределений вероятностей для этих дополнительных переменных. Это вероятностный аналог неотрицательной тензорной факторизации.
^ Пиноли, Пьетро; и др. (2013). «Расширенный вероятностный латентный семантический анализ с весовыми схемами для прогнозирования геномных аннотаций». Труды IEEE BIBE 2013. 13-я Международная конференция IEEE по биоинформатике и биоинженерии. IEEE. стр. 1– 4. doi :10.1109/BIBE.2013.6701702. ISBN978-147993163-7.
^ Блей, Дэвид М.; Эндрю Й. Нг; Майкл И. Джордан (2003). «Скрытое распределение Дирихле» (PDF) . Журнал исследований машинного обучения . 3 : 993–1022 . doi :10.1162/jmlr.2003.3.4-5.993.
^ Алексей Винокуров и Марк Джиролами, Вероятностная структура для иерархической организации и классификации коллекций документов, в книге « Обработка информации и управление» , 2002 г.
^ Эрик Гауссье, Сирил Гутт, Крис Попат и Франсин Чен, Иерархическая модель кластеризации и категоризации документов, архивировано 4 марта 2016 г. на Wayback Machine , в «Достижения в области информационного поиска — Труды 24-го Европейского коллоквиума BCS-IRSG по исследованиям в области информации (ECIR-02)», 2002 г.
^ Крис Дин, Тао Ли, Вэй Пэн (2008). «Об эквивалентности между неотрицательной матричной факторизацией и вероятностным скрытым семантическим индексированием»
^ Томас Хофманн, Вероятностное латентное семантическое индексирование, Труды двадцать второй ежегодной международной конференции SIGIR по исследованиям и разработкам в области информационного поиска (SIGIR-99), 1999