Факторизованная языковая модель

Факторизованная языковая модель ( FLM ) является расширением традиционной языковой модели, представленной Джеффом Билмесом и Катрин Кирхгоф в 2003 году. В FLM каждое слово рассматривается как вектор из k факторов: FLM предоставляет вероятностную модель , в которой предсказание фактора основано на родителях . Например, если представляет токен слова и представляет тег части речи для английского языка, выражение дает модель для предсказания текущего токена слова на основе традиционной модели Ngram , а также тега части речи предыдущего слова. ж я = { ф я 1 , . . . , ф я к } . {\displaystyle w_{i}=\{f_{i}^{1},...,f_{i}^{k}\}.} П ( ф | ф 1 , . . . , ф Н ) {\displaystyle P(f|f_{1},...,f_{N})} ф {\displaystyle f} Н {\displaystyle N} { ф 1 , . . . , ф Н } {\displaystyle \{f_{1},...,f_{N}\}} ж {\displaystyle w} т {\displaystyle т} П ( ж я | ж я 2 , ж я 1 , т я 1 ) {\displaystyle P(w_{i}|w_{i-2},w_{i-1},t_{i-1})}

Основным преимуществом факторизованных языковых моделей является то, что они позволяют пользователям указывать лингвистические знания, такие как связь между словосочетаниями и частями речи в английском языке или морфологическую информацию (основы, корни и т. д.) в арабском языке.

Как и модели N-грамм , методы сглаживания необходимы при оценке параметров. В частности, обобщенный откат используется при обучении FLM.

Ссылки

  • J Bilmes и K Kirchhoff (2003). "Factored Language Models and Generalized Parallel Backoff" (PDF) . Конференция по технологиям человеческого языка . Архивировано из оригинала (PDF) 17 июля 2012 г.
Взято с "https://en.wikipedia.org/w/index.php?title=Factored_language_model&oldid=991636742"