Структурированное предсказание

Методы контролируемого машинного обучения

Структурированное прогнозирование или структурированное выходное обучение — это общий термин для контролируемых методов машинного обучения , которые включают прогнозирование структурированных объектов, а не дискретных или реальных значений. [1]

Подобно широко используемым методам контролируемого обучения, структурированные модели прогнозирования обычно обучаются с помощью наблюдаемых данных, в которых прогнозируемое значение сравнивается с истинной информацией , и это используется для корректировки параметров модели. Из-за сложности модели и взаимосвязей прогнозируемых переменных процессы обучения модели и вывода часто вычислительно неосуществимы, поэтому используются приближенные методы вывода и обучения.

Приложения

Примером применения является проблема перевода предложения на естественном языке в синтаксическое представление, такое как дерево синтаксического анализа . Это можно рассматривать как проблему структурированного прогнозирования [2] , в которой структурированный выходной домен представляет собой набор всех возможных деревьев синтаксического анализа. Структурированное прогнозирование используется в самых разных областях, включая биоинформатику , обработку естественного языка (NLP), распознавание речи и компьютерное зрение .

Пример: маркировка последовательности

Последовательная разметка — это класс проблем, распространенных в обработке естественного языка, в которых входные данные часто являются последовательными, например, предложения текста. Проблема последовательной разметки проявляется в нескольких обличьях, таких как разметка частей речи (POS-разметка) и распознавание именованных сущностей . Например, в POS-разметке каждое слово в последовательности должно быть «помечено» меткой класса, представляющей тип слова:

ЭтотДТ
являетсяВБЗ
аДТ
помеченоДжДж
предложение.НН

Основная сложность этой проблемы — разрешить неоднозначность : в приведенном выше примере слова «sentence» и «tagged» в английском языке также могут быть глаголами.

Хотя эта проблема может быть решена путем простого выполнения классификации отдельных токенов , этот подход не учитывает эмпирический факт, что теги не встречаются независимо; вместо этого каждый тег демонстрирует сильную условную зависимость от тега предыдущего слова. Этот факт может быть использован в модели последовательности, такой как скрытая марковская модель или условное случайное поле [2] , которое предсказывает всю последовательность тегов для предложения (а не только отдельные теги) с помощью алгоритма Витерби .

Методы

Вероятностные графические модели образуют большой класс структурированных моделей прогнозирования. В частности, популярны байесовские сети и случайные поля . Другие алгоритмы и модели для структурированного прогнозирования включают индуктивное логическое программирование , рассуждения на основе прецедентов , структурированные SVM , марковские логические сети , вероятностную мягкую логику и ограниченные условные модели . Основные методы:

Структурированный персептрон

Одним из самых простых способов понять алгоритмы для общего структурированного прогнозирования является структурированный персептрон Коллинза . [3] Этот алгоритм объединяет алгоритм персептрона для обучения линейных классификаторов с алгоритмом вывода (классически алгоритм Витерби при использовании на последовательных данных) и может быть абстрактно описан следующим образом:

  1. Сначала определим функцию , которая сопоставляет обучающую выборку и прогнозируемый кандидат с вектором длины ( и может иметь любую структуру; зависит от проблемы, но должна быть фиксированной для каждой модели). Пусть будет функцией, которая генерирует прогнозируемые кандидаты. ϕ ( x , y ) {\displaystyle \phi (x,y)} x {\displaystyle x} y {\displaystyle y} n {\displaystyle n} x {\displaystyle x} y {\displaystyle y} n {\displaystyle n} G E N {\displaystyle GEN}
  2. Затем:
Пусть будет вектором веса длины w {\displaystyle w} n {\displaystyle n}
Для заданного количества итераций:
Для каждого образца в обучающем наборе с истинным выходом : x {\displaystyle x} t {\displaystyle t}
Сделайте прогноз : y ^ {\displaystyle {\hat {y}}} y ^ = a r g m a x { y G E N ( x ) } ( w T , ϕ ( x , y ) ) {\displaystyle {\hat {y}}={\operatorname {arg\,max} }\,\{y\in GEN(x)\}\,(w^{T},\phi (x,y))}
Обновление (от к ): , где — скорость обучения . w {\displaystyle w} y ^ {\displaystyle {\hat {y}}} t {\displaystyle t} w = w + c ( ϕ ( x , y ^ ) + ϕ ( x , t ) ) {\displaystyle w=w+c(-\phi (x,{\hat {y}})+\phi (x,t))} c {\displaystyle c}

На практике нахождение argmax выполняется с использованием алгоритма Витерби или max-sum , а не исчерпывающего поиска по экспоненциально большому набору кандидатов. G E N ( x ) {\displaystyle {GEN}({x})}

Идея обучения аналогична идее многоклассовых персептронов .

Ссылки

  1. ^ Гёкхан Бакир, Бен Таскар, Томас Хофманн, Бернхард Шёлькопф, Алекс Смола и С.В.Н. Вишванатан (2007), Прогнозирование структурированных данных, MIT Press.
  2. ^ ab Лафферти, Дж.; МакКаллум, А.; Перейра, Ф. (2001). «Условные случайные поля: вероятностные модели для сегментации и маркировки данных последовательностей» (PDF) . Труды 18-й Международной конференции по машинному обучению . С.  282–289 .
  3. ^ Коллинз, Майкл (2002). Дискриминационные методы обучения для скрытых марковских моделей: теория и эксперименты с алгоритмами персептрона (PDF) . Proc. EMNLP. Том 10.
  • Ноа Смит, Прогнозирование лингвистической структуры, 2011.
  • Майкл Коллинз, Дискриминационные методы обучения для скрытых марковских моделей, 2002.
  • Реализация структурированного персептрона Коллинза
Retrieved from "https://en.wikipedia.org/w/index.php?title=Structured_prediction&oldid=1273324430"