Часть серии статей о |
Машинное обучение и интеллектуальный анализ данных |
---|
Структурированное прогнозирование или структурированное выходное обучение — это общий термин для контролируемых методов машинного обучения , которые включают прогнозирование структурированных объектов, а не дискретных или реальных значений. [1]
Подобно широко используемым методам контролируемого обучения, структурированные модели прогнозирования обычно обучаются с помощью наблюдаемых данных, в которых прогнозируемое значение сравнивается с истинной информацией , и это используется для корректировки параметров модели. Из-за сложности модели и взаимосвязей прогнозируемых переменных процессы обучения модели и вывода часто вычислительно неосуществимы, поэтому используются приближенные методы вывода и обучения.
Примером применения является проблема перевода предложения на естественном языке в синтаксическое представление, такое как дерево синтаксического анализа . Это можно рассматривать как проблему структурированного прогнозирования [2] , в которой структурированный выходной домен представляет собой набор всех возможных деревьев синтаксического анализа. Структурированное прогнозирование используется в самых разных областях, включая биоинформатику , обработку естественного языка (NLP), распознавание речи и компьютерное зрение .
Последовательная разметка — это класс проблем, распространенных в обработке естественного языка, в которых входные данные часто являются последовательными, например, предложения текста. Проблема последовательной разметки проявляется в нескольких обличьях, таких как разметка частей речи (POS-разметка) и распознавание именованных сущностей . Например, в POS-разметке каждое слово в последовательности должно быть «помечено» меткой класса, представляющей тип слова:
Основная сложность этой проблемы — разрешить неоднозначность : в приведенном выше примере слова «sentence» и «tagged» в английском языке также могут быть глаголами.
Хотя эта проблема может быть решена путем простого выполнения классификации отдельных токенов , этот подход не учитывает эмпирический факт, что теги не встречаются независимо; вместо этого каждый тег демонстрирует сильную условную зависимость от тега предыдущего слова. Этот факт может быть использован в модели последовательности, такой как скрытая марковская модель или условное случайное поле [2] , которое предсказывает всю последовательность тегов для предложения (а не только отдельные теги) с помощью алгоритма Витерби .
Вероятностные графические модели образуют большой класс структурированных моделей прогнозирования. В частности, популярны байесовские сети и случайные поля . Другие алгоритмы и модели для структурированного прогнозирования включают индуктивное логическое программирование , рассуждения на основе прецедентов , структурированные SVM , марковские логические сети , вероятностную мягкую логику и ограниченные условные модели . Основные методы:
Одним из самых простых способов понять алгоритмы для общего структурированного прогнозирования является структурированный персептрон Коллинза . [3] Этот алгоритм объединяет алгоритм персептрона для обучения линейных классификаторов с алгоритмом вывода (классически алгоритм Витерби при использовании на последовательных данных) и может быть абстрактно описан следующим образом:
На практике нахождение argmax выполняется с использованием алгоритма Витерби или max-sum , а не исчерпывающего поиска по экспоненциально большому набору кандидатов.
Идея обучения аналогична идее многоклассовых персептронов .