Обертка в интеллектуальном анализе данных — это процедура, которая извлекает регулярное подсодержимое неструктурированного или слабоструктурированного источника информации и переводит его в реляционную форму , чтобы его можно было обрабатывать как структурированные данные. [1] Индукция обертки — это проблема разработки процедур извлечения на автоматической основе с минимальной опорой на вручную созданные правила.
Многие веб-страницы автоматически генерируются из структурированных данных — телефонных справочников, каталогов продукции и т. д. — обернутых в слабо структурированный язык представления (обычно некоторый вариант HTML ), отформатированный для просмотра и навигации человеком. Структурированные данные обычно представляют собой описания объектов, извлеченных из баз данных и отображаемых на веб-страницах в соответствии с фиксированными шаблонами на низком уровне, внедренными в страницы, где высокоуровневая структура может меняться от недели к неделе в соответствии с быстро меняющейся модой на оболочку представления сайта. Точная разделительная линия между текучей высокоуровневой оболочкой и менее текучими шаблонами структурированных данных редко документируется для публичного потребления, за пределами команды управления контентом на веб-ресурсе. Программные системы, использующие такие ресурсы, должны переводить HTML-контент в реляционную форму. Оболочки обычно используются в качестве таких переводчиков. Формально оболочка — это функция от страницы к набору кортежей, которые она содержит.
Существует два основных подхода к генерации обертки: индукция обертки и автоматическое извлечение данных . Индукция обертки использует контролируемое обучение для изучения правил извлечения данных из вручную помеченных обучающих примеров. Недостатки индукции обертки:
Из-за ручного маркирования сложно извлекать данные из большого количества сайтов, так как каждый сайт имеет свои собственные шаблоны и требует отдельной ручной маркировки для обучения оболочки. Техническое обслуживание оболочки также является серьезной проблемой, поскольку всякий раз, когда сайт меняется, оболочки, созданные для сайта, устаревают. Из-за этих недостатков исследователи изучили автоматическую генерацию оболочки с использованием неконтролируемого анализа шаблонов. Автоматическое извлечение возможно, поскольку большинство объектов веб-данных следуют фиксированным шаблонам. Обнаружение таких шаблонов или шаблонов позволяет системе выполнять извлечение автоматически. [2]
Генерация обертки в Интернете является важной проблемой для широкого спектра приложений. Извлечение таких данных позволяет интегрировать данные/информацию с нескольких веб-сайтов для предоставления услуг с добавленной стоимостью, например, сравнительный шопинг, поиск объектов и интеграция информации.