Оболочка (интеллектуальный анализ данных)

Обертка в интеллектуальном анализе данных — это процедура, которая извлекает регулярное подсодержимое неструктурированного или слабоструктурированного источника информации и переводит его в реляционную форму , чтобы его можно было обрабатывать как структурированные данные. ^[1] Индукция обертки — это проблема разработки процедур извлечения на автоматической основе с минимальной опорой на вручную созданные правила.

Многие веб-страницы автоматически генерируются из структурированных данных — телефонных справочников, каталогов продукции и т. д. — обернутых в слабо структурированный язык представления (обычно некоторый вариант HTML ), отформатированный для просмотра и навигации человеком. Структурированные данные обычно представляют собой описания объектов, извлеченных из баз данных и отображаемых на веб-страницах в соответствии с фиксированными шаблонами на низком уровне, внедренными в страницы, где высокоуровневая структура может меняться от недели к неделе в соответствии с быстро меняющейся модой на оболочку представления сайта. Точная разделительная линия между текучей высокоуровневой оболочкой и менее текучими шаблонами структурированных данных редко документируется для публичного потребления, за пределами команды управления контентом на веб-ресурсе. Программные системы, использующие такие ресурсы, должны переводить HTML-контент в реляционную форму. Оболочки обычно используются в качестве таких переводчиков. Формально оболочка — это функция от страницы к набору кортежей, которые она содержит.

Генерация обертки

Существует два основных подхода к генерации обертки: индукция обертки и автоматическое извлечение данных . Индукция обертки использует контролируемое обучение для изучения правил извлечения данных из вручную помеченных обучающих примеров. Недостатки индукции обертки:

трудоемкий процесс ручной маркировки и
сложность обслуживания обертки.

Из-за ручного маркирования сложно извлекать данные из большого количества сайтов, так как каждый сайт имеет свои собственные шаблоны и требует отдельной ручной маркировки для обучения оболочки. Техническое обслуживание оболочки также является серьезной проблемой, поскольку всякий раз, когда сайт меняется, оболочки, созданные для сайта, устаревают. Из-за этих недостатков исследователи изучили автоматическую генерацию оболочки с использованием неконтролируемого анализа шаблонов. Автоматическое извлечение возможно, поскольку большинство объектов веб-данных следуют фиксированным шаблонам. Обнаружение таких шаблонов или шаблонов позволяет системе выполнять извлечение автоматически. ^[2]

Генерация обертки в Интернете является важной проблемой для широкого спектра приложений. Извлечение таких данных позволяет интегрировать данные/информацию с нескольких веб-сайтов для предоставления услуг с добавленной стоимостью, например, сравнительный шопинг, поиск объектов и интеграция информации.

Смотрите также

Бизнес-аналитика (раздел полуструктурированных или неструктурированных данных )
Веб-скрапинг

Источники

^ Николас Кушмерик, Дэниел С. Уэлд, Роберт Дооренбос, Wrapper Induction for Information Extraction Труды Международной объединенной конференции по искусственному интеллекту, 1997 г.
^ Лю, Б. Интеллектуальный анализ веб-данных: изучение гиперссылок, содержимого и данных об использовании , Springer, 2007.

[1] Николас Кушмерик, Дэниел С. Уэлд, Роберт Дооренбос, Wrapper Induction for Information Extraction Труды Международной объединенной конференции по искусственному интеллекту, 1997 г.

[2] Лю, Б. Интеллектуальный анализ веб-данных: изучение гиперссылок, содержимого и данных об использовании , Springer, 2007.