Задача извлечения отношений требует обнаружения и классификации упоминаний семантических отношений в наборе артефактов , как правило, из текстовых или XML- документов. Задача очень похожа на задачу извлечения информации (IE), но IE дополнительно требует удаления повторяющихся отношений (устранения неоднозначности) и, как правило, относится к извлечению множества различных отношений.
Концепция извлечения взаимосвязей была впервые представлена на 7-й конференции по пониманию сообщений в 1998 году. [1] Извлечение взаимосвязей подразумевает идентификацию взаимосвязей между сущностями и обычно фокусируется на извлечении бинарных отношений. [2] Области применения, где извлечение взаимосвязей полезно, включают взаимосвязи генов и заболеваний, [3] взаимодействие белок-белок [4] и т. д.
Текущие исследования по извлечению взаимосвязей используют технологии машинного обучения, которые рассматривают извлечение взаимосвязей как проблему классификации. [1] Never-Ending Language Learning — это семантическая система машинного обучения , разработанная исследовательской группой Университета Карнеги-Меллона , которая извлекает взаимосвязи из открытой сети.
Существует несколько методов, используемых для извлечения связей, в том числе извлечение связей на основе текста. Эти методы основаны на использовании предварительно обученной информации о структуре связей или могут подразумевать изучение структуры для выявления связей. [5] Другой подход к этой проблеме предполагает использование онтологий доменов . [6] [7] Существует также подход, который предполагает визуальное обнаружение значимых связей в параметрических значениях объектов, перечисленных в таблице данных, которые меняют позиции по мере автоматической перестановки таблицы под контролем пользователя программного обеспечения. Плохое покрытие, редкость и стоимость разработки, связанные со структурированными ресурсами, такими как семантические лексиконы (например, WordNet , UMLS ) и онтологии доменов (например, Gene Ontology ), привели к появлению новых подходов, основанных на широких динамических фоновых знаниях в Интернете. Например, метод ARCHILES [8] использует только количество страниц Википедии и поисковой системы для получения крупнозернистых связей с целью построения облегченных онтологий.
Отношения могут быть представлены с использованием различных формализмов/языков. Одним из таких языков представления данных в Интернете является RDF .
Совсем недавно были предложены сквозные системы, которые совместно обучаются извлекать упоминания сущностей и их семантические связи, обладающие большим потенциалом для достижения высокой производительности. [9]
Большинство из представленных систем продемонстрировали свой подход на английских наборах данных. Однако данные и системы были описаны для других языков, например, русского [10] и вьетнамского . [11]
Исследователи создали несколько наборов данных для сравнительного анализа методов извлечения связей. [12] Одним из таких наборов данных был набор данных извлечения связей на уровне документов под названием DocRED, выпущенный в 2019 году. Он использует связи из Wikidata и текст из английской Wikipedia . [12] Набор данных использовался другими исследователями, и в CodaLab был организован конкурс прогнозов. [13] [14]
{{cite book}}
: |journal=
проигнорировано ( помощь )