Извлечение отношений

Задача извлечения отношений требует обнаружения и классификации упоминаний семантических отношений в наборе артефактов , как правило, из текстовых или XML- документов. Задача очень похожа на задачу извлечения информации (IE), но IE дополнительно требует удаления повторяющихся отношений (устранения неоднозначности) и, как правило, относится к извлечению множества различных отношений.

Концепция и применение

Концепция извлечения взаимосвязей была впервые представлена ​​на 7-й конференции по пониманию сообщений в 1998 году. [1] Извлечение взаимосвязей подразумевает идентификацию взаимосвязей между сущностями и обычно фокусируется на извлечении бинарных отношений. [2] Области применения, где извлечение взаимосвязей полезно, включают взаимосвязи генов и заболеваний, [3] взаимодействие белок-белок [4] и т. д.

Текущие исследования по извлечению взаимосвязей используют технологии машинного обучения, которые рассматривают извлечение взаимосвязей как проблему классификации. [1] Never-Ending Language Learning — это семантическая система машинного обучения , разработанная исследовательской группой Университета Карнеги-Меллона , которая извлекает взаимосвязи из открытой сети.

Подходы

Существует несколько методов, используемых для извлечения связей, в том числе извлечение связей на основе текста. Эти методы основаны на использовании предварительно обученной информации о структуре связей или могут подразумевать изучение структуры для выявления связей. [5] Другой подход к этой проблеме предполагает использование онтологий доменов . [6] [7] Существует также подход, который предполагает визуальное обнаружение значимых связей в параметрических значениях объектов, перечисленных в таблице данных, которые меняют позиции по мере автоматической перестановки таблицы под контролем пользователя программного обеспечения. Плохое покрытие, редкость и стоимость разработки, связанные со структурированными ресурсами, такими как семантические лексиконы (например, WordNet , UMLS ) и онтологии доменов (например, Gene Ontology ), привели к появлению новых подходов, основанных на широких динамических фоновых знаниях в Интернете. Например, метод ARCHILES [8] использует только количество страниц Википедии и поисковой системы для получения крупнозернистых связей с целью построения облегченных онтологий.

Отношения могут быть представлены с использованием различных формализмов/языков. Одним из таких языков представления данных в Интернете является RDF .

Совсем недавно были предложены сквозные системы, которые совместно обучаются извлекать упоминания сущностей и их семантические связи, обладающие большим потенциалом для достижения высокой производительности. [9]

Большинство из представленных систем продемонстрировали свой подход на английских наборах данных. Однако данные и системы были описаны для других языков, например, русского [10] и вьетнамского . [11]

Наборы данных

Исследователи создали несколько наборов данных для сравнительного анализа методов извлечения связей. [12] Одним из таких наборов данных был набор данных извлечения связей на уровне документов под названием DocRED, выпущенный в 2019 году. Он использует связи из Wikidata и текст из английской Wikipedia . [12] Набор данных использовался другими исследователями, и в CodaLab был организован конкурс прогнозов. [13] [14]

Смотрите также

Ссылки

  1. ^ ab Ning, Huansheng (2019). Данные и разведка в киберпространстве, а также киберпространственная жизнь, синдром и здоровье: Международный конгресс по киберпространству 2019 года, CyberDI и CyberLife, Пекин, Китай, 16–18 декабря 2019 г., Труды, часть II . Сингапур: Springer Nature. стр. 260. ISBN 978-981-15-1924-6.
  2. ^ Насар, Зара; Джаффри, Сайед Вакар; Малик, Мухаммад Камран (2021-02-11). «Распознавание именованных сущностей и извлечение связей: современное состояние». ACM Computing Surveys . 54 (1): 20:1–20:39. doi :10.1145/3445965. ISSN  0360-0300. S2CID  233353895.
  3. ^ Хонг-Ву Чун; Ёсимаса Цуруока; Джин-Донг Ким; Рие Шиба; Наоки Нагата; Теруёси Хишики; Джун-ити Цудзи (2006). «Извлечение связей генов и заболеваний из Medline с использованием доменных словарей и машинного обучения». Тихоокеанский симпозиум по биовычислениям . CiteSeerX 10.1.1.105.9656 . 
  4. ^ Минли Хуан и Сяоянь Чжу и Юй Хао и Дональд Г. Пайан и Кунбин Цюй и Мин Ли (2004). «Обнаружение закономерностей для извлечения белок-белковых взаимодействий из полных текстов». Биоинформатика . 20 (18): 3604–3612 . doi : 10.1093/bioinformatics/bth451 . PMID  15284092.
  5. ^ Tickoo, Omesh; Iyer, Ravi (2016). Making Sense of Sensors: End-to-End Algorithms and Infrastructure Design from Wearable-Devices to Data Centers . Портленд: Apress. стр. 68. ISBN 978-1-4302-6592-4.
  6. ^ TCRindflesch и L.Tanabe и JNWeinstein и L.Hunter (2000). "EDGAR: Извлечение лекарств, генов и связей из биомедицинской литературы". Proc. Pacific Symposium on Biocomputing . стр.  514–525 . PMC 2709525 . 
  7. ^ C. Ramakrishnan и KJ Kochut и AP Sheth (2006). «Структура для обнаружения взаимосвязей на основе схем из неструктурированного текста». Труды Международной конференции по семантической паутине . С.  583–596 .
  8. ^ W. Wong и W. Liu и M. Bennamoun (2009). «Получение семантических отношений с использованием Интернета для построения облегченных онтологий». Труды 13-й Тихоокеанско-Азиатской конференции по обнаружению знаний и интеллектуальному анализу данных (PAKDD) . doi :10.1007/978-3-642-01307-2_26.
  9. ^ Дат Куок Нгуен и Карин Верспур (2019). «Сквозное извлечение нейронных связей с использованием глубокого биаффинного внимания». Труды 41-й Европейской конференции по информационному поиску (ECIR) . arXiv : 1812.11275 . doi : 10.1007/978-3-030-15712-8_47.
  10. ^ Елена Брухес; Алексей Паулс; Татьяна Батура; Владимир Исаченко (14 декабря 2020 г.), Распознавание сущностей и извлечение связей из научных и технических текстов на русском языке (PDF) , arXiv : 2011.09817 , Wikidata  Q104419957
  11. ^ Фам Куанг Нят Минь (18 декабря 2020 г.). «Эмпирическое исследование использования предварительно обученных моделей BERT для задачи извлечения вьетнамских отношений на VLSP 2020» (PDF) . arXiv . arXiv : 2012.10275 . ISSN  2331-8422. Wikidata  Q104418048.
  12. ^ ab Юань Яо; Деминг Йе; Пэн Ли; и др. (2019). DocRED: крупномасштабный набор данных для извлечения связей на уровне документов (PDF) . стр.  764–777 . arXiv : 1906.06127 . doi : 10.18653/V1/P19-1074. ISBN 978-1-950737-48-2. Викиданные  Q104419388. {{cite book}}: |journal=проигнорировано ( помощь )
  13. ^ Ван Сюй; Кехай Чен; Тецзюнь Чжао (21 декабря 2020 г.). «Извлечение отношений на уровне документа с реконструкцией» (PDF) . arXiv . arXiv : 2012.11384 . ISSN  2331-8422. Викиданные  Q104417795.
  14. ^ "DocRED. Конкурс. CodaLab" .


Получено с "https://en.wikipedia.org/w/index.php?title=Извлечение_отношений&oldid=1156620279"