Интеграция данных на основе онтологии

Подход к интеграции данных

Интеграция данных на основе онтологий подразумевает использование одной или нескольких онтологий для эффективного объединения данных или информации из нескольких разнородных источников. [1] Это один из подходов к интеграции множественных данных , который можно классифицировать как Global-As-View (GAV). [2] Эффективность интеграции данных на основе онтологий тесно связана с согласованностью и выразительностью онтологии, используемой в процессе интеграции.

Фон

Данные из нескольких источников характеризуются множественными типами неоднородности. Часто используется следующая иерархия: [3] [4] [5]

  • Синтаксическая неоднородность: является результатом различий в формате представления данных.
  • Схематическая или структурная неоднородность: собственная модель или структура для хранения данных различаются в источниках данных, что приводит к структурной неоднородности. Схематическая неоднородность, которая особенно проявляется в структурированных базах данных, также является аспектом структурной неоднородности. [3]
  • Семантическая неоднородность : различия в интерпретации «значения» данных являются источником семантической неоднородности.
  • Неоднородность системы: использование разных операционных систем и аппаратных платформ приводит к неоднородности системы.

Онтологии , как формальные модели представления с явно определенными концепциями и именованными отношениями, связывающими их, используются для решения проблемы семантической неоднородности в источниках данных. В таких областях, как биоинформатика и биомедицина , быстрое развитие, принятие и публичная доступность онтологий [1] позволили сообществу интеграции данных использовать их для семантической интеграции данных и информации.

Роль онтологий

Онтологии позволяют однозначно идентифицировать сущности в гетерогенных информационных системах и утверждать применимые именованные отношения, которые связывают эти сущности вместе. В частности, онтологии играют следующие роли:

Содержание Экспликация
[1] Онтология обеспечивает точную интерпретацию данных из нескольких источников посредством явного определения терминов и отношений в онтологии.
Модель запроса
[1] В некоторых системах, таких как SIMS, [6] запрос формулируется с использованием онтологии как глобальной схемы запроса.
Проверка
[1] Онтология проверяет сопоставления, используемые для интеграции данных из нескольких источников. Эти сопоставления могут быть либо указаны пользователем, либо сгенерированы системой.

Подходы с использованием онтологий для интеграции данных

Существуют три основные архитектуры, которые реализованы в приложениях интеграции данных на основе онтологий, [1], а именно:

Подход на основе единой онтологии
В качестве глобальной справочной модели в системе используется одна онтология. Это самый простой подход, поскольку его можно смоделировать с помощью других подходов. [1] SIMS [6] яркий пример этого подхода. Компонент Structured Knowledge Source Integration Research Cyc является еще одним ярким примером этого подхода. [7] [8] (Название = Harnessing Cyc to Answer Clinical Researchers' Ad Hoc Queries). Таксономический словарь-онтология Gellish также следует этому подходу. [9]
Множественные онтологии
Несколько онтологий, каждая из которых моделирует отдельный источник данных, используются в комбинации для интеграции. Хотя этот подход более гибок, чем подход с одной онтологией, он требует создания отображений между несколькими онтологиями. Отображение онтологий является сложной проблемой и находится в центре внимания большого количества исследовательских усилий в области компьютерных наук [2]. Система OBSERVER [10] является примером такого подхода.
Гибридные подходы
Гибридный подход предполагает использование нескольких онтологий, которые подписываются на общий словарь верхнего уровня. [11] Словарь верхнего уровня определяет основные термины предметной области. Таким образом, гибридный подход упрощает использование нескольких онтологий для интеграции при наличии общего словаря.

Смотрите также

Дальнейшее чтение

  • Chicco, D; Masseroli, M (2016). «Прогнозирование и приоритизация функциональных аннотаций генов на основе онтологии». Труды IEEE/ACM по вычислительной биологии и биоинформатике . 13 (2): 248–260. doi :10.1109/TCBB.2015.2459694. PMID  27045825. S2CID  2795344.

Ссылки

  1. ^ abcdef H. Wache; T. Vögele; U. Visser; H. Stuckenschmidt; G. Schuster; H. Neumann; S. Hübner (2001). Интеграция информации на основе онтологии. Обзор существующих подходов . CiteSeerX 10.1.1.142.4390 . 
  2. ^ Маурицио Ленцерини (2002). Интеграция данных: теоретическая перспектива (PDF) . стр. 243–246.
  3. ^ ab AP Sheth (1999). «Изменение фокуса на интероперабельности в информационных системах: от системы, синтаксиса, структуры к семантике». Взаимодействие географических информационных систем. MF Goodchild, MJ Egenhofer, R. Fegeas и CA Kottman (ред.), Kluwer Academic Publishers (PDF) . стр. 5–30.
  4. ^ AHM02 Учебник 5: Интеграция данных и посредничество; Авторы: B. Ludaescher, I. Altintas, A. Gupta, M. Martone, R. Marciano, X. Qian
  5. ^ "AHM02 Tutorial 5: Data Integration and Mediation". users.sdsc.edu . Получено 2017-11-23 .
  6. ^ ab Y. Arens; C. Hsu; CA Knoblock (1996). Обработка запросов в информационном посреднике sims (PDF) .
  7. ^ "Semantic Knowledge Source Integration | Cycorp". www.cyc.com . Архивировано из оригинала 2014-05-17.
  8. ^ "Использование Cyc для ответа на специальные запросы клинических исследователей | Lenat | Журнал AI". Архивировано из оригинала 2010-12-31 . Получено 2014-05-15 .
  9. ^ "Главная". gellish.net .
  10. ^ E. Mena; V. Kashyap; A. Sheth; A. Illarramendi (1996). OBSERVER: Подход к обработке запросов в глобальных информационных системах на основе взаимодействия между уже существующими онтологиями (PDF) .
  11. ^ Ченг Хиан Го (1997). Представление и рассуждение о семантических конфликтах в гетерогенных информационных системах (PDF) .
  • Домашняя страница ОБОЗРЕВАТЕЛЬ
  • Интеграция источников семантических знаний Cyc (SKSI)
Взято с "https://en.wikipedia.org/w/index.php?title=Интеграция_данных_на_основе_онтологии&oldid=1168051454"