Интеграция данных на основе онтологий подразумевает использование одной или нескольких онтологий для эффективного объединения данных или информации из нескольких разнородных источников. [1] Это один из подходов к интеграции множественных данных , который можно классифицировать как Global-As-View (GAV). [2] Эффективность интеграции данных на основе онтологий тесно связана с согласованностью и выразительностью онтологии, используемой в процессе интеграции.
Фон
Данные из нескольких источников характеризуются множественными типами неоднородности. Часто используется следующая иерархия: [3] [4] [5]
Синтаксическая неоднородность: является результатом различий в формате представления данных.
Схематическая или структурная неоднородность: собственная модель или структура для хранения данных различаются в источниках данных, что приводит к структурной неоднородности. Схематическая неоднородность, которая особенно проявляется в структурированных базах данных, также является аспектом структурной неоднородности. [3]
Семантическая неоднородность : различия в интерпретации «значения» данных являются источником семантической неоднородности.
Неоднородность системы: использование разных операционных систем и аппаратных платформ приводит к неоднородности системы.
Онтологии , как формальные модели представления с явно определенными концепциями и именованными отношениями, связывающими их, используются для решения проблемы семантической неоднородности в источниках данных. В таких областях, как биоинформатика и биомедицина , быстрое развитие, принятие и публичная доступность онтологий [1] позволили сообществу интеграции данных использовать их для семантической интеграции данных и информации.
Роль онтологий
Онтологии позволяют однозначно идентифицировать сущности в гетерогенных информационных системах и утверждать применимые именованные отношения, которые связывают эти сущности вместе. В частности, онтологии играют следующие роли:
Содержание Экспликация
[1] Онтология обеспечивает точную интерпретацию данных из нескольких источников посредством явного определения терминов и отношений в онтологии.
Модель запроса
[1] В некоторых системах, таких как SIMS, [6] запрос формулируется с использованием онтологии как глобальной схемы запроса.
Проверка
[1] Онтология проверяет сопоставления, используемые для интеграции данных из нескольких источников. Эти сопоставления могут быть либо указаны пользователем, либо сгенерированы системой.
Подходы с использованием онтологий для интеграции данных
Существуют три основные архитектуры, которые реализованы в приложениях интеграции данных на основе онтологий, [1], а именно:
Подход на основе единой онтологии
В качестве глобальной справочной модели в системе используется одна онтология. Это самый простой подход, поскольку его можно смоделировать с помощью других подходов. [1] SIMS [6] яркий пример этого подхода. Компонент Structured Knowledge Source Integration Research Cyc является еще одним ярким примером этого подхода. [7] [8] (Название = Harnessing Cyc to Answer Clinical Researchers' Ad Hoc Queries). Таксономический словарь-онтология Gellish также следует этому подходу. [9]
Множественные онтологии
Несколько онтологий, каждая из которых моделирует отдельный источник данных, используются в комбинации для интеграции. Хотя этот подход более гибок, чем подход с одной онтологией, он требует создания отображений между несколькими онтологиями. Отображение онтологий является сложной проблемой и находится в центре внимания большого количества исследовательских усилий в области компьютерных наук [2]. Система OBSERVER [10] является примером такого подхода.
Гибридные подходы
Гибридный подход предполагает использование нескольких онтологий, которые подписываются на общий словарь верхнего уровня. [11] Словарь верхнего уровня определяет основные термины предметной области. Таким образом, гибридный подход упрощает использование нескольких онтологий для интеграции при наличии общего словаря.
Chicco, D; Masseroli, M (2016). «Прогнозирование и приоритизация функциональных аннотаций генов на основе онтологии». Труды IEEE/ACM по вычислительной биологии и биоинформатике . 13 (2): 248–260. doi :10.1109/TCBB.2015.2459694. PMID 27045825. S2CID 2795344.
Ссылки
^ abcdef H. Wache; T. Vögele; U. Visser; H. Stuckenschmidt; G. Schuster; H. Neumann; S. Hübner (2001). Интеграция информации на основе онтологии. Обзор существующих подходов . CiteSeerX 10.1.1.142.4390 .
^ ab AP Sheth (1999). «Изменение фокуса на интероперабельности в информационных системах: от системы, синтаксиса, структуры к семантике». Взаимодействие географических информационных систем. MF Goodchild, MJ Egenhofer, R. Fegeas и CA Kottman (ред.), Kluwer Academic Publishers (PDF) . стр. 5–30.
^ AHM02 Учебник 5: Интеграция данных и посредничество; Авторы: B. Ludaescher, I. Altintas, A. Gupta, M. Martone, R. Marciano, X. Qian
^ "AHM02 Tutorial 5: Data Integration and Mediation". users.sdsc.edu . Получено 2017-11-23 .
^ ab Y. Arens; C. Hsu; CA Knoblock (1996). Обработка запросов в информационном посреднике sims (PDF) .
^ "Использование Cyc для ответа на специальные запросы клинических исследователей | Lenat | Журнал AI". Архивировано из оригинала 2010-12-31 . Получено 2014-05-15 .
^ "Главная". gellish.net .
^ E. Mena; V. Kashyap; A. Sheth; A. Illarramendi (1996). OBSERVER: Подход к обработке запросов в глобальных информационных системах на основе взаимодействия между уже существующими онтологиями (PDF) .
^ Ченг Хиан Го (1997). Представление и рассуждение о семантических конфликтах в гетерогенных информационных системах (PDF) .
Внешние ссылки
Домашняя страница ОБОЗРЕВАТЕЛЬ
Интеграция источников семантических знаний Cyc (SKSI)