Национальный центр интеллектуального анализа текста

Академическое учреждение Великобритании

Национальный центр интеллектуального анализа текста (NaCTeM)
Учредил2004
Головное учреждение
Факультет компьютерных наук, Манчестерский университет
ПринадлежностьМанчестерский университет
ДиректорСофия Ананиаду
Расположение,
Веб-сайтwww.nactem.ac.uk

Национальный центр текстовой добычи ( NaCTeM ) [1] — это финансируемый государством центр текстовой добычи (ТМ). Он был создан для предоставления поддержки, консультаций и информации о технологиях ТМ и для распространения информации в более широком сообществе ТМ, а также для предоставления услуг и инструментов в ответ на требования академического сообщества Соединенного Королевства.

Программные инструменты и услуги, которые предоставляет NaCTeM , позволяют исследователям применять методы текстового интеллектуального анализа к проблемам в рамках их конкретных областей интересов – примеры этих инструментов приведены ниже. Помимо предоставления услуг, центр также участвует и вносит значительный вклад в сообщество исследователей текстового интеллектуального анализа как на национальном, так и на международном уровне в таких инициативах, как Europe PubMed Central .

Центр расположен в Манчестерском институте биотехнологии и управляется и организуется кафедрой компьютерных наук Манчестерского университета . NaCTeM вносит свой вклад в обработку естественного языка и извлечение информации , включая распознавание именованных сущностей и извлечение сложных взаимосвязей (или событий), которые существуют между именованными сущностями, а также параллельные и распределенные системы интеллектуального анализа данных в биомедицинских и клинических приложениях.

Услуги

TerMine

TerMine — это независимый от домена метод автоматического распознавания терминов, который можно использовать для поиска наиболее важных терминов в документе и их автоматического ранжирования. [2]

АкроМайн

AcroMine находит все известные развернутые формы аббревиатур , как они встречались в записях Medline , или наоборот, его можно использовать для поиска возможных аббревиатур расширенных форм, как они ранее встречались в Medline, и устранения их неоднозначности. [3]

Меди

Medie — интеллектуальная поисковая система для семантического поиска предложений, содержащих биомедицинские корреляции из рефератов Medline. [4] [5]

Факт+

Facta+ — поисковая система Medline для поиска связей между биомедицинскими концепциями. [6]

Визуализатор Facta+

Facta+ Visualizer — это веб-приложение, которое помогает понять результаты поиска FACTA+ с помощью интуитивно понятной графической визуализации. [7]

КЛЕЙО

KLEIO — это многогранная семантическая система поиска информации по рефератам Medline.

Европа PMC EvidenceFinder

Europe PMC EvidenceFinder Europe PMC EvidenceFinder помогает пользователям исследовать факты, которые касаются интересующих их объектов в полных текстах статей базы данных Europe PubMed Central . [8]

EUPMC Evidence Finder для анатомических объектов с мета-знаниями

EUPMC Evidence Finder для анатомических сущностей с мета-знаниями похож на Europe PMC EvidenceFinder, позволяя исследовать факты, касающиеся анатомических сущностей, в полнотекстовых статьях базы данных Europe PubMed Central. Факты можно фильтровать по различным аспектам их интерпретации (например, отрицание, уровень определенности, новизна).

Информация-PubMed

Info-PubMed предоставляет информацию и графическое представление биомедицинских взаимодействий, извлеченных из Medline с использованием технологии глубокого семантического анализа . Это дополняется словарем терминов, состоящим из более чем 200 000 названий белков / генов и идентификацией типов заболеваний и организмов .

Протоколы клинических испытаний (ASCOT)

ASCOT — это эффективное, семантически улучшенное поисковое приложение, настроенное для документов клинических испытаний. [9]

История медицины (HOM)

HOM — это семантическая поисковая система по архивам исторических медицинских документов.

Ресурсы

БиоЛексикон

BioLexicon — это крупный терминологический ресурс в области биомедицины. [10]

ГЕНИЯ

GENIA — это коллекция справочных материалов для разработки систем анализа биомедицинских текстов.

ГРЭК

GREC — это семантически аннотированный корпус рефератов Medline, предназначенный для обучения систем IE и/или ресурсов, которые используются для извлечения событий из биомедицинской литературы. [11]

Метаболиты и ферментные корпуса

Это корпус рефератов Medline, аннотированных экспертами с названиями метаболитов и ферментов.

Анатомия тела

Коллекция корпусов, вручную аннотированных с помощью мелкозернистых, независимых от видов анатомических сущностей, для содействия разработке систем интеллектуального анализа текста, которые могут выполнять подробный и всесторонний анализ биомедицинского научного текста. [12] [13]

Корпус метазнаний

Это обогащение корпуса событий GENIA, в котором события обогащаются различными уровнями информации, относящейся к их интерпретации. Цель состоит в том, чтобы позволить системам обучаться, чтобы различать события, которые являются фактической информацией или экспериментальным анализом, определенной информацией от предполагаемой информации и т. д. [14]

Проекты

Арго

Целью проекта Argo является разработка рабочей среды для анализа (в первую очередь аннотирования) текстовых данных. Рабочая среда, доступ к которой осуществляется как к веб-приложению, поддерживает комбинацию элементарных компонентов обработки текста для формирования комплексных рабочих процессов обработки. Она предоставляет функциональные возможности для ручного вмешательства в в противном случае автоматический процесс аннотирования путем исправления или создания новых аннотаций и облегчает совместную работу пользователей, предоставляя возможности совместного использования ресурсов, принадлежащих пользователям. Argo приносит пользу пользователям, таким как проектировщики текстового анализа, предоставляя интегрированную среду для разработки рабочих процессов обработки; аннотаторам/кураторам, предоставляя функции ручной аннотации, поддерживаемые автоматической предварительной и последующей обработкой; и разработчикам, предоставляя рабочую среду для тестирования и оценки текстовой аналитики.

Большой Механизм

Большие механизмы — это большие, объяснительные модели сложных систем, в которых взаимодействия имеют важные причинно-следственные эффекты. В то время как сбор больших данных все больше автоматизируется, создание больших механизмов остается в значительной степени человеческим усилием, которое становится все более сложным в соответствии с фрагментацией и распределением знаний. Возможность автоматизировать построение больших механизмов может оказать большое влияние на научные исследования. Как один из ряда различных проектов, составляющих программу больших механизмов, финансируемую DARPA , цель состоит в том, чтобы собрать всеобъемлющий большой механизм из литературы и предыдущих экспериментов и использовать его для вероятностной интерпретации данных паномики новых пациентов. Мы интегрируем машинное чтение литературы по раку с вероятностным рассуждением по заявлениям о раке, используя специально разработанные онтологии, вычислительное моделирование механизмов рака (путей), автоматизированную генерацию гипотез для расширения знаний о механизмах и «робота-ученого», который проводит эксперименты для проверки гипотез. Повторяющийся цикл интеллектуального анализа текста, моделирования, экспериментального тестирования и обновления мировоззрения призван привести к расширению знаний о механизмах рака.

Путьтекста

Pathtext/Refine — это система, разработанная для интеграции визуализатора пути, систем интеллектуального анализа текста и инструментов аннотирования. [15] [16]

ОБИЛЬНЫЙ

Целью этого проекта является создание хранилища знаний о биоразнообразии Филиппин путем объединения экспертных знаний и ресурсов филиппинских партнеров в соответствующей области с аналитикой больших данных на основе интеллектуального анализа текста Национального центра интеллектуального анализа текста Манчестерского университета. Репозиторий будет представлять собой синергию различных типов информации, например, таксономической, встречающейся, экологической, биомолекулярной, биохимической, тем самым предоставляя пользователям комплексное представление об интересующих их видах, что позволит им (1) проводить предиктивный анализ распределения видов и (2) исследовать потенциальные медицинские применения натуральных продуктов, полученных из филиппинских видов.

Европейский проект PMC

Это сотрудничество с группой Text-Mining Европейского института биоинформатики (EBI) и Mimas (центр обработки данных) , формирующее рабочий пакет в проекте Europe PubMed Central (ранее UKPMC), размещенном и координируемом Британской библиотекой . Europe PMC в целом формирует европейскую версию репозитория документов PubMed Central в сотрудничестве с Национальными институтами здравоохранения (NIH) в Соединенных Штатах. Europe PMC финансируется консорциумом ключевых финансирующих организаций из числа спонсоров биомедицинских исследований. Вклад в этот крупный проект заключается в применении решений по интеллектуальному анализу текста для улучшения поиска информации и обнаружения знаний. Таким образом, это применение технологии, разработанной в других проектах NaCTeM, в больших масштабах и в качестве важного ресурса для сообщества биомедицины.

Биоразнообразие в горнодобывающей промышленности

Целью этого проекта является преобразование Библиотеки наследия биоразнообразия (BHL) в социальный цифровой библиотечный ресурс следующего поколения для содействия изучению и обсуждению (через интеграцию социальных сетей) научных документов по биоразнообразию в мировом сообществе и повышения осведомленности широкой общественности об изменениях в биоразнообразии с течением времени. Проект интегрирует новые методы интеллектуального анализа текста, визуализацию, краудсорсинг и социальные сети в BHL. Полученный цифровой ресурс обеспечит полностью взаимосвязанный и индексированный доступ к полному содержанию документов библиотеки BHL с помощью семантически улучшенных и интерактивных возможностей просмотра и поиска, что позволит пользователям легко и эффективно находить именно ту информацию, которая им интересна.

Добыча полезных ископаемых для общественного здравоохранения

Целью этого проекта является проведение новых исследований в области интеллектуального анализа текста и машинного обучения для преобразования способа проведения обзоров общественного здравоохранения на основе фактических данных ( EBPH ). Цели проекта включают разработку новых неконтролируемых методов интеллектуального анализа текста для получения сходств терминов, поддержку скрининга во время обзоров EBPH и создание новых алгоритмов для ранжирования и визуализации значимых ассоциаций нескольких типов в динамическом и итеративном режиме. Эти недавно разработанные методы будут оцениваться в обзорах EBPH на основе внедрения пилотного проекта для определения уровня трансформации в обзорах EBPH.

Ссылки

  1. ^ Ананиаду С. (2007). «Национальный центр интеллектуального анализа текста: видение будущего». Ариадна (53).
  2. ^ Франци, К., Ананиаду, С. и Мима, Х. (2007). «Автоматическое распознавание многословных терминов» (PDF) . Международный журнал цифровых библиотек . 3 (2): 117–132 .{{cite journal}}: CS1 maint: multiple names: authors list (link)
  3. ^ Okazaki N, Ananiadou S (2006). «Создание словаря сокращений с использованием подхода распознавания терминов». Биоинформатика . 22 (24): 3089–95 . doi : 10.1093/bioinformatics/btl534 . PMID  17050571.
  4. ^ Мияо, Ё., Охта, Т., Масуда, К., Цуруока, Ё., Ёсида, К., Ниномия, Т. и Цудзи, Дж. (2006). Семантический поиск для точной идентификации реляционных концепций в массивных текстовых базах . Труды 21-й Международной конференции по компьютерной лингвистике и 44-го ежегодного заседания Ассоциации компьютерной лингвистики. С.  1017– 1024. doi : 10.3115/1220175.1220303 .{{cite conference}}: CS1 maint: multiple names: authors list (link)
  5. ^ "MEDIE". NaCTeM . Получено 25 марта 2022 г. .
  6. ^ Tsuruoka Y, Tsujii J, Ananiadou S (2008). "FACTA: текстовая поисковая система для поиска связанных биомедицинских концепций". Биоинформатика . 24 (21): 2559– 60. doi :10.1093/bioinformatics/btn469. PMC 2572701. PMID  18772154 . 
  7. ^ Tsuruoka, Y; Miwa, M; Hamamoto, K; Tsujii, J; Ananiadou, S (2011). «Обнаружение и визуализация косвенных ассоциаций между биомедицинскими концепциями». Биоинформатика . 27 (13): i111–9. doi :10.1093/bioinformatics/btr214. PMC 3117364. PMID  21685059 . 
  8. ^ Консорциум Europe PMC (2014). «Europe PMC: полнотекстовая база данных литературы по наукам о жизни и платформа для инноваций». Nucleic Acids Research . 43 (D1): D1042 – D1048 . doi :10.1093/nar/gku1061. PMC 4383902 . PMID  25378340.  
  9. ^ Корконцелос, И., Му, Т. и Ананиаду, С. (2012). "ASCOT: веб-сервис на основе интеллектуального анализа текста для эффективного поиска и создания клинических испытаний". BMC Medical Informatics and Decision Making . 12 (Suppl 1): S3. doi : 10.1186/1472-6947-12-S1-S3 . PMC 3339391. PMID  22595088 . {{cite journal}}: CS1 maint: multiple names: authors list (link)
  10. ^ Томпсон, П., Макнот, Дж., Монтеманьи, С., Кальцолари, Н., дель Гратта, Р., Ли, В., Марчи, С., Монакини, М., Пезик, П., Куочи, В., Рупп, СиДжей, Сасаки, Ю., Вентури, Г., Ребхольц-Шуман, Д. и Ананиаду, С. (2011). «Биолексикон: крупномасштабный терминологический ресурс для биомедицинского анализа текстов». БМК Биоинформатика . 12 : 397. дои : 10.1186/1471-2105-12-397 . ПМК 3228855 . ПМИД  21992002. {{cite journal}}: CS1 maint: multiple names: authors list (link)
  11. ^ Томпсон, П., Икбал, С.А., Макнот, Дж. и Ананиаду, С. (2009). «Создание аннотированного корпуса для поддержки извлечения биомедицинской информации». BMC Bioinformatics . 10 : 349. doi : 10.1186/1471-2105-10-349 . PMC 2774701. PMID  19852798 . {{cite journal}}: CS1 maint: multiple names: authors list (link)
  12. ^ Pyysalo, S., Ohta, T., Miwa, M., Cho, H. -C., Tsujii, J. и Ananiadou, S. (2012). «Извлечение событий на нескольких уровнях биологической организации». Биоинформатика . 28 (18): i575 – i581 . doi : 10.1093/bioinformatics/bts407. PMC 3436834. PMID  22962484.  {{cite journal}}: CS1 maint: multiple names: authors list (link)
  13. ^ Pyysalo, S. & Ananiadou, S. (2014). «Распознавание упоминаний анатомических сущностей в масштабе литературы». Биоинформатика . 30 (6): 868– 875. doi :10.1093/bioinformatics/btt580. PMC 3957068. PMID  24162468 . 
  14. ^ Томпсон, П., Наваз, Р., Макнот, Дж. и Ананиаду, С. (2011). «Обогащение корпуса биомедицинских событий аннотацией метазнаний». BMC Bioinformatics . 12 : 393. doi : 10.1186/1471-2105-12-393 . PMC 3222636. PMID  21985429 . {{cite journal}}: CS1 maint: multiple names: authors list (link)
  15. ^ Anon (2010). "PathText/Refine Project". nactem.ac.uk . Архивировано из оригинала 22 января 2022 года.
  16. ^ Брайан Кемпер; Такуя Мацузаки; Юкико Мацуока; Ёсимаса Цуруока; Хироаки Китано; София Ананиаду ; Дзюнъити Цудзи (1 июня 2010 г.). «PathText: интегратор интеллектуального анализа текста для визуализации биологических путей». Биоинформатика . 26 (12): i374-81. doi : 10.1093/БИОИНФОРМАТИКА/BTQ221. ISSN  1367-4803. ПМК 2881405 . PMID  20529930. Викиданные  Q33896337. 
  • http://www.nactem.ac.uk
Retrieved from "https://en.wikipedia.org/w/index.php?title=National_Centre_for_Text_Mining&oldid=1229747110"