Лексический ресурс

Цифровая база данных слов

В цифровой лексикографии , обработке естественного языка и цифровых гуманитарных науках лексический ресурс — это языковой ресурс, состоящий из данных о лексемах лексикона одного или нескольких языков, например , в форме базы данных . [1]

Характеристики

Существуют различные стандарты для машиночитаемого издания лексических ресурсов, например, Lexical Markup Framework (LMF) — стандарт ISO для кодирования лексических ресурсов, включающий абстрактную модель данных и сериализацию XML [2] и OntoLex-Lemon — словарь RDF для публикации лексических ресурсов в виде графов знаний в Интернете, например, как Linguistic Linked Open Data [3] .

В зависимости от типа языков, к которым обращаются, лексический ресурс может быть квалифицирован как монолингвальный , двуязычный или многоязычный . Для двуязычных и многоязычных лексических ресурсов слова могут быть связаны или не связаны с одного языка на другой. При наличии связи эквивалентность с одного языка на другой выполняется через двуязычную связь (для двуязычных лексических ресурсов, например, с использованием отношения vartrans:translatableAs в OntoLex-Lemon ) или через многоязычные нотации (для многоязычных лексических ресурсов, например, путем ссылки на тот же ontolex:Concept в OntoLex-Lemon). [4]

Также можно создать и управлять лексическим ресурсом, состоящим из различных словарей одного и того же языка, например, один словарь для общих слов и один или несколько словарей для различных специализированных доменов.

Машиночитаемый словарь против словаря NLP

Лексические ресурсы в цифровой лексикографии часто называют машиночитаемым словарем ( MRD ), словарем, хранящимся в виде машинных (компьютерных) данных, а не напечатанным на бумаге. Это электронный словарь и лексическая база данных. Термин MRD часто противопоставляют словарю NLP в том смысле, что MRD — это электронная форма словаря, который был напечатан ранее на бумаге. Хотя оба они используются программами, напротив, термин словарь NLP предпочтительнее, когда словарь был создан с нуля с учетом NLP. [5]

Лексическая база данных

Лексическая база данных — это лексический ресурс, имеющий связанную с ним базу данных программной среды , которая позволяет получить доступ к его содержимому. База данных может быть специально разработана для лексической информации или быть базой данных общего назначения, в которую была введена лексическая информация.

Информация, обычно хранящаяся в лексической базе данных, включает в себя написание , лексическую категорию и синонимы слов, а также семантические и фонологические отношения между различными словами или наборами слов.

Смотрите также

Ссылки

  1. ^ SARMA, Shikhar Kr, et al. Создание многоязычных лексических ресурсов с использованием wordnets: структура, проектирование и реализация. В: Труды 3-го семинара по когнитивным аспектам лексики . 2012. С. 161-170.
  2. ^ Франкопуло, Джил; Бел, Нурия; Джордж, Монте; Кальцолари, Николетта; Монакини, Моника; Пет, Мэнди; Сория, Клаудия (2009-03-01). "Многоязычные ресурсы для обработки естественного языка в фреймворке лексической разметки (LMF)" (PDF) . Языковые ресурсы и оценка . 43 (1): 57–70. doi :10.1007/s10579-008-9077-5. ISSN  1574-0218. S2CID  7697316.
  3. ^ Чимиано, Филипп; Кьяркос, Кристиан; МакКрей, Джон П.; Грасия, Хорхе (2020), Лингвистические связанные данные: представление, генерация и применение , Springer International Publishing, стр. 45–59, doi : 10.1007/978-3-030-30225-2_4, ISBN 978-3-030-30225-2, S2CID  214148590
  4. ^ Cimiano, Phillip; McCrae, John P.; Buitelaar, Paul. «Модель лексикона для онтологий: отчет сообщества, 10 мая 2016 г. Заключительный отчет группы сообщества 10 мая 2016 г.». W3C . Получено 6 декабря 2019 г. .
  5. ^ Джил Франкопуло (редактор) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 ) 
Получено с "https://en.wikipedia.org/w/index.php?title=Лексический_ресурс&oldid=1249775139"