В цифровой лексикографии , обработке естественного языка и цифровых гуманитарных науках лексический ресурс — это языковой ресурс, состоящий из данных о лексемах лексикона одного или нескольких языков, например , в форме базы данных . [1]
Существуют различные стандарты для машиночитаемого издания лексических ресурсов, например, Lexical Markup Framework (LMF) — стандарт ISO для кодирования лексических ресурсов, включающий абстрактную модель данных и сериализацию XML [2] и OntoLex-Lemon — словарь RDF для публикации лексических ресурсов в виде графов знаний в Интернете, например, как Linguistic Linked Open Data [3] .
В зависимости от типа языков, к которым обращаются, лексический ресурс может быть квалифицирован как монолингвальный , двуязычный или многоязычный . Для двуязычных и многоязычных лексических ресурсов слова могут быть связаны или не связаны с одного языка на другой. При наличии связи эквивалентность с одного языка на другой выполняется через двуязычную связь (для двуязычных лексических ресурсов, например, с использованием отношения vartrans:translatableAs в OntoLex-Lemon ) или через многоязычные нотации (для многоязычных лексических ресурсов, например, путем ссылки на тот же ontolex:Concept в OntoLex-Lemon). [4]
Также можно создать и управлять лексическим ресурсом, состоящим из различных словарей одного и того же языка, например, один словарь для общих слов и один или несколько словарей для различных специализированных доменов.
Лексические ресурсы в цифровой лексикографии часто называют машиночитаемым словарем ( MRD ), словарем, хранящимся в виде машинных (компьютерных) данных, а не напечатанным на бумаге. Это электронный словарь и лексическая база данных. Термин MRD часто противопоставляют словарю NLP в том смысле, что MRD — это электронная форма словаря, который был напечатан ранее на бумаге. Хотя оба они используются программами, напротив, термин словарь NLP предпочтительнее, когда словарь был создан с нуля с учетом NLP. [5]
Лексическая база данных — это лексический ресурс, имеющий связанную с ним базу данных программной среды , которая позволяет получить доступ к его содержимому. База данных может быть специально разработана для лексической информации или быть базой данных общего назначения, в которую была введена лексическая информация.
Информация, обычно хранящаяся в лексической базе данных, включает в себя написание , лексическую категорию и синонимы слов, а также семантические и фонологические отношения между различными словами или наборами слов.