Лексический ресурс

Цифровая база данных слов

В цифровой лексикографии , обработке естественного языка и цифровых гуманитарных науках лексический ресурс — это языковой ресурс, состоящий из данных о лексемах лексикона одного или нескольких языков, например , в форме базы данных . ^[1]

Характеристики

Существуют различные стандарты для машиночитаемого издания лексических ресурсов, например, Lexical Markup Framework (LMF) — стандарт ISO для кодирования лексических ресурсов, включающий абстрактную модель данных и сериализацию XML ^[2] и OntoLex-Lemon — словарь RDF для публикации лексических ресурсов в виде графов знаний в Интернете, например, как Linguistic Linked Open Data ^[3] .

В зависимости от типа языков, к которым обращаются, лексический ресурс может быть квалифицирован как монолингвальный , двуязычный или многоязычный . Для двуязычных и многоязычных лексических ресурсов слова могут быть связаны или не связаны с одного языка на другой. При наличии связи эквивалентность с одного языка на другой выполняется через двуязычную связь (для двуязычных лексических ресурсов, например, с использованием отношения vartrans:translatableAs в OntoLex-Lemon ) или через многоязычные нотации (для многоязычных лексических ресурсов, например, путем ссылки на тот же ontolex:Concept в OntoLex-Lemon). ^[4]

Также можно создать и управлять лексическим ресурсом, состоящим из различных словарей одного и того же языка, например, один словарь для общих слов и один или несколько словарей для различных специализированных доменов.

Машиночитаемый словарь против словаря NLP

Лексические ресурсы в цифровой лексикографии часто называют машиночитаемым словарем ( MRD ), словарем, хранящимся в виде машинных (компьютерных) данных, а не напечатанным на бумаге. Это электронный словарь и лексическая база данных. Термин MRD часто противопоставляют словарю NLP в том смысле, что MRD — это электронная форма словаря, который был напечатан ранее на бумаге. Хотя оба они используются программами, напротив, термин словарь NLP предпочтительнее, когда словарь был создан с нуля с учетом NLP. ^[5]

Лексическая база данных

Лексическая база данных — это лексический ресурс, имеющий связанную с ним базу данных программной среды , которая позволяет получить доступ к его содержимому. База данных может быть специально разработана для лексической информации или быть базой данных общего назначения, в которую была введена лексическая информация.

Информация, обычно хранящаяся в лексической базе данных, включает в себя написание , лексическую категорию и синонимы слов, а также семантические и фонологические отношения между различными словами или наборами слов.

Смотрите также

Lexical Markup Framework (LMF) , стандарт ISO для кодирования лексических ресурсов, включающий абстрактную модель данных и сериализацию XML
OntoLex-Lemon , словарь RDF для публикации лексических ресурсов в Интернете, например, в виде открытых лингвистически связанных данных
Серия конференций LREC
Машиночитаемый словарь
WordNet
Арабская онтология

Ссылки

^ SARMA, Shikhar Kr, et al. Создание многоязычных лексических ресурсов с использованием wordnets: структура, проектирование и реализация. В: Труды 3-го семинара по когнитивным аспектам лексики . 2012. С. 161-170.
^ Франкопуло, Джил; Бел, Нурия; Джордж, Монте; Кальцолари, Николетта; Монакини, Моника; Пет, Мэнди; Сория, Клаудия (2009-03-01). "Многоязычные ресурсы для обработки естественного языка в фреймворке лексической разметки (LMF)" (PDF) . Языковые ресурсы и оценка . 43 (1): 57–70. doi :10.1007/s10579-008-9077-5. ISSN 1574-0218. S2CID 7697316.
^ Чимиано, Филипп; Кьяркос, Кристиан; МакКрей, Джон П.; Грасия, Хорхе (2020), Лингвистические связанные данные: представление, генерация и применение , Springer International Publishing, стр. 45–59, doi : 10.1007/978-3-030-30225-2_4, ISBN 978-3-030-30225-2, S2CID 214148590
^ Cimiano, Phillip; McCrae, John P.; Buitelaar, Paul. «Модель лексикона для онтологий: отчет сообщества, 10 мая 2016 г. Заключительный отчет группы сообщества 10 мая 2016 г.». W3C . Получено 6 декабря 2019 г. .
^ Джил Франкопуло (редактор) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 )

Внешние ссылки

Open English WordNet — форк Princeton WordNet с открытым исходным кодом
Wordnets в мире на сайте Global WordNet Association
WordNet в Принстонском университете (больше не поддерживается)
Арабская онтология в Университете Бирзейт

[1] SARMA, Shikhar Kr, et al. Создание многоязычных лексических ресурсов с использованием wordnets: структура, проектирование и реализация. В: Труды 3-го семинара по когнитивным аспектам лексики . 2012. С. 161-170.

[2] Франкопуло, Джил; Бел, Нурия; Джордж, Монте; Кальцолари, Николетта; Монакини, Моника; Пет, Мэнди; Сория, Клаудия (2009-03-01). "Многоязычные ресурсы для обработки естественного языка в фреймворке лексической разметки (LMF)" (PDF) . Языковые ресурсы и оценка . 43 (1): 57–70. doi :10.1007/s10579-008-9077-5. ISSN 1574-0218. S2CID 7697316.

[3] Чимиано, Филипп; Кьяркос, Кристиан; МакКрей, Джон П.; Грасия, Хорхе (2020), Лингвистические связанные данные: представление, генерация и применение , Springer International Publishing, стр. 45–59, doi : 10.1007/978-3-030-30225-2_4, ISBN 978-3-030-30225-2, S2CID 214148590

[4] Cimiano, Phillip; McCrae, John P.; Buitelaar, Paul. «Модель лексикона для онтологий: отчет сообщества, 10 мая 2016 г. Заключительный отчет группы сообщества 10 мая 2016 г.». W3C . Получено 6 декабря 2019 г. .

[5] Джил Франкопуло (редактор) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 )