Структура лексической разметки

стандарт ИСО

Управление языковыми ресурсами – Структура лексической разметки ( LMF ; ISO 24613 ), разработанная ISO/TC 37 , является стандартом ISO для обработки естественного языка (NLP) и лексиконов машиночитаемого словаря (MRD) . ^[1] Областью применения является стандартизация принципов и методов, относящихся к языковым ресурсам в контексте многоязычной коммуникации.

Цели

Цели LMF — предоставить общую модель для создания и использования лексических ресурсов , управлять обменом данными между этими ресурсами и обеспечить возможность объединения большого количества отдельных электронных ресурсов для формирования обширных глобальных электронных ресурсов.

Типы отдельных экземпляров LMF могут включать одноязычные, двуязычные или многоязычные лексические ресурсы. Одни и те же спецификации должны использоваться как для малых, так и для больших лексиконов, как для простых, так и для сложных лексиконов, как для письменных, так и для устных лексических представлений. Описания варьируются от морфологии , синтаксиса , вычислительной семантики до автоматизированного перевода . Охваченные языки не ограничиваются европейскими языками , а охватывают все естественные языки . Диапазон целевых приложений NLP не ограничен. LMF может представлять большинство лексиконов, включая лексики WordNet , EDR и PAROLE.

История

В прошлом стандартизация лексики изучалась и разрабатывалась в рамках ряда проектов, таких как GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE и ISLE. Затем национальные делегации ISO/TC 37 решили заняться стандартами, посвященными NLP и представлению лексики. Работа над LMF началась летом 2003 года с нового предложения по рабочему элементу, выпущенного делегацией США. Осенью 2003 года французская делегация выпустила техническое предложение по модели данных, посвященной лексике NLP. В начале 2004 года комитет ISO/TC 37 решил сформировать общий проект ISO с Николеттой Кальцолари ( CNR -ILC Италия) в качестве организатора и Жилем Франкопуло (Tagmatica Франция) и Монте Джорджем ( ANSI , США) в качестве редакторов. Первым шагом в разработке LMF было проектирование общей структуры на основе общих характеристик существующих лексиконов и разработка единой терминологии для описания компонентов этих лексиконов. Следующим шагом было фактическое проектирование всеобъемлющей модели, которая наилучшим образом представляла бы все лексики в деталях. Большая группа из 60 экспертов внесла широкий спектр требований к LMF, которые охватывали многие типы лексиконов NLP. Редакторы LMF тесно сотрудничали с группой экспертов, чтобы определить лучшие решения и достичь консенсуса по проектированию LMF. Особое внимание было уделено морфологии, чтобы обеспечить мощные механизмы для решения проблем на нескольких языках, которые были известны как сложные для решения. Было написано 13 версий, отправленных (национальным номинированным экспертам), прокомментированных и обсужденных на различных технических совещаниях ISO. После пяти лет работы, включая многочисленные личные встречи и обмены электронными письмами, редакторы пришли к согласованной модели UML. В заключение, LMF следует считать синтезом современного состояния в области лексики NLP.

Текущая стадия

Номер ISO — 24613. Спецификация LMF была официально опубликована в качестве международного стандарта 17 ноября 2008 года.

Как один из членов семейства стандартов ISO/TC 37

Стандарты ISO/TC 37 в настоящее время разрабатываются как спецификации высокого уровня и касаются сегментации слов (ISO 24614), аннотаций (ISO 24611, также известный как MAF, ISO 24612, также известный как LAF, ISO 24615, также известный как SynAF, и ISO 24617-1, также известный как SemAF/Time), структур признаков (ISO 24610), контейнеров мультимедиа (ISO 24616, также известный как MLIF) и лексиконов (ISO 24613). Эти стандарты основаны на спецификациях низкого уровня, посвященных константам, а именно категориям данных (пересмотр ISO 12620), языковым кодам ( ISO 639 ), кодам сценариев ( ISO 15924 ), кодам стран ( ISO 3166 ) и Unicode ( ISO 10646 ).

Двухуровневая организация образует целостную систему стандартов со следующими общими и простыми правилами:

высокоуровневая спецификация обеспечивает структурные элементы, дополненные стандартизированными константами;
спецификации низкого уровня предоставляют стандартизированные константы в качестве метаданных.

Основные стандарты

Такие лингвистические константы, как /женский/ или /переходный/, не определены в LMF, но занесены в Реестр категорий данных (DCR), который поддерживается как глобальный ресурс ISO/TC 37 в соответствии со стандартом ISO/IEC 11179-3:2003. ^[2] И эти константы используются для украшения структурных элементов высокого уровня.

Спецификация LMF соответствует принципам моделирования Unified Modeling Language (UML), определенным Object Management Group (OMG). Структура задается с помощью диаграмм классов UML . Примеры представлены с помощью диаграмм экземпляров (или объектов) UML.

XML DTD приведен в приложении к документу LMF.

Структура модели

LMF состоит из следующих компонентов:

Основной пакет, представляющий собой структурный скелет, описывающий базовую иерархию информации в лексической статье.
Расширения основного пакета, выраженные в структуре, описывающей повторное использование основных компонентов в сочетании с дополнительными компонентами, необходимыми для определенного лексического ресурса.

Расширения специально предназначены для морфологии , MRD , синтаксиса NLP , семантики NLP , многоязычных нотаций NLP , морфологических шаблонов NLP , шаблонов многословных выражений и шаблонов выражений ограничений .

Пример

В следующем примере лексическая запись связана с леммой clergyman и двумя флективными формами clergyman и clergymen . Кодировка языка установлена для всего лексического ресурса. Значение языка установлено для всего лексикона, как показано на следующей диаграмме экземпляра UML .

Элементы Lexical Resource , Global Information , Lexicon , Lexical Entry , Lemma и Word Form определяют структуру лексикона. Они указаны в документе LMF. Напротив, languageCoding , language , partOfSpeech , commonNoun , writtenForm , grammaticalNumber , singular , plural являются категориями данных, которые берутся из Data Category Registry. Эти метки украшают структуру. Значения ISO 639-3 , clergyman , clergymen являются простыми строками символов. Значение eng берется из списка языков, определенных ISO 639-3 .

С некоторой дополнительной информацией, такой как dtdVersion и feat , те же данные можно выразить следующим фрагментом XML :

<LexicalResource dtdVersion= "15" > <GlobalInformation> <feat att= "languageCoding" val= "ISO 639-3" /> </GlobalInformation> <Lexicon> <feat att= "language" val= "eng" /> < LexicalEntry> <feat att= "partOfSpeech" val= "commonNoun" /> <Lemma> <feat att= "writingForm" val= "священнослужитель" /> </Lemma> <WordForm> <feat att= "writingForm" val= "священнослужитель" /> <feat att= "grammaticalNumber" val= "единственное число" /> </WordForm> <WordForm> <feat att= "writingForm" val= "священнослужители" /> <feat att= "grammaticalNumber" val= "plural" /> </WordForm> </LexicalEntry> </Lexicon> </LexicalResource>

Этот пример довольно прост, в то время как LMF может представлять гораздо более сложные лингвистические описания, разметка XML соответственно сложна.

Избранные публикации о LMF

Первая публикация о спецификации LMF, ратифицированной ISO (эта статья стала (в 2015 году) 9-й наиболее цитируемой статьей на конференциях по языковым ресурсам и оценке среди статей LREC):

Языковые ресурсы и оценка LREC-2006/Генуя: Хиль Франкопуло, Монте Джордж, Николетта Кальцолари, Моника Монакини, Нурия Бел, Мэнди Пет, Клаудия Сориа: Структура лексической разметки (LMF) ^[3]

О семантическом представлении:

Gesellschaft für linguistische Datenverarbeitung GLDV-2007/Тюбинген: Хиль Франкопуло, Нурия Бел, Монте Джордж Николетта Кальцолари, Моника Монакини, Мэнди Пет, Клаудия Сориа: Стандарт лексической разметки ISO для семантической информации в лексиконах НЛП ^[4]

Об африканских языках:

Traitement Automatique des langues naturallles, Марсель, 2014: Мухамаду Хуле, Мухамад Ндианхо Тиам, Эль-Хадж Мамаду Нгер: На пути к созданию лексикона языка волоф на основе LMF (Vers la mise en Place d'un lexique basé sur LMF pour la langue wolof) ) [на французском языке] ^[5]

Об азиатских языках:

Лексикография, Журнал ASIALEX, Springer 2014: Структура лексической разметки: Джил Франкопуло, Чу-Рен Хуан: Стандарт ISO для электронных лексиконов и его значение для азиатских языков DOI 10.1007/s40607-014-0006-z

О европейских языках:

COLING 2010: Верена Хенрих, Эрхард Хинрихс: Стандартизация Wordnets в стандарте ISO LMF: Wordnet-LMF для GermaNet ^[6]
EACL 2012: Джудит Экл-Колер, Ирина Гуревич: Subcat-LMF: Разработка стандартизированного формата для взаимодействия фреймов подкатегоризации ^[7]
EACL 2012: Ирина Гуревич, Джудит Экл-Колер, Сильвана Хартманн, Михаэль Матушек, Кристиан М. Мейер, Кристиан Вирт: UBY — крупномасштабный унифицированный лексико-семантический ресурс на основе LMF. ^[8]

О семитских языках:

Журнал «Инженерия естественного языка» , Cambridge University Press (выходит весной 2015 г.): Айда Хемахем, Билель Гаргури, Абдельмаджид Бен Хамаду, Джил Франкопуло: Стандартное моделирование ИСО для большого арабского словаря.
Труды седьмой Всемирной конференции Wordnet 2014: Надя Б. М. Кармани, Хсан Сусу, Адель М. Алими: Создание стандартизированного Wordnet в формате ISO LMF для языка aeb. ^[9]
Материалы семинара: HLT и NLP в арабском мире, LREC 2008: Нуреддин Лукил, Кайс Хаддар, Абдельмаджид Бен Хамаду: На пути к синтаксическому словарю арабских глаголов. ^[10]
Traitement Automatique des Langues Naturelles, Тулуза (на французском языке), 2007: Хемахем А, Гаргури Б, Абдельвахед А, Франкопуло Г: Моделирование парадигм сгибания арабских глаголов selon la Norme LMF-ISO 24613. ^[11]

О собственных именах:

Языковые ресурсы и оценка LREC-2008/Марракеш: Денис Морель: Prolexbase. Многоязычная реляционная лексическая база данных имен собственных. ^[12] Этот ресурс доступен на веб-сайте ortolang. ^[13]

Посвященная книга

В 2013 году была опубликована книга: LMF Lexical Markup Framework ^[14] , которая полностью посвящена LMF. Первая глава посвящена истории моделей лексикона, вторая глава представляет собой формальное представление модели данных, а третья посвящена связи с категориями данных ISO-DCR. Остальные 14 глав посвящены лексикону или системе, как в гражданской, так и в военной сфере, как в научно-исследовательских лабораториях, так и для промышленных приложений. Это Wordnet-LMF, Prolmf, DUELME, UBY-LMF , LG-LMF, RELISH, GlobalAtlas (или Global Atlas) и Wordscape.

Связанные научные сообщения

Языковые ресурсы и оценка LREC-2006/Генуя: Соответствие стандартов исследовательским инфраструктурам ^[2]

Смотрите также

Вычислительная лексикология
Лексическая семантика
Морфология (лингвистика) для объяснения парадигм и морфосинтаксиса
Машинный перевод для представления различных типов многоязычных нотаций (см. раздел Подходы )
Морфологическая модель различия между парадигмой и моделью парадигмы
WordNet для презентации самого известного семантического лексикона английского языка
Universal Terminology eXchange (UTX) для ориентированного на пользователя альтернативного формата для машиночитаемых словарей
Универсальный сетевой язык
UBY-LMF для заявки LMF
OntoLex-Lemon для модели на основе LMF для публикации словарей в виде графов знаний , в формате RDF и/или в виде лингвистически связанных открытых данных

Ссылки

^ "ISO 24613-1:2024 – Управление языковыми ресурсами – Структура лексической разметки (LMF) – Часть 1: Основная модель". ISO . Получено 2024-01-31 .
^ ab "Значимость стандартов для исследовательских инфраструктур" (PDF) . Hal.inria.fr . Получено 24.01.2016 .
^ "Lexical Markup Framework (LMF)" (PDF) . Hal.inria.fr . Получено 2016-01-24 .
^ "Лексическая структура разметки (LMF) для многоязычных ресурсов NLP" (PDF) . Hal.inria.fr . Получено 24.01.2016 .
^ "Vers la mise en Place d'un lexique basé sur LMF pour la langue Wolof" (PDF) . Aclweb.org . Проверено 24 января 2016 г.
^ "Стандартизация Wordnets в стандарте ISO LMF: Wordnet-LMF для GermaNet" (PDF) . Aclweb.org . Получено 24.01.2016 .
^ "Subcat-LMF: Разработка стандартизированного формата для взаимодействия фреймов подкатегоризации" (PDF) . Aclweb.org : 550–560 . Апрель 2012 г. Получено 24.01.2016 .
^ "UBY – Крупномасштабный унифицированный лексико-семантический ресурс на основе LMF" (PDF) . Aclweb.org . Получено 24.01.2016 .
^ "Создание стандартизированного Wordnet в формате ISO LMF для языка aeb" (PDF) . Aclweb.org . Получено 24.01.2016 .
^ "LREC 2008 Proceedings". Lrec-conf.org . Получено 2016-01-24 .
^ «Моделирование парадигм сгибания арабских глаголов selon la Norme LMF - ISO 24613» (PDF) . Aclweb.org . Проверено 24 января 2016 г.
^ "Prolexbase. Многоязычная реляционная лексическая база данных имен собственных" (PDF) . Получено 2024-12-07 .
^ "Prolex" . Получено 2024-12-07 .
^ Джил Франкопуло (редактор) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 )

Внешние ссылки

веб-сайт ЛМФ
веб-сайт ЛИРИКИ

[1] "ISO 24613-1:2024 – Управление языковыми ресурсами – Структура лексической разметки (LMF) – Часть 1: Основная модель". ISO . Получено 2024-01-31 .

[inria1-2] "Значимость стандартов для исследовательских инфраструктур" (PDF) . Hal.inria.fr . Получено 24.01.2016 .

[3] "Lexical Markup Framework (LMF)" (PDF) . Hal.inria.fr . Получено 2016-01-24 .

[4] "Лексическая структура разметки (LMF) для многоязычных ресурсов NLP" (PDF) . Hal.inria.fr . Получено 24.01.2016 .

[5] "Vers la mise en Place d'un lexique basé sur LMF pour la langue Wolof" (PDF) . Aclweb.org . Проверено 24 января 2016 г.

[6] "Стандартизация Wordnets в стандарте ISO LMF: Wordnet-LMF для GermaNet" (PDF) . Aclweb.org . Получено 24.01.2016 .

[7] "Subcat-LMF: Разработка стандартизированного формата для взаимодействия фреймов подкатегоризации" (PDF) . Aclweb.org : 550–560 . Апрель 2012 г. Получено 24.01.2016 .

[8] "UBY – Крупномасштабный унифицированный лексико-семантический ресурс на основе LMF" (PDF) . Aclweb.org . Получено 24.01.2016 .

[9] "Создание стандартизированного Wordnet в формате ISO LMF для языка aeb" (PDF) . Aclweb.org . Получено 24.01.2016 .

[10] "LREC 2008 Proceedings". Lrec-conf.org . Получено 2016-01-24 .

[11] «Моделирование парадигм сгибания арабских глаголов selon la Norme LMF - ISO 24613» (PDF) . Aclweb.org . Проверено 24 января 2016 г.

[12] "Prolexbase. Многоязычная реляционная лексическая база данных имен собственных" (PDF) . Получено 2024-12-07 .

[13] "Prolex" . Получено 2024-12-07 .

[14] Джил Франкопуло (редактор) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 )