Управление языковыми ресурсами – Структура лексической разметки ( LMF ; ISO 24613 ), разработанная ISO/TC 37 , является стандартом ISO для обработки естественного языка (NLP) и лексиконов машиночитаемого словаря (MRD) . [1] Областью применения является стандартизация принципов и методов, относящихся к языковым ресурсам в контексте многоязычной коммуникации.
Цели LMF — предоставить общую модель для создания и использования лексических ресурсов , управлять обменом данными между этими ресурсами и обеспечить возможность объединения большого количества отдельных электронных ресурсов для формирования обширных глобальных электронных ресурсов.
Типы отдельных экземпляров LMF могут включать одноязычные, двуязычные или многоязычные лексические ресурсы. Одни и те же спецификации должны использоваться как для малых, так и для больших лексиконов, как для простых, так и для сложных лексиконов, как для письменных, так и для устных лексических представлений. Описания варьируются от морфологии , синтаксиса , вычислительной семантики до автоматизированного перевода . Охваченные языки не ограничиваются европейскими языками , а охватывают все естественные языки . Диапазон целевых приложений NLP не ограничен. LMF может представлять большинство лексиконов, включая лексики WordNet , EDR и PAROLE.
В прошлом стандартизация лексики изучалась и разрабатывалась в рамках ряда проектов, таких как GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE и ISLE. Затем национальные делегации ISO/TC 37 решили заняться стандартами, посвященными NLP и представлению лексики. Работа над LMF началась летом 2003 года с нового предложения по рабочему элементу, выпущенного делегацией США. Осенью 2003 года французская делегация выпустила техническое предложение по модели данных, посвященной лексике NLP. В начале 2004 года комитет ISO/TC 37 решил сформировать общий проект ISO с Николеттой Кальцолари ( CNR -ILC Италия) в качестве организатора и Жилем Франкопуло (Tagmatica Франция) и Монте Джорджем ( ANSI , США) в качестве редакторов. Первым шагом в разработке LMF было проектирование общей структуры на основе общих характеристик существующих лексиконов и разработка единой терминологии для описания компонентов этих лексиконов. Следующим шагом было фактическое проектирование всеобъемлющей модели, которая наилучшим образом представляла бы все лексики в деталях. Большая группа из 60 экспертов внесла широкий спектр требований к LMF, которые охватывали многие типы лексиконов NLP. Редакторы LMF тесно сотрудничали с группой экспертов, чтобы определить лучшие решения и достичь консенсуса по проектированию LMF. Особое внимание было уделено морфологии, чтобы обеспечить мощные механизмы для решения проблем на нескольких языках, которые были известны как сложные для решения. Было написано 13 версий, отправленных (национальным номинированным экспертам), прокомментированных и обсужденных на различных технических совещаниях ISO. После пяти лет работы, включая многочисленные личные встречи и обмены электронными письмами, редакторы пришли к согласованной модели UML. В заключение, LMF следует считать синтезом современного состояния в области лексики NLP.
Номер ISO — 24613. Спецификация LMF была официально опубликована в качестве международного стандарта 17 ноября 2008 года.
Стандарты ISO/TC 37 в настоящее время разрабатываются как спецификации высокого уровня и касаются сегментации слов (ISO 24614), аннотаций (ISO 24611, также известный как MAF, ISO 24612, также известный как LAF, ISO 24615, также известный как SynAF, и ISO 24617-1, также известный как SemAF/Time), структур признаков (ISO 24610), контейнеров мультимедиа (ISO 24616, также известный как MLIF) и лексиконов (ISO 24613). Эти стандарты основаны на спецификациях низкого уровня, посвященных константам, а именно категориям данных (пересмотр ISO 12620), языковым кодам ( ISO 639 ), кодам сценариев ( ISO 15924 ), кодам стран ( ISO 3166 ) и Unicode ( ISO 10646 ).
Двухуровневая организация образует целостную систему стандартов со следующими общими и простыми правилами:
Такие лингвистические константы, как /женский/ или /переходный/, не определены в LMF, но занесены в Реестр категорий данных (DCR), который поддерживается как глобальный ресурс ISO/TC 37 в соответствии со стандартом ISO/IEC 11179-3:2003. [2] И эти константы используются для украшения структурных элементов высокого уровня.
Спецификация LMF соответствует принципам моделирования Unified Modeling Language (UML), определенным Object Management Group (OMG). Структура задается с помощью диаграмм классов UML . Примеры представлены с помощью диаграмм экземпляров (или объектов) UML.
XML DTD приведен в приложении к документу LMF.
LMF состоит из следующих компонентов:
Расширения специально предназначены для морфологии , MRD , синтаксиса NLP , семантики NLP , многоязычных нотаций NLP , морфологических шаблонов NLP , шаблонов многословных выражений и шаблонов выражений ограничений .
В следующем примере лексическая запись связана с леммой clergyman и двумя флективными формами clergyman и clergymen . Кодировка языка установлена для всего лексического ресурса. Значение языка установлено для всего лексикона, как показано на следующей диаграмме экземпляра UML .
Элементы Lexical Resource , Global Information , Lexicon , Lexical Entry , Lemma и Word Form определяют структуру лексикона. Они указаны в документе LMF. Напротив, languageCoding , language , partOfSpeech , commonNoun , writtenForm , grammaticalNumber , singular , plural являются категориями данных, которые берутся из Data Category Registry. Эти метки украшают структуру. Значения ISO 639-3 , clergyman , clergymen являются простыми строками символов. Значение eng берется из списка языков, определенных ISO 639-3 .
С некоторой дополнительной информацией, такой как dtdVersion и feat , те же данные можно выразить следующим фрагментом XML :
<LexicalResource dtdVersion= "15" > <GlobalInformation> <feat att= "languageCoding" val= "ISO 639-3" /> </GlobalInformation> <Lexicon> <feat att= "language" val= "eng" /> < LexicalEntry> <feat att= "partOfSpeech" val= "commonNoun" /> <Lemma> <feat att= "writingForm" val= "священнослужитель" /> </Lemma> <WordForm> <feat att= "writingForm" val= "священнослужитель" /> <feat att= "grammaticalNumber" val= "единственное число" /> </WordForm> <WordForm> <feat att= "writingForm" val= "священнослужители" /> <feat att= "grammaticalNumber" val= "plural" /> </WordForm> </LexicalEntry> </Lexicon> </LexicalResource>
Этот пример довольно прост, в то время как LMF может представлять гораздо более сложные лингвистические описания, разметка XML соответственно сложна.
Первая публикация о спецификации LMF, ратифицированной ISO (эта статья стала (в 2015 году) 9-й наиболее цитируемой статьей на конференциях по языковым ресурсам и оценке среди статей LREC):
О семантическом представлении:
Об африканских языках:
Об азиатских языках:
О европейских языках:
О семитских языках:
О собственных именах:
В 2013 году была опубликована книга: LMF Lexical Markup Framework [14] , которая полностью посвящена LMF. Первая глава посвящена истории моделей лексикона, вторая глава представляет собой формальное представление модели данных, а третья посвящена связи с категориями данных ISO-DCR. Остальные 14 глав посвящены лексикону или системе, как в гражданской, так и в военной сфере, как в научно-исследовательских лабораториях, так и для промышленных приложений. Это Wordnet-LMF, Prolmf, DUELME, UBY-LMF , LG-LMF, RELISH, GlobalAtlas (или Global Atlas) и Wordscape.