plWordNet — это лексико-семантическая база данных польского языка . Она включает в себя наборы синонимичных лексических единиц ( синсетов ), за которыми следуют краткие определения. plWordNet служит в качестве тезауруса-словаря, в котором понятия (синсеты) и отдельные значения слов ( лексические единицы ) определяются по их расположению в сети взаимоотношений, отражающих лексико-семантическую систему польского языка. [1] plWordNet также используется в качестве одного из основных ресурсов для построения инструментов обработки естественного языка для польского языка. [1]
plWordNet разрабатывается во Вроцлавском технологическом университете в рамках CLARIN . Работы ведутся группой WrocUT Language Technology Group G4.19 с 2005 года [2] при финансовой поддержке Министерства науки и высшего образования и ЕС. Тезаурус был создан «с нуля» лексикографами и инженерами естественного языка. [3] Первая версия plWordNet была опубликована в 2009 году — она содержала 20 223 леммы, 26 990 лексических единиц и 17 695 синсетов. [4] Версия 4.0 была выпущена в 2018 году. Самая последняя версия — plWordNet 4.2.
В настоящее время plWordNet содержит 195 тыс. лемм , 295 тыс. лексических единиц и 228 тыс. синсетов. [5] Он уже перерос Princeton WordNet по количеству лексических единиц. plWordNet состоит из существительных (135 тыс.), глаголов (21 тыс.), прилагательных (29 тыс.) и наречий (8 тыс.). [5] Каждое значение данного слова является отдельной лексической единицей. Единицы, представляющие одно и то же понятие и не имеющие существенных различий по стилистическому регистру, были объединены в синсеты — наборы синонимов. Каждая лексическая единица отнесена к одному из доменов (семантических категорий), указывающих на ее общее значение. Домены plWordNet соответствуют файлам лексикографов Princeton WordNet .
Домены существительных [6] | Домены глаголов [7] | Прилагательные домены [8] |
---|---|---|
|
|
|
Некоторые лексические единицы снабжены информацией о стилистическом регистре, кратким определением, примерами употребления и ссылкой на соответствующую статью в Википедии.
существительное | място | город, город | ||
---|---|---|---|---|
домен | miejsce i umiejscowienie | место и местоположение | ||
определение | услуги, строительство и застройка, которые могут быть использованы для администрирования; miejsce życia ludzi pracujących w przemyśle lub usługach | большая, густонаселенная и густонаселенная территория с отдельным управлением; место проживания людей, работающих в промышленности или сфере услуг | ||
пример | W mieście człowiek ma większą szansę na zrobienie kariery and zarobienie pieniędzy, choć jednocześnie latwiej tam niż na wsi popaść w ubostwo. | В городе гораздо легче сделать карьеру, чем в деревне, но и впасть в нищету гораздо легче. |
Наиболее важным элементом, определяющим значение слов, являются лексико-семантические и деривационные отношения, которые существуют между синсетами и между лексическими единицами. Один синсет объединяет такие лексические единицы, которые разделяют один и тот же набор отношений. [9] На основе отношений, назначенных синсетам и единицам, инструменты для обработки естественного языка могут сделать вывод о значении леммы, что важно, например, при разрешении неоднозначности смысла слова .
Связь | Тест | Пример |
---|---|---|
синонимия |
| {кот2; кот domowy1}, 'кошка, домашняя кошка' |
межрегистровая синонимия |
| {chłopiec1}, {gówniarz1}, 'мальчик, ~ребёнок, сквирт' |
гипо-/гипернимия |
| {buk1} jest Rodzajem {drzewo liściaste1} , « бук» — это разновидность « лиственного дерева». |
меро-/холонимия |
| {poduszka powietrzna1} jest częścią {samochód1} , « подушка безопасности» является частью « автомобиля» |
Польские синсеты связаны с соответствующими синсетами Princeton WordNet с помощью набора межъязыковых лексико-семантических отношений (таких как, например, синонимия, частичная синонимия, гипонимия ). На данный момент сопоставлено 91 578 синсетов (что составляет около 2/3 синсетов plWordNet, среди которых в основном существительные). [10] Сопоставление позволяет применять plWordNet в машинном переводе , например, в онлайн-сервисе, предлагаемом Google Translate . Сопоставление может быть полезным для использования инструментов текстового анализа с английского на польский. [11]
plWordNet доступен по лицензии открытого доступа , что позволяет свободно просматривать. Он был предоставлен пользователям в виде онлайн-словаря, мобильного приложения и веб-сервисов. Некоторые приложения plWordNet: