PlWordNet

plWordNet — это лексико-семантическая база данных польского языка . Она включает в себя наборы синонимичных лексических единиц ( синсетов ), за которыми следуют краткие определения. plWordNet служит в качестве тезауруса-словаря, в котором понятия (синсеты) и отдельные значения слов ( лексические единицы ) определяются по их расположению в сети взаимоотношений, отражающих лексико-семантическую систему польского языка. [1] plWordNet также используется в качестве одного из основных ресурсов для построения инструментов обработки естественного языка для польского языка. [1]

История

plWordNet разрабатывается во Вроцлавском технологическом университете в рамках CLARIN . Работы ведутся группой WrocUT Language Technology Group G4.19 с 2005 года [2] при финансовой поддержке Министерства науки и высшего образования и ЕС. Тезаурус был создан «с нуля» лексикографами и инженерами естественного языка. [3] Первая версия plWordNet была опубликована в 2009 году — она содержала 20 223 леммы, 26 990 лексических единиц и 17 695 синсетов. [4] Версия 4.0 была выпущена в 2018 году. Самая последняя версия — plWordNet 4.2.

Содержание

Данные получены 2014-05-30

В настоящее время plWordNet содержит 195 тыс. лемм , 295 тыс. лексических единиц и 228 тыс. синсетов. [5] Он уже перерос Princeton WordNet по количеству лексических единиц. plWordNet состоит из существительных (135 тыс.), глаголов (21 тыс.), прилагательных (29 тыс.) и наречий (8 тыс.). [5] Каждое значение данного слова является отдельной лексической единицей. Единицы, представляющие одно и то же понятие и не имеющие существенных различий по стилистическому регистру, были объединены в синсеты — наборы синонимов. Каждая лексическая единица отнесена к одному из доменов (семантических категорий), указывающих на ее общее значение. Домены plWordNet соответствуют файлам лексикографов Princeton WordNet .

Семантические категории в plWordNet

Домены существительных [6]Домены глаголов [7]Прилагательные домены [8]
  • самый высокий в иерархии (л.с.)
  • атрибут (чех)
  • мотив (чел)
  • время (czas)
  • тело (чч)
  • эмоция (чуй)
  • действовать (czy)
  • группа (грп)
  • количество (ил)
  • еда (джедз)
  • форма (ксз)
  • местоположение (мск)
  • человек (ос)
  • коммуникация (пор)
  • владение (поз.)
  • процесс (прц)
  • завод (rsl)
  • природный объект (rz)
  • вещество (сбст)
  • состояние (ст)
  • классификация (sys)
  • познание (умы)
  • артефакт (wytw)
  • событие (zdarz)
  • природное явление (зж)
  • животное (zw)
  • эмоция (cczuj)
  • потребление (cjedz)
  • коммуникация (cpor)
  • владение (cpos)
  • состояние (cst)
  • познание (куми)
  • создание (cwytw)
  • контакт (дтк)
  • тело (высокое)
  • погода (пог)
  • восприятие (pst)
  • движение (ruch)
  • социальный (sp)
  • конкуренция (wal)
  • изменение (zmn)
  • безъективный (град)
  • качество (как)
  • девербальный (odcz)
  • отношение (отн.)

Описание лексической единицы

Некоторые лексические единицы снабжены информацией о стилистическом регистре, кратким определением, примерами употребления и ссылкой на соответствующую статью в Википедии.

существительноемястогород, город
доменmiejsce i umiejscowienieместо и местоположение
определениеуслуги, строительство и застройка, которые могут быть использованы для администрирования; miejsce życia ludzi pracujących w przemyśle lub usługachбольшая, густонаселенная и густонаселенная территория с отдельным управлением; место проживания людей, работающих в промышленности или сфере услуг
примерW mieście człowiek ma większą szansę na zrobienie kariery and zarobienie pieniędzy, choć jednocześnie latwiej tam niż na wsi popaść w ubostwo.В городе гораздо легче сделать карьеру, чем в деревне, но и впасть в нищету гораздо легче.

Наиболее важным элементом, определяющим значение слов, являются лексико-семантические и деривационные отношения, которые существуют между синсетами и между лексическими единицами. Один синсет объединяет такие лексические единицы, которые разделяют один и тот же набор отношений. [9] На основе отношений, назначенных синсетам и единицам, инструменты для обработки естественного языка могут сделать вывод о значении леммы, что важно, например, при разрешении неоднозначности смысла слова .

Выбранные существительные отношения[9]

СвязьТестПример
синонимия
  • Если он/она/оно X, то он/она/оно также Y.
  • Если он/она/оно Y, то он/она/оно также X
{кот2; кот domowy1}, 'кошка, домашняя кошка'
межрегистровая синонимия
  • X и Y имеют общий гипероним, их наборы гипонимов не пересекаются
  • X и Y не являются синонимами
  • Если он/она/оно — X, то он/она/оно — также Y [в пределах разницы стилистического регистра]
  • Если он/она/оно — X, то он/она/оно — также Y [в пределах разницы стилистического регистра]
{chłopiec1}, {gówniarz1}, 'мальчик, ~ребёнок, сквирт'
гипо-/гипернимия
  • Если он/она/оно X, то он/она/оно должно быть Y.
  • Если он/она/оно Y, то он/она/оно не обязательно X
  • Если он/она/оно не Y, то он/она/оно не может быть X
{buk1} jest Rodzajem {drzewo liściaste1} , « бук» — это разновидность « лиственного дерева».
меро-/холонимия
  • X означает Y
  • Y не jest częścią X
  • Yest całością, której częścią jest X
{poduszka powietrzna1} jest częścią {samochód1} , « подушка безопасности» является частью « автомобиля»

Польские синсеты связаны с соответствующими синсетами Princeton WordNet с помощью набора межъязыковых лексико-семантических отношений (таких как, например, синонимия, частичная синонимия, гипонимия ). На данный момент сопоставлено 91 578 синсетов (что составляет около 2/3 синсетов plWordNet, среди которых в основном существительные). [10] Сопоставление позволяет применять plWordNet в машинном переводе , например, в онлайн-сервисе, предлагаемом Google Translate . Сопоставление может быть полезным для использования инструментов текстового анализа с английского на польский. [11]

Приложения

plWordNet доступен по лицензии открытого доступа , что позволяет свободно просматривать. Он был предоставлен пользователям в виде онлайн-словаря, мобильного приложения и веб-сервисов. Некоторые приложения plWordNet:

Ссылки

  1. ^ ab "Словосец".
  2. ^ Мазиарж М., Пясецкий М., Шпакович С., Приближаясь к plWordNet 2.0, http://nlp.pwr.wroc.pl/ltg/files/publications/paper%2042.pdf
  3. ^ "PlWordNet 3.1".
  4. ^ Пясецкий М., Шпакович С., Брода Б., Wordnet с нуля, Вроцлав, 2009, с. 170, http://www.plwordnet.pwr.wroc.pl/main/content/files/publications/A_Wordnet_from_the_Ground_Up.pdf
  5. ^ ab Подробную сравнительную статистику plWN и PWN можно найти на веб-странице plWN: http://plwordnet.pwr.wroc.pl/wordnet/stats [доступ: 30.06.2014]
  6. ^ Рабега-Вишневска Ю., Мазиарж М., Пясецкий М., Шпакович С., Описания лексико-семантических связей со Słowosieci 2.0. Жечовник, с. 4.
  7. ^ Хойка Б., Мазиарж М., Пясецкий М., Рабега-Вишневска Ю., Шпакович С., Описания лексико-семантических связей со Słowosieci 2.0. Часовник, с. 15-16.
  8. ^ Мазяж М., Шпакович С., Пясецкий М., Семантические отношения между прилагательными в польском WordNet 2.0: новый набор отношений, обсуждение и оценка, Когнитивные исследования / Études Cognitives, т. 12, с. 149–179, 2012.
  9. ^ ab Maziarz M., Piasecki M., Szpakowicz S., Rabiega-Wiśniewska J., Семантические отношения между существительными в польской сети слов, основанные на лексикографической и семантической традиции, Cognitive Studies/Études Cognitives, т., 11, с. 161-181, 2011.
  10. ^ http://plwordnet.pwr.wroc.pl/wordnet/stats [доступ: 30.05.2014]
  11. ^ Климчак, Кароль М. (2020). «Анализ текста в финансах: проблемы эффективного применения». Инновации в финансовых услугах: баланс государственных и частных интересов. Routledge. стр. 199–216. doi : 10.4324/9781003051664-15. ISBN 9781003051664.
Взято с "https://en.wikipedia.org/w/index.php?title=PlWordNet&oldid=1135567446"