Лексическая цепочка

Последовательность между семантически связанными упорядоченными словами классифицируется как лексическая цепочка . [1] Лексическая цепочка — это последовательность связанных слов в письменной форме , охватывающая узкое (соседние слова или предложения ) или широкое контекстное окно (весь текст). Лексическая цепочка не зависит от грамматической структуры текста и по сути является списком слов, который охватывает часть связной структуры текста. Лексическая цепочка может предоставить контекст для разрешения неоднозначного термина и позволить устранить неоднозначность понятий , которые представляет термин .

  • Рим → столица → город → житель
  • Википедия → ресурс → сеть

О

Моррис и Херст [1] вводят термин лексическая цепочка как расширение лексической связности. [2] Текст, в котором многие из его предложений семантически связаны, часто создает определенную степень непрерывности в своих идеях, обеспечивая хорошую связность среди его предложений. Определение, используемое для лексической связности, гласит, что связность является результатом связности, а не наоборот. [2] [3] Связность связана с набором слов, которые принадлежат друг другу из-за абстрактной или конкретной связи. Связность, с другой стороны, касается фактического значения во всем тексте. [1]

Моррис и Херст [1] определяют, что лексические цепочки используют семантический контекст для интерпретации слов, концепций и предложений. Напротив, лексическая связность больше сосредоточена на отношениях пар слов. Лексические цепочки расширяют это понятие до последовательного числа смежных слов. Есть две основные причины, по которым лексические цепочки необходимы: [1]

  • Возможный контекст, помогающий в разрешении двусмысленности и сужении проблем до конкретного значения слова; а также
  • Подсказки для определения связности и дискурса, а значит, и более глубокого семантико-структурного значения текста.

Метод, представленный Моррисом и Херстом [1], является первым, кто привнес концепцию лексической связности в компьютерные системы через лексические цепочки. Используя свою интуицию, они идентифицируют лексические цепочки в текстовых документах и ​​строят их структуру, учитывая наблюдения Халлидея и Хассана [2] . Для этой задачи они рассмотрели пять текстовых документов, в общей сложности 183 предложения из разных и неспецифических источников. Повторяющиеся слова (например, высокочастотные слова, местоимения, предложения, глагольные вспомогательные слова) не рассматривались как предполагаемые элементы цепочки, поскольку они не привносят большой семантической ценности в саму структуру.

Лексические цепочки строятся в соответствии с серией связей между словами в текстовом документе. В основополагающей работе Морриса и Херста [1] они рассматривают внешний тезаурус ( тезаурус Роже ) как свою лексическую базу данных для извлечения этих связей. Лексическая цепочка формируется последовательностью слов, появляющихся в таком порядке, что любые два последовательных слова представляют следующие свойства (т. е. атрибуты, такие как категория , индексы и указатели в лексической базе данных) : [1] [4] ж 1 , ж 2 , , ж н {\displaystyle w_{1},w_{2},\dotsc,w_{n}} ж я , ж я + 1 {\displaystyle w_{i},w_{i+1}}

  • два слова имеют одну общую категорию в своем индексе;
  • категория одного из этих слов указывает на другое слово;
  • одно из слов принадлежит к записи или категории другого слова;
  • два слова семантически связаны; и
  • их категории согласуются с общей категорией.

Подходы и методы

Использование лексических цепочек в задачах обработки естественного языка (например, сходство текста, устранение неоднозначности смысла слов , кластеризация документов ) широко изучалось в литературе. Барзилай и др. [5] используют лексические цепочки для создания резюме из текстов. Они предлагают метод, основанный на четырех шагах: сегментация исходного текста, построение лексических цепочек, идентификация надежных цепочек и извлечение значимых предложений. Силбер и Маккой [6] также исследуют реферирование текста , но их подход к построению лексических цепочек выполняется за линейное время.

Некоторые авторы используют WordNet [7] [8] для улучшения поиска и оценки лексических цепочек. Буданицкий и Кирст [9] [10] сравнивают несколько измерений семантического расстояния и родства, используя лексические цепочки в сочетании с WordNet . Их исследование приходит к выводу, что мера сходства Цзяна и Конрата [11] дает наилучший общий результат. Молдован и Адриан [12] изучают использование лексических цепочек для поиска тематически связанных слов для систем ответов на вопросы . Это делается с учетом глоссов для каждого синсета в WordNet. Согласно их выводам, тематические связи через лексические цепочки улучшают производительность систем ответов на вопросы в сочетании с WordNet . Маккарти и др. [13] представляют методологию категоризации и поиска наиболее преобладающих синсетов в непомеченных текстах с использованием WordNet . В отличие от традиционных подходов (например, BOW ), они рассматривают связи между терминами, не встречающимися явно. Эркан и Чикекли [14] исследуют эффекты лексических цепочек в задаче извлечения ключевых слов с помощью контролируемой перспективы машинного обучения. В Вэй и др. [15] объединяют лексические цепочки и WordNet для извлечения набора семантически связанных слов из текстов и используют их для кластеризации. Их подход использует онтологическую иерархическую структуру для обеспечения более точной оценки сходства между терминами в задаче устранения неоднозначности смысла слова .

Лексическая цепочка и встраивание слов

Несмотря на то, что применимость лексических цепочек разнообразна, мало работ по их изучению с последними достижениями в области обработки естественного языка, а точнее с встраиванием слов . В [16] лексические цепочки строятся с использованием определенных шаблонов, найденных в WordNet [7], и используются для изучения встраивания слов . Их результирующие векторы проверяются в задаче на сходство документов . Гонсалес и др. [17] используют встраивания смыслов слов для создания лексических цепочек, которые интегрируются с моделью нейронного машинного перевода. Маскарелли [18] предлагает модель, которая использует лексические цепочки для использования статистического машинного перевода с помощью кодировщика документов. Вместо использования внешней лексической базы данных они используют встраивания слов для обнаружения лексических цепочек в исходном тексте.

Руас и др. [4] предлагают два метода, которые объединяют лексические базы данных , лексические цепочки и встраивание слов , а именно: гибкую лексическую цепочку II (FLLC II) и фиксированную лексическую цепочку II (FXLC II). Основная цель как FLLC II, так и FXLC II — более кратко представить коллекцию слов по их семантическим значениям. В FLLC II лексические цепочки собираются динамически в соответствии с семантическим содержанием каждого оцениваемого термина и связью с его соседними соседями. Пока существует семантическая связь, которая связывает два или более слова, они должны быть объединены в уникальную концепцию. Семантическая связь получается через WordNet , который работает с истинной базой, чтобы указать, какая лексическая структура связывает два слова (например, гипернимы, гипонимы, меронимы). Если представлено слово без какой-либо семантической близости с текущей цепочкой, инициализируется новая лексическая цепочка. С другой стороны, FXLC II разбивает текстовые сегменты на предопределенные фрагменты с определенным количеством слов в каждом. В отличие от FLLC II, метод FXLC II группирует определенное количество слов в одну и ту же структуру, независимо от семантической связи, выраженной в лексической базе данных. В обоих методах каждая сформированная цепочка представлена ​​словом, предобученный вектор встраивания слов которого наиболее похож на средний вектор составляющих слов в той же цепочке.

Смотрите также

Ссылки

  1. ^ abcdefgh МоррисДжейн; ХирстГрэм (1991-03-01). "Лексическая связность, вычисляемая тезауральными отношениями, как индикатор структуры текста". Компьютерная лингвистика .
  2. ^ abc Halliday, Michael Alexander Kirkwood (1976). Cohesion in English . Hasan, Ruqaiya. London: Longman. ISBN 0-582-55031-9. OCLC  2323723.
  3. ^ Каррелл, Патрисия Л. (1982). «Сплоченность — это не сплоченность». TESOL Quarterly . 16 (4): 479– 488. doi :10.2307/3586466. ISSN  0039-8322. JSTOR  3586466.
  4. ^ Аб Руас, Терри; Феррейра, Шарль Энрике Порту; Гроски, Уильям; де Франса, Фабрисио Оливетти; де Медейрос, Дебора Мария Росси (01 сентября 2020 г.). «Расширенное встраивание слов с использованием многосемантического представления через лексические цепочки». Информационные науки . 532 : 16–32 . arXiv : 2101.09023 . doi : 10.1016/j.ins.2020.04.048. ISSN  0020-0255. S2CID  218954068.
  5. ^ Barzilay, Regina; McKeown, Kathleen R.; Elhadad, Michael (1999). «Объединение информации в контексте реферирования множества документов». Труды 37-го ежегодного собрания Ассоциации компьютерной лингвистики по компьютерной лингвистике . Колледж-Парк, Мэриленд: Ассоциация компьютерной лингвистики: 550–557 . doi : 10.3115/1034678.1034760 . ISBN 1558606092.
  6. ^ Силбер, Грегори; Маккой, Кэтлин (2001). «Эффективное реферирование текста с использованием лексических цепочек | Труды 5-й международной конференции по интеллектуальным пользовательским интерфейсам»: 252– 255. doi :10.1145/325737.325861. S2CID  8403554. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  7. ^ ab "WordNet | Лексическая база данных для английского языка". wordnet.princeton.edu . Получено 20.05.2020 .
  8. ^ WordNet: электронная лексическая база данных . Феллбаум, Кристиана. Кембридж, Массачусетс: MIT Press. 1998. ISBN 0-262-06197-X. OCLC  38104682.{{cite book}}: CS1 maint: другие ( ссылка )
  9. ^ Буданицкий, Александр; Хёрст, Грэм (2001). «Семантическое расстояние в WordNet: экспериментальная, прикладная оценка пяти мер» (PDF) . Труды семинара по WordNet и другим лексическим ресурсам, Второе заседание Североамериканского отделения Ассоциации компьютерной лингвистики (NAACL-2001). стр.  24–29 . Получено 20 мая 2020 г.{{cite web}}: CS1 maint: местоположение ( ссылка )
  10. ^ Буданицкий, Александр; Хёрст, Грэм (2006). «Оценка мер лексико-семантической связанности на основе WordNet». Computational Linguistics . 32 (1): 13– 47. doi : 10.1162/coli.2006.32.1.13 . ISSN  0891-2017. S2CID  838777.
  11. ^ Цзян, Джей Дж.; Конрат, Дэвид В. (1997-09-20). «Семантическое сходство на основе корпусной статистики и лексической таксономии». arXiv : cmp-lg/9709008 .
  12. ^ Молдован, Дэн; Новиский, Адриан (2002). «Лексические цепочки для вопросов и ответов». Труды 19-й международной конференции по компьютерной лингвистике - . Том 1. Тайбэй, Тайвань: Ассоциация компьютерной лингвистики. С.  1– 7. doi : 10.3115/1072228.1072395 .
  13. ^ Маккарти, Диана; Коелинг, Роб; Видс, Джули; Кэрролл, Джон (2004). «Поиск преобладающих значений слов в неразмеченном тексте». Труды 42-го ежегодного собрания Ассоциации компьютерной лингвистики - ACL '04 . Барселона, Испания: Ассоциация компьютерной лингвистики: 279–es. doi : 10.3115/1218955.1218991 .
  14. ^ Эркан, Гоненц; Чикекли, Ильяс (2007). «Использование лексических цепочек для извлечения ключевых слов». Обработка информации и управление . 43 (6): 1705– 1714. doi :10.1016/j.ipm.2007.01.015. hdl : 11693/23343 .
  15. ^ Вэй, Тинтин; Лу, Юнхэ; Чанг, Хуэйю; Чжоу, Цян; Бао, Сяньюй (2015). «Семантический подход к кластеризации текста с использованием WordNet и лексических цепочек». Экспертные системы с приложениями . 42 (4): 2264– 2275. doi : 10.1016/j.eswa.2014.10.023 .
  16. ^ Отделение лингвистического моделирования и обработки знаний, Институт информационных и коммуникационных технологий, Болгарская академия наук; Симов, Кирилл; Бойчева, Светла; Осенова, Петя (2017-11-10). "Towards Lexical Chains for Knowledge-Graph-based Word Embeddings" (PDF) . RANLP 2017 - Последние достижения в области обработки естественного языка в сочетании с глубоким обучением . Incoma Ltd. Шумен, Болгария: 679– 685. doi : 10.26615/978-954-452-049-6_087 . ISBN 978-954-452-049-6. S2CID  41952796.{{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  17. ^ Риос Гонсалес, Аннет; Маскарелл, Лаура; Сеннрих, Рико (2017). «Улучшение устранения неоднозначности смысла слов в нейронном машинном переводе с помощью вложений смыслов». Труды Второй конференции по машинному переводу . Копенгаген, Дания: Ассоциация компьютерной лингвистики. стр.  11–19 . doi : 10.18653/v1/W17-4702 .
  18. ^ Маскарелл, Лаура (2017). «Лексические цепочки встречают внедрения слов в статистическом машинном переводе на уровне документа». Труды Третьего семинара по дискурсу в машинном переводе . Копенгаген, Дания: Ассоциация компьютерной лингвистики: 99–109 . doi : 10.18653/v1/W17-4813 .
Взято с "https://en.wikipedia.org/w/index.php?title=Лексическая_цепочка&oldid=1177508273"