Последовательность между семантически связанными упорядоченными словами классифицируется как лексическая цепочка . [1] Лексическая цепочка — это последовательность связанных слов в письменной форме , охватывающая узкое (соседние слова или предложения ) или широкое контекстное окно (весь текст). Лексическая цепочка не зависит от грамматической структуры текста и по сути является списком слов, который охватывает часть связной структуры текста. Лексическая цепочка может предоставить контекст для разрешения неоднозначного термина и позволить устранить неоднозначность понятий , которые представляет термин .
Моррис и Херст [1] вводят термин лексическая цепочка как расширение лексической связности. [2] Текст, в котором многие из его предложений семантически связаны, часто создает определенную степень непрерывности в своих идеях, обеспечивая хорошую связность среди его предложений. Определение, используемое для лексической связности, гласит, что связность является результатом связности, а не наоборот. [2] [3] Связность связана с набором слов, которые принадлежат друг другу из-за абстрактной или конкретной связи. Связность, с другой стороны, касается фактического значения во всем тексте. [1]
Моррис и Херст [1] определяют, что лексические цепочки используют семантический контекст для интерпретации слов, концепций и предложений. Напротив, лексическая связность больше сосредоточена на отношениях пар слов. Лексические цепочки расширяют это понятие до последовательного числа смежных слов. Есть две основные причины, по которым лексические цепочки необходимы: [1]
Метод, представленный Моррисом и Херстом [1], является первым, кто привнес концепцию лексической связности в компьютерные системы через лексические цепочки. Используя свою интуицию, они идентифицируют лексические цепочки в текстовых документах и строят их структуру, учитывая наблюдения Халлидея и Хассана [2] . Для этой задачи они рассмотрели пять текстовых документов, в общей сложности 183 предложения из разных и неспецифических источников. Повторяющиеся слова (например, высокочастотные слова, местоимения, предложения, глагольные вспомогательные слова) не рассматривались как предполагаемые элементы цепочки, поскольку они не привносят большой семантической ценности в саму структуру.
Лексические цепочки строятся в соответствии с серией связей между словами в текстовом документе. В основополагающей работе Морриса и Херста [1] они рассматривают внешний тезаурус ( тезаурус Роже ) как свою лексическую базу данных для извлечения этих связей. Лексическая цепочка формируется последовательностью слов, появляющихся в таком порядке, что любые два последовательных слова представляют следующие свойства (т. е. атрибуты, такие как категория , индексы и указатели в лексической базе данных) : [1] [4]
Использование лексических цепочек в задачах обработки естественного языка (например, сходство текста, устранение неоднозначности смысла слов , кластеризация документов ) широко изучалось в литературе. Барзилай и др. [5] используют лексические цепочки для создания резюме из текстов. Они предлагают метод, основанный на четырех шагах: сегментация исходного текста, построение лексических цепочек, идентификация надежных цепочек и извлечение значимых предложений. Силбер и Маккой [6] также исследуют реферирование текста , но их подход к построению лексических цепочек выполняется за линейное время.
Некоторые авторы используют WordNet [7] [8] для улучшения поиска и оценки лексических цепочек. Буданицкий и Кирст [9] [10] сравнивают несколько измерений семантического расстояния и родства, используя лексические цепочки в сочетании с WordNet . Их исследование приходит к выводу, что мера сходства Цзяна и Конрата [11] дает наилучший общий результат. Молдован и Адриан [12] изучают использование лексических цепочек для поиска тематически связанных слов для систем ответов на вопросы . Это делается с учетом глоссов для каждого синсета в WordNet. Согласно их выводам, тематические связи через лексические цепочки улучшают производительность систем ответов на вопросы в сочетании с WordNet . Маккарти и др. [13] представляют методологию категоризации и поиска наиболее преобладающих синсетов в непомеченных текстах с использованием WordNet . В отличие от традиционных подходов (например, BOW ), они рассматривают связи между терминами, не встречающимися явно. Эркан и Чикекли [14] исследуют эффекты лексических цепочек в задаче извлечения ключевых слов с помощью контролируемой перспективы машинного обучения. В Вэй и др. [15] объединяют лексические цепочки и WordNet для извлечения набора семантически связанных слов из текстов и используют их для кластеризации. Их подход использует онтологическую иерархическую структуру для обеспечения более точной оценки сходства между терминами в задаче устранения неоднозначности смысла слова .
Несмотря на то, что применимость лексических цепочек разнообразна, мало работ по их изучению с последними достижениями в области обработки естественного языка, а точнее с встраиванием слов . В [16] лексические цепочки строятся с использованием определенных шаблонов, найденных в WordNet [7], и используются для изучения встраивания слов . Их результирующие векторы проверяются в задаче на сходство документов . Гонсалес и др. [17] используют встраивания смыслов слов для создания лексических цепочек, которые интегрируются с моделью нейронного машинного перевода. Маскарелли [18] предлагает модель, которая использует лексические цепочки для использования статистического машинного перевода с помощью кодировщика документов. Вместо использования внешней лексической базы данных они используют встраивания слов для обнаружения лексических цепочек в исходном тексте.
Руас и др. [4] предлагают два метода, которые объединяют лексические базы данных , лексические цепочки и встраивание слов , а именно: гибкую лексическую цепочку II (FLLC II) и фиксированную лексическую цепочку II (FXLC II). Основная цель как FLLC II, так и FXLC II — более кратко представить коллекцию слов по их семантическим значениям. В FLLC II лексические цепочки собираются динамически в соответствии с семантическим содержанием каждого оцениваемого термина и связью с его соседними соседями. Пока существует семантическая связь, которая связывает два или более слова, они должны быть объединены в уникальную концепцию. Семантическая связь получается через WordNet , который работает с истинной базой, чтобы указать, какая лексическая структура связывает два слова (например, гипернимы, гипонимы, меронимы). Если представлено слово без какой-либо семантической близости с текущей цепочкой, инициализируется новая лексическая цепочка. С другой стороны, FXLC II разбивает текстовые сегменты на предопределенные фрагменты с определенным количеством слов в каждом. В отличие от FLLC II, метод FXLC II группирует определенное количество слов в одну и ту же структуру, независимо от семантической связи, выраженной в лексической базе данных. В обоих методах каждая сформированная цепочка представлена словом, предобученный вектор встраивания слов которого наиболее похож на средний вектор составляющих слов в той же цепочке.
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь ){{cite book}}
: CS1 maint: другие ( ссылка ){{cite web}}
: CS1 maint: местоположение ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )