Сегментация текста

Человеческая письменная практика

Сегментация текста — это процесс деления письменного текста на значимые единицы, такие как слова, предложения или темы . Этот термин применяется как к умственным процессам, используемым людьми при чтении текста, так и к искусственным процессам, реализованным в компьютерах, которые являются предметом обработки естественного языка . Проблема нетривиальна, поскольку, хотя некоторые письменные языки имеют явные маркеры границ слов, такие как пробелы между словами письменного английского языка и отличительные начальные, средние и конечные формы букв арабского языка , такие сигналы иногда неоднозначны и присутствуют не во всех письменных языках.

Сравните сегментацию речи — процесс разделения речи на лингвистически значимые части.

Проблемы сегментации

Сегментация слов

Сегментация слов — это проблема разделения строки письменного текста на составляющие ее слова.

В английском и многих других языках, использующих ту или иную форму латинского алфавита , пробел является хорошим приближением разделителя слов ( разделителя слов ), хотя эта концепция имеет ограничения из-за вариативности, с которой языки эмически рассматривают словосочетания и соединения . Многие английские составные существительные пишутся по-разному (например, ice box = ice-box = icebox ; pig sty = pig-sty = pigsty ) с соответствующей вариацией в том, считают ли их носители именными фразами или отдельными существительными; существуют тенденции в том, как устанавливаются нормы, например, что открытые соединения часто имеют тенденцию в конечном итоге закрепляться по широко распространенной традиции, но вариативность остается системной. Напротив, немецкие составные существительные демонстрируют меньше орфографической вариативности, при этом закрепление является более сильной нормой.

Однако эквивалент символа пробела в слове встречается не во всех письменных системах письма, и без него сегментация слов становится сложной проблемой. Языки, в которых нет тривиального процесса сегментации слов, включают китайский, японский, где разграничиваются предложения , но не слова, тайский и лаосский , где разграничиваются фразы и предложения, но не слова, и вьетнамский , где разграничиваются слоги, но не слова.

Однако в некоторых системах письма, таких как письмо геэз, используемое в амхарском и тигринья, среди прочих языков, слова явно разделяются (по крайней мере, исторически) непробельными символами.

Консорциум Unicode опубликовал Стандартное приложение по сегментации текста ^[1] , в котором рассматриваются вопросы сегментации в многоазбукных текстах.

Разбиение слов — это процесс анализа связанного текста (т. е. текста, не содержащего пробелов или других разделителей слов) для определения мест разрывов слов.

Разделение слов может также относиться к процессу переноса .

Некоторые ученые предположили, что современный китайский язык следует писать сегментацией слов, с пробелами между словами, как в письменном английском. ^[2] Потому что существуют неоднозначные тексты, подразумеваемое значение которых известно только автору. Например, «美国会不同意。» может означать «美国会不同意。» (США не согласятся.) или «美国会不同意。» (Конгресс США не согласен). Более подробную информацию см. в разделе « Китайское сегментированное письмо » .

Сегментация намерений

Сегментация намерений — это проблема разделения написанных слов на ключевые фразы (2 или более групп слов).

В английском и всех других языках основное намерение или желание определяются и становятся краеугольным камнем сегментации намерений по ключевой фразе. Основной продукт/услуга, идея, действие или мысль закрепляют ключевую фразу.

«[Все вещи состоят из атомов ]. [Маленькие частицы , которые движутся] [в постоянном движении ], [притягиваются друг к другу ] [когда находятся на небольшом расстоянии друг от друга], [но отталкиваются ] [когда их сдавливают ] [друг в друга ]».

Сегментация предложения

Сегментация предложений — это проблема разделения строки письменного языка на составляющие ее предложения . В английском и некоторых других языках использование знаков препинания, в частности точки /точки, является разумным приближением. Однако даже в английском эта проблема не является тривиальной из-за использования точки для сокращений, которые могут или не могут также заканчивать предложение. Например, Mr. не является своим собственным предложением в « Mr. Smith went to the stores in Jones Street». При обработке обычного текста таблицы сокращений, содержащие точки, могут помочь предотвратить неправильное назначение границ предложений.

Как и в случае с сегментацией слов, не все письменные языки содержат знаки препинания, которые полезны для приблизительного обозначения границ предложений.

Тематическая сегментация

Анализ тем состоит из двух основных задач: идентификация тем и сегментация текста. В то время как первая представляет собой простую классификацию определенного текста, последний случай подразумевает, что документ может содержать несколько тем, и задача компьютерной сегментации текста может заключаться в автоматическом обнаружении этих тем и соответствующей сегментации текста. Границы тем могут быть очевидны из названий разделов и абзацев. В других случаях необходимо использовать методы, аналогичные тем, которые используются при классификации документов .

Сегментация текста на темы или обороты речи может быть полезна в некоторых задачах естественной обработки: она может значительно улучшить поиск информации или распознавание речи (более точно индексируя/распознавая документы или выдавая в качестве результата определенную часть документа, соответствующую запросу). Она также необходима в системах обнаружения и отслеживания тем и задачах резюмирования текста .

Было испробовано много различных подходов: ^[3]^[4] например, HMM , лексические цепочки , сходство отрывков с использованием совместной встречаемости слов , кластеризация , тематическое моделирование и т. д.

Это довольно неоднозначная задача – люди, оценивающие системы сегментации текста, часто различаются по границам тем. Поэтому оценка сегмента текста также является сложной проблемой.

Другие проблемы сегментации

Могут потребоваться процессы для сегментации текста на сегменты, помимо упомянутых, включая морфемы (задача, обычно называемая морфологическим анализом ) или абзацы .

Методы автоматической сегментации

Автоматическая сегментация — это проблема при обработке естественного языка , связанная с внедрением компьютерного процесса сегментации текста.

Когда пунктуация и подобные подсказки не всегда доступны, задача сегментации часто требует довольно нетривиальных методов, таких как статистическое принятие решений, большие словари, а также рассмотрение синтаксических и семантических ограничений. Эффективные системы обработки естественного языка и инструменты сегментации текста обычно работают с текстом в определенных доменах и источниках. Например, обработка текста, используемого в медицинских записях, — это совсем другая проблема, чем обработка новостных статей или объявлений о недвижимости.

Процесс разработки инструментов сегментации текста начинается со сбора большого корпуса текста в прикладной области. Существует два общих подхода:

Ручной анализ текста и написание индивидуального ПО
Добавьте в образец корпуса аннотации с информацией о границах и используйте машинное обучение.

Некоторые системы сегментации текста используют любую разметку, например HTML, и распознают форматы документов, например PDF, чтобы предоставить дополнительные доказательства границ предложений и абзацев.

Смотрите также

Ссылки

^ UAX № 29
^ Чжан, Сяо-хэн (1998). «也谈汉语书面语的分词问题——分词连写十大好处 (Возврат к сегментации письменных китайских слов: десять преимуществ сегментированного письма)». Журнал китайской обработки информации . 12 (1998) (3): 58–64 .
^ Freddy YY Choi (2000). "Достижения в области доменно-независимой линейной сегментации текста" (PDF) . Труды 1-го заседания Североамериканского отделения Ассоциации компьютерной лингвистики (ANLP-NAACL-00) . стр. 26–33 .
^ Джеффри К. Рейнар (1998). "Сегментация тем: алгоритмы и приложения" (PDF) . IRC-98-21. Университет Пенсильвании . Получено 8 ноября 2007 г. {{cite journal}}: Цитировать журнал требует |journal=( помощь )

[1] UAX № 29

[2] Чжан, Сяо-хэн (1998). «也谈汉语书面语的分词问题——分词连写十大好处 (Возврат к сегментации письменных китайских слов: десять преимуществ сегментированного письма)». Журнал китайской обработки информации . 12 (1998) (3): 58–64 .

[3] Freddy YY Choi (2000). "Достижения в области доменно-независимой линейной сегментации текста" (PDF) . Труды 1-го заседания Североамериканского отделения Ассоциации компьютерной лингвистики (ANLP-NAACL-00) . стр. 26–33 .

[4] Джеффри К. Рейнар (1998). "Сегментация тем: алгоритмы и приложения" (PDF) . IRC-98-21. Университет Пенсильвании . Получено 8 ноября 2007 г. {{cite journal}}: Цитировать журнал требует |journal=( помощь )