Морфологический разбор

Морфологический разбор в обработке естественного языка — это процесс определения морфем , из которых состоит данное слово. Он должен различать орфографические и морфологические правила. Например, слово «лисы» можно разложить на «лиса» (основа) и «es» (суффикс, указывающий на множественность).

Общепринятый подход к морфологическому разбору заключается в использовании конечного преобразователя (FST), который вводит слова и выводит их основу и модификаторы. FST изначально создается посредством алгоритмического разбора некоторого источника слов, например, словаря, дополненного разметкой модификаторов.

Другой подход заключается в использовании метода индексированного поиска, который использует построенное радиксное дерево . Это не часто используемый путь, поскольку он не работает для морфологически сложных языков.

С развитием нейронных сетей в обработке естественного языка, FST стало менее распространенным использовать для морфологического анализа, особенно для языков, для которых имеется много доступных обучающих данных . Для таких языков можно строить языковые модели на уровне символов без явного использования морфологического анализатора. ^[1]

орфографический

Орфографические правила — это общие правила, используемые при разбиении слова на его основу и модификаторы . Примером может служить: английские слова в единственном числе, оканчивающиеся на -y, во множественном числе оканчиваются на -ies. Сравните это с морфологическими правилами, которые содержат угловые случаи этих общих правил. Оба эти типа правил используются для построения систем, которые могут выполнять морфологический анализ.

Морфологический

Морфологические правила являются исключениями из правил орфографии, используемых при разбиении слова на его основу и модификаторы. Примером может служить то, что в английском языке обычно множественное число образуется путем добавления суффикса «s», а слово «fish» не изменяется при образовании множественного числа. Сравните это с правилами орфографии, которые содержат общие правила. Оба эти типа правил используются для построения систем, которые могут выполнять морфологический анализ.

Были предложены различные модели естественной морфологической обработки. Некоторые экспериментальные исследования показывают, что монолингвы обрабатывают слова как целое при их прослушивании, в то время как их поздние билингвы разбивают слова на соответствующие морфемы, поскольку их лексические представления не столь специфичны, и поскольку лексическая обработка на втором языке может быть менее частой, чем обработка на родном языке. ^[2]

Области применения морфологической обработки включают машинный перевод, проверку орфографии и поиск информации.

Ссылки

^ Петр Бояновски, Эдуард Граве, Арман Жулен и Томас Миколов. «Обогащение векторов слов с помощью информации о подсловах»
^ Дюран Лопес, Эсекьель М. (2021). «Морфологическая обработка и индивидуальные частотные эффекты в испанском языке L1 и L2». Lingua . 257 : 103093. doi :10.1016/j.lingua.2021.103093.

Эта статья по компьютерной лингвистике — заглушка . Вы можете помочь Википедии, расширив ее.

[1] Петр Бояновски, Эдуард Граве, Арман Жулен и Томас Миколов. «Обогащение векторов слов с помощью информации о подсловах»

[:50-2] Дюран Лопес, Эсекьель М. (2021). «Морфологическая обработка и индивидуальные частотные эффекты в испанском языке L1 и L2». Lingua . 257 : 103093. doi :10.1016/j.lingua.2021.103093.