Обработка составных терминов в информационном поиске — это сопоставление результатов поиска на основе составных терминов . Составные термины создаются путем объединения двух или более простых терминов; например, «тройной» — это однословный термин, а «тройной шунт сердца» — составной термин.
Обработка составных терминов — это новый подход к старой проблеме: как можно повысить релевантность результатов поиска, сохранив при этом простоту использования? Используя эту технику, поиск показателей выживаемости после тройного шунтирования сердца у пожилых людей найдет документы по этой теме, даже если эта точная фраза не содержится ни в одном документе. Это можно выполнить с помощью поиска концепций , который сам использует обработку составных терминов. Это автоматически извлечет ключевые концепции (в данном случае «показатели выживаемости», «тройное шунтирование сердца» и «пожилые люди») и использует эти концепции для выбора наиболее релевантных документов.
В августе 2003 года компания Concept Searching Limited представила идею использования статистической обработки составных терминов. [1]
CLAMOUR — это европейский совместный проект, целью которого является поиск лучшего способа классификации при сборе и распространении промышленной информации и статистики. CLAMOUR, по-видимому, использует лингвистический подход, а не подход, основанный на статистическом моделировании . [2]
Методы вероятностного взвешивания отдельных словарных терминов датируются по крайней мере 1976 годом в эпохальной публикации Стивена Э. Робертсона и Карен Сперк Джонс . [3] Робертсон заявил, что предположение о независимости слов не обосновано и существует как вопрос математического удобства. Его возражение против независимости термина не является новой идеей, восходящей по крайней мере к 1964 году, когда Х. Х. Уильямс заявил, что «[т]е предположение о независимости слов в документе обычно делается как вопрос математического удобства». [4]
В 2004 году Анна Линн Паттерсон подала патенты на «поиск на основе фраз в системе поиска информации» [5], права на которые впоследствии приобрела компания Google . [6]
Статистическая обработка составных терминов более адаптируема, чем процесс, описанный Паттерсон. Ее процесс нацелен на поиск во Всемирной паутине , где обширные статистические знания общих поисков могут быть использованы для определения фраз-кандидатов. Статистическая обработка составных терминов больше подходит для приложений корпоративного поиска , где такие априорные знания недоступны.
Статистическая обработка составных терминов также более адаптируема, чем лингвистический подход, принятый в проекте CLAMOUR, который должен учитывать синтаксические свойства терминов (т. е. часть речи, род, число и т. д.) и их комбинации. CLAMOUR в значительной степени зависит от языка, тогда как статистический подход не зависит от языка.
Обработка составных терминов позволяет приложениям по поиску информации, таким как поисковые системы , выполнять сопоставление на основе многословных концепций, а не на основе отдельных слов, которые могут быть весьма неоднозначными.
Ранние поисковые системы искали документы, содержащие слова, введенные пользователем в поле поиска. Они известны как поисковые системы по ключевым словам. Булевы поисковые системы добавляют степень сложности, позволяя пользователю указывать дополнительные требования. Например, "Tiger NEAR Woods AND (golf OR golfing) NOT Volkswagen" использует операторы "NEAR", "AND", "OR" и "NOT", чтобы указать, что эти слова должны соответствовать определенным требованиям. Поиск по фразе проще в использовании, но требует, чтобы в результатах отображалась точная указанная фраза.