Обработка сложных терминов

Обработка составных терминов в информационном поиске — это сопоставление результатов поиска на основе составных терминов . Составные термины создаются путем объединения двух или более простых терминов; например, «тройной» — это однословный термин, а «тройной шунт сердца» — составной термин.

Обработка составных терминов — это новый подход к старой проблеме: как можно повысить релевантность результатов поиска, сохранив при этом простоту использования? Используя эту технику, поиск показателей выживаемости после тройного шунтирования сердца у пожилых людей найдет документы по этой теме, даже если эта точная фраза не содержится ни в одном документе. Это можно выполнить с помощью поиска концепций , который сам использует обработку составных терминов. Это автоматически извлечет ключевые концепции (в данном случае «показатели выживаемости», «тройное шунтирование сердца» и «пожилые люди») и использует эти концепции для выбора наиболее релевантных документов.

Методы

В августе 2003 года компания Concept Searching Limited представила идею использования статистической обработки составных терминов. ^[1]

CLAMOUR — это европейский совместный проект, целью которого является поиск лучшего способа классификации при сборе и распространении промышленной информации и статистики. CLAMOUR, по-видимому, использует лингвистический подход, а не подход, основанный на статистическом моделировании . ^[2]

История

Методы вероятностного взвешивания отдельных словарных терминов датируются по крайней мере 1976 годом в эпохальной публикации Стивена Э. Робертсона и Карен Сперк Джонс . ^[3] Робертсон заявил, что предположение о независимости слов не обосновано и существует как вопрос математического удобства. Его возражение против независимости термина не является новой идеей, восходящей по крайней мере к 1964 году, когда Х. Х. Уильямс заявил, что «[т]е предположение о независимости слов в документе обычно делается как вопрос математического удобства». ^[4]

В 2004 году Анна Линн Паттерсон подала патенты на «поиск на основе фраз в системе поиска информации» ^[5], права на которые впоследствии приобрела компания Google . ^[6]

Приспособляемость

Статистическая обработка составных терминов более адаптируема, чем процесс, описанный Паттерсон. Ее процесс нацелен на поиск во Всемирной паутине , где обширные статистические знания общих поисков могут быть использованы для определения фраз-кандидатов. Статистическая обработка составных терминов больше подходит для приложений корпоративного поиска , где такие априорные знания недоступны.

Статистическая обработка составных терминов также более адаптируема, чем лингвистический подход, принятый в проекте CLAMOUR, который должен учитывать синтаксические свойства терминов (т. е. часть речи, род, число и т. д.) и их комбинации. CLAMOUR в значительной степени зависит от языка, тогда как статистический подход не зависит от языка.

Приложения

Обработка составных терминов позволяет приложениям по поиску информации, таким как поисковые системы , выполнять сопоставление на основе многословных концепций, а не на основе отдельных слов, которые могут быть весьма неоднозначными.

Ранние поисковые системы искали документы, содержащие слова, введенные пользователем в поле поиска. Они известны как поисковые системы по ключевым словам. Булевы поисковые системы добавляют степень сложности, позволяя пользователю указывать дополнительные требования. Например, "Tiger NEAR Woods AND (golf OR golfing) NOT Volkswagen" использует операторы "NEAR", "AND", "OR" и "NOT", чтобы указать, что эти слова должны соответствовать определенным требованиям. Поиск по фразе проще в использовании, но требует, чтобы в результатах отображалась точная указанная фраза.

Смотрите также

Ссылки

^ "Латеральное мышление в информационном поиске" (PDF) . Управление информацией и технологии . 36 ЧАСТЬ 4. Архивировано из оригинала (PDF) 2017-11-15 . Получено 2008-06-20 .Запись в каталоге British Library Direct можно найти здесь:[1] Архивировано 10.02.2012 на Wayback Machine
^ [2] Проект Национальной статистики CLAMOUR
^ Робертсон, С. Э.; Сперк Джонс, К. (1976). «Взвешивание релевантности поисковых терминов». Журнал Американского общества информационной науки . 27 (3): 129. doi :10.1002/asi.4630270302.
^ WILLIAMS, JH (1965). «Результаты классификации документов с несколькими дискриминантными функциями». Статистические методы ассоциации для механизированной документации, Национальное бюро стандартов . Вашингтон: 217–224 . Архивировано из оригинала 2011-07-17 . Получено 2015-05-21 .
^ США 20060031195
^ Google приобретает патентные заявки Cuil

[1] "Латеральное мышление в информационном поиске" (PDF) . Управление информацией и технологии . 36 ЧАСТЬ 4. Архивировано из оригинала (PDF) 2017-11-15 . Получено 2008-06-20 .Запись в каталоге British Library Direct можно найти здесь:[1] Архивировано 10.02.2012 на Wayback Machine

[2] [2] Проект Национальной статистики CLAMOUR

[3] Робертсон, С. Э.; Сперк Джонс, К. (1976). «Взвешивание релевантности поисковых терминов». Журнал Американского общества информационной науки . 27 (3): 129. doi :10.1002/asi.4630270302.

[4] WILLIAMS, JH (1965). «Результаты классификации документов с несколькими дискриминантными функциями». Статистические методы ассоциации для механизированной документации, Национальное бюро стандартов . Вашингтон: 217–224 . Архивировано из оригинала 2011-07-17 . Получено 2015-05-21 .

[5] США 20060031195

[6] Google приобретает патентные заявки Cuil