Булева модель поиска информации

Классическая модель поиска информации

(Стандартная) Булева модель информационного поиска ( BIR ) ^[1] является классической моделью информационного поиска (IR) и, в то же время, первой и наиболее принятой. ^[2] BIR основана на булевой логике и классической теории множеств в том смысле, что и искомые документы, и запрос пользователя рассматриваются как наборы терминов ( модель мешка слов ). Поиск основан на том, содержат ли документы термины запроса и удовлетворяют ли они булевым условиям, описанным запросом.

Определения

Индексный термин — это слово или выражение , которое может быть с корнем , описывающее или характеризующее документ, например, ключевое слово, данное для журнальной статьи. Пусть будет набором всех таких индексных терминов. $T=\{t_{1},t_{2},\ \ldots ,\ t_{n}\}$

Документ — это любое подмножество . Пусть — множество всех документов. $Т$ $D=\{D_{1},\ \ldots \ ,D_{n}\}$

$Т$ представляет собой ряд слов или небольших фраз (индексных терминов). Каждое из этих слов или небольших фраз имеет имя , где — номер термина в ряду/списке. Вы можете думать о «Терминах» и как о «индексном термине n ». $t_{n}$ $n$ $Т$ $t_{n}$

Слова или небольшие фразы (термины индекса ) могут существовать в документах. Затем эти документы образуют серию/список , где каждый отдельный документ называется . Эти документы ( ) могут содержать слова или небольшие фразы (термины индекса ), например, могут содержать термины и из . Пример этого приведен в следующем разделе. $t_{n}$ $D$ $D_{n}$ $D_{n}$ $t_{n}$ $D_{1}$ $t_{1}$ $t_{2}$ $Т$

Индексные термины обычно хотят представлять слова, которые имеют большее значение для них и соответствуют тому, о чем может говорить содержание статьи или документа. Такие термины, как «the» и «like», будут появляться почти во всех документах, тогда как «Bayesian» будет только в небольшой части документов. Поэтому более редкие термины, такие как «Bayesian», являются лучшим выбором для выбора в наборах . Это относится к энтропии (теории информации) . Существует несколько типов операций, которые можно применять к индексным терминам, используемым в запросах, чтобы сделать их более общими и более релевантными. Одной из них является Stemming . $Т$

Запрос представляет собой логическое выражение в нормальной форме: где истинно для когда . (Эквивалентно, может быть выражено в дизъюнктивной нормальной форме .) ${\textstyle В}$ $Q=(W_{1}\ \lor \ W_{2}\ \lor \ \cdots )\land \ \cdots \ \land \ (W_{i}\ \lor \ W_{i+1}\ \lor \ \cdots )$ ${\textstyle W_{i}}$ $D_{j}$ $t_{i}\in D_{j}$ ${\textstyle В}$

Любые запросы представляют собой выборку индексных терминов ( или ), выбранных из набора терминов, которые объединяются с помощью булевых операторов для формирования набора условий. $Q$ $t_{n}$ $W_{n}$ $Т$

Затем эти условия применяются к набору документов, содержащих те же самые индексные термины ( ) из набора . $D$ $t_{n}$ $Т$

Мы стремимся найти набор документов, которые удовлетворяют . Эта операция называется поиском и состоит из следующих двух шагов: ${\textstyle В}$

1. Для каждого из найдите набор документов, удовлетворяющих : 2. Тогда набор документов, удовлетворяющих Q, задается формулой: Где означает ИЛИ , а означает И как булевы операторы.

{\textstyle W_{j}}

{\textstyle В}

{\textstyle S_{j}}

{\textstyle W_{j}}

S_{j}=\{D_{i}\mid W_{j}\}

(S_{1}\cup S_{2}\cup \cdots )\cap \cdots \cap (S_{i}\cup S_{i+1}\cup \cdots )

\чашка

\cap

Пример

Пусть набор исходных (реальных) документов будет, например,

D=\{D_{1},\ D_{2},\ D_{3}\}

где

${\textstyle D_{1}}$ = "Принцип Байеса: принцип, согласно которому при оценке параметра следует изначально предположить, что каждое возможное значение имеет равную вероятность (равномерное априорное распределение)".

${\textstyle D_{2}}$ = " Байесовская теория принятия решений : математическая теория принятия решений, которая предполагает функции полезности и вероятности и согласно которой выбираемым действием является действие Байеса, т. е. действие с наивысшей субъективной ожидаемой полезностью. Если бы у человека было неограниченное время и вычислительная мощность для принятия каждого решения, эта процедура была бы наилучшим способом принятия любого решения."

${\textstyle D_{3}}$ = "Байесовская эпистемология : философская теория, которая утверждает, что эпистемический статус предложения (то есть насколько оно хорошо доказано или установлено) наилучшим образом измеряется вероятностью и что правильный способ пересмотра этой вероятности дается байесовской обусловленностью или аналогичными процедурами. Байесовский эпистемолог будет использовать вероятность для определения и изучения взаимосвязи между такими понятиями, как эпистемический статус, поддержка или объяснительная сила".

Пусть набор терминов будет: ${\textstyle Т}$

$T=\{t_{1}={\text{принцип Байеса}},t_{2}={\text{вероятность}},t_{3}={\text{принятие решений}},t_{4}={\text{байесовская эпистемология}}\}$

Тогда комплект документов следующий: ${\textstyle D}$

D=\{D_{1},\ D_{2},\ D_{3}\}

где ${\begin{aligned}D_{1}&=\{{\text{probability}},\ {\text{Bayes' principle}}\}\\D_{2}&=\{{\text{probability}},\ {\text{decision-making}}\}\\D_{3}&=\{{\text{probability}},\ {\text{Bayesian epistemology}}\}\end{aligned}}$

Пусть запрос будет («вероятность» И «принятие решения»): ${\textstyle Q}$

$Q={\text{probability}}\land {\text{decision-making}}$ Затем, чтобы получить соответствующие документы:

Во-первых, получаются (извлекаются) следующие наборы документов : Где соответствует документам, содержащим термин «вероятность», а также содержит термин «принятие решения». ${\textstyle S_{1}}$ ${\textstyle S_{2}}$ ${\textstyle D_{i}}$ ${\begin{aligned}S_{1}&=\{D_{1},\ D_{2},\ D_{3}\}\\S_{2}&=\{D_{2}\}\end{aligned}}$ $S_{1}$ $S_{2}$
Наконец, в ответ на запрос извлекаются следующие документы : где запрос ищет документы, содержащиеся в обоих наборах, с использованием оператора пересечения. ${\textstyle D_{i}}$ ${\textstyle Q}$ $Q:\{D_{1},\ D_{2},\ D_{3}\}\ \cap \ \{D_{2}\}\ =\ \{D_{2}\}$ $S$

Это означает, что исходный документ является ответом на . $D_{2}$ ${\textstyle Q}$

Если существует более одного документа с одинаковым представлением (одинаковое подмножество индексных терминов ), каждый такой документ извлекается. Такие документы неразличимы в BIR (другими словами, эквивалентны). $t_{n}$

Преимущества

Чистый формализм
Легко реализовать
Интуитивно понятная концепция
Если полученный набор документов слишком мал или слишком велик, сразу становится ясно, какие операторы создадут соответственно больший или меньший набор.
Это дает (экспертным) пользователям ощущение контроля над системой. Сразу становится ясно, почему документ был извлечен по запросу.

Недостатки

Точное совпадение может привести к извлечению слишком малого или слишком большого количества документов.
Трудно перевести запрос в логическое выражение
Неэффективен для концепций, устойчивых к поиску ^[3]
Все термины имеют одинаковый вес.
Больше похоже на поиск данных, чем на поиск информации
Поиск на основе бинарных критериев принятия решений без понятия частичного соответствия
Рейтинг документов не предусмотрен (отсутствие шкалы оценок)
Необходимость в информации должна быть преобразована в логическое выражение, что большинство пользователей считают неудобным.
Булевы запросы, формулируемые пользователями, чаще всего слишком упрощены.
Модель часто возвращает либо слишком мало, либо слишком много документов в ответ на запрос пользователя.

Структуры данных и алгоритмы

С чисто формальной математической точки зрения BIR является простым. Однако с практической точки зрения необходимо решить несколько дополнительных проблем, связанных с алгоритмами и структурами данных, например, выбор терминов (ручной или автоматический выбор или оба), стемминг , хэш-таблицы , инвертированная файловая структура и т. д. ^[4]

Хэш-наборы

Другая возможность — использовать хэш-наборы. Каждый документ представлен хэш-таблицей, которая содержит каждый отдельный термин этого документа. Поскольку размер хэш-таблицы увеличивается и уменьшается в реальном времени с добавлением и удалением терминов, каждый документ будет занимать гораздо меньше места в памяти. Однако это приведет к замедлению производительности, поскольку операции более сложны, чем с битовыми векторами . В худшем случае производительность может ухудшиться с O( n ) до O( n ² ). В среднем случае замедление производительности будет не намного хуже, чем у битовых векторов, а использование пространства будет намного эффективнее.

Файл подписи

Каждый документ может быть суммирован фильтром Блума, представляющим набор слов в этом документе, сохраненный в битовой строке фиксированной длины, называемой сигнатурой. Файл сигнатуры содержит одну такую суперпозиционную битовую строку кода для каждого документа в коллекции. Каждый запрос также может быть суммирован фильтром Блума, представляющим набор слов в запросе, сохраненный в битовой строке той же фиксированной длины. Битовая строка запроса проверяется по каждой сигнатуре. ^[5]^[6]^[7]

Рассматриваемый файл подписи используется в BitFunnel .

Перевернутый файл

Файл инвертированного индекса состоит из двух частей: словаря, содержащего все термины, используемые в коллекции, и для каждого отдельного термина инвертированный индекс, в котором перечислены все документы, в которых упоминается этот термин. ^[5]^[6]

Ссылки

^ Ланкастер, Ф.У.; Фейен, Э.Г. (1973), Информационный поиск в сети , Melville Publishing Co., Лос-Анджелес, Калифорния
^ "Информационный поиск". MIT Press . Получено 2023-12-09 .
^ Shokraneh, Farhad (6 августа 2024 г.). «Прекратите искать, и вы найдете: концепции, устойчивые к поиску, в поиске систематических обзоров». BMJ Evidence-Based Medicine : bmjebm–2023–112798. doi :10.1136/bmjebm-2023-112798.
^ Wartik, Steven (1992). "Булевы операции". Информационно-поисковые структуры данных и алгоритмы. Prentice-Hall, Inc. ISBN 0-13-463837-9. Архивировано из оригинала 2013-09-28.
^ ab Джастин Зобель; Алистер Моффат; и Котагири Рамамоханарао. «Инвертированные файлы против файлов подписей для индексации текста».
^ ab Боб Гудвин и др. «BitFunnel: Пересмотр сигнатур для поиска». 2017.
^ Ричард Стартин. «Сигнатуры с побитовым срезом и фильтры Блума».

Лашкари, AH; Махдави, F.; Гоми, V. (2009), «Булевская модель в информационном поиске для поисковых систем», Международная конференция по управлению информацией и инжинирингу 2009 г. , стр. 385–389 , doi :10.1109/ICIME.2009.101, ISBN 978-0-7695-3595-1, S2CID 18147603

[1] Ланкастер, Ф.У.; Фейен, Э.Г. (1973), Информационный поиск в сети , Melville Publishing Co., Лос-Анджелес, Калифорния

[2] "Информационный поиск". MIT Press . Получено 2023-12-09 .

[3] Shokraneh, Farhad (6 августа 2024 г.). «Прекратите искать, и вы найдете: концепции, устойчивые к поиску, в поиске систематических обзоров». BMJ Evidence-Based Medicine : bmjebm–2023–112798. doi :10.1136/bmjebm-2023-112798.

[wartik-4] Wartik, Steven (1992). "Булевы операции". Информационно-поисковые структуры данных и алгоритмы. Prentice-Hall, Inc. ISBN 0-13-463837-9. Архивировано из оригинала 2013-09-28.

[zobel-5] Джастин Зобель; Алистер Моффат; и Котагири Рамамоханарао. «Инвертированные файлы против файлов подписей для индексации текста».

[goodwin-6] Боб Гудвин и др. «BitFunnel: Пересмотр сигнатур для поиска». 2017.

[7] Ричард Стартин. «Сигнатуры с побитовым срезом и фильтры Блума».