Булева модель поиска информации

Классическая модель поиска информации

(Стандартная) Булева модель информационного поиска ( BIR ) [1] является классической моделью информационного поиска (IR) и, в то же время, первой и наиболее принятой. [2] BIR основана на булевой логике и классической теории множеств в том смысле, что и искомые документы, и запрос пользователя рассматриваются как наборы терминов ( модель мешка слов ). Поиск основан на том, содержат ли документы термины запроса и удовлетворяют ли они булевым условиям, описанным запросом.

Определения

Индексный термин — это слово или выражение , которое может быть с корнем , описывающее или характеризующее документ, например, ключевое слово, данное для журнальной статьи. Пусть будет набором всех таких индексных терминов. Т = { т 1 , т 2 ,   ,   т н } {\displaystyle T=\{t_{1},t_{2},\ \ldots ,\ t_{n}\}}

Документ — это любое подмножество . Пусть — множество всех документов. Т {\displaystyle Т} Д = { Д 1 ,     , Д н } {\displaystyle D=\{D_{1},\ \ldots \ ,D_{n}\}}


Т {\displaystyle Т} представляет собой ряд слов или небольших фраз (индексных терминов). Каждое из этих слов или небольших фраз имеет имя , где — номер термина в ряду/списке. Вы можете думать о «Терминах» и как о «индексном термине n ». т н {\displaystyle t_{n}} н {\displaystyle n} Т {\displaystyle Т} т н {\displaystyle t_{n}}

Слова или небольшие фразы (термины индекса ) могут существовать в документах. Затем эти документы образуют серию/список , где каждый отдельный документ называется . Эти документы ( ) могут содержать слова или небольшие фразы (термины индекса ), например, могут содержать термины и из . Пример этого приведен в следующем разделе. т н {\displaystyle t_{n}} Д {\displaystyle D} Д н {\displaystyle D_{n}} Д н {\displaystyle D_{n}} т н {\displaystyle t_{n}} Д 1 {\displaystyle D_{1}} т 1 {\displaystyle t_{1}} т 2 {\displaystyle t_{2}} Т {\displaystyle Т}

Индексные термины обычно хотят представлять слова, которые имеют большее значение для них и соответствуют тому, о чем может говорить содержание статьи или документа. Такие термины, как «the» и «like», будут появляться почти во всех документах, тогда как «Bayesian» будет только в небольшой части документов. Поэтому более редкие термины, такие как «Bayesian», являются лучшим выбором для выбора в наборах . Это относится к энтропии (теории информации) . Существует несколько типов операций, которые можно применять к индексным терминам, используемым в запросах, чтобы сделать их более общими и более релевантными. Одной из них является Stemming . Т {\displaystyle Т}


Запрос представляет собой логическое выражение в нормальной форме: где истинно для когда . (Эквивалентно, может быть выражено в дизъюнктивной нормальной форме .) В {\textstyle В} В = ( Вт 1     Вт 2     )       ( Вт я     Вт я + 1     ) {\displaystyle Q=(W_{1}\ \lor \ W_{2}\ \lor \ \cdots )\land \ \cdots \ \land \ (W_{i}\ \lor \ W_{i+1}\ \lor \ \cdots )} Вт я {\textstyle W_{i}} Д дж {\displaystyle D_{j}} т я Д дж {\displaystyle t_{i}\in D_{j}} В {\textstyle В}

Любые запросы представляют собой выборку индексных терминов ( или ), выбранных из набора терминов, которые объединяются с помощью булевых операторов для формирования набора условий. В {\displaystyle Q} т н {\displaystyle t_{n}} Вт н {\displaystyle W_{n}} Т {\displaystyle Т}

Затем эти условия применяются к набору документов, содержащих те же самые индексные термины ( ) из набора . Д {\displaystyle D} т н {\displaystyle t_{n}} Т {\displaystyle Т}

Мы стремимся найти набор документов, которые удовлетворяют . Эта операция называется поиском и состоит из следующих двух шагов: В {\textstyle В}

1. Для каждого из найдите набор документов, удовлетворяющих : 2. Тогда набор документов, удовлетворяющих Q, задается формулой: Где означает ИЛИ , а означает И как булевы операторы. Вт дж {\textstyle W_{j}} В {\textstyle В} С дж {\textstyle S_{j}} Вт дж {\textstyle W_{j}} С дж = { Д я Вт дж } {\displaystyle S_{j}=\{D_{i}\mid W_{j}\}} ( С 1 С 2 ) ( С я С я + 1 ) {\displaystyle (S_{1}\cup S_{2}\cup \cdots )\cap \cdots \cap (S_{i}\cup S_{i+1}\cup \cdots )} {\displaystyle \чашка} {\displaystyle \cap}

Пример

Пусть набор исходных (реальных) документов будет, например,

Д = { Д 1 ,   Д 2 ,   Д 3 } {\displaystyle D=\{D_{1},\ D_{2},\ D_{3}\}}

где

Д 1 {\textstyle D_{1}} = "Принцип Байеса: принцип, согласно которому при оценке параметра следует изначально предположить, что каждое возможное значение имеет равную вероятность (равномерное априорное распределение)".

Д 2 {\textstyle D_{2}} = " Байесовская теория принятия решений : математическая теория принятия решений, которая предполагает функции полезности и вероятности и согласно которой выбираемым действием является действие Байеса, т. е. действие с наивысшей субъективной ожидаемой полезностью. Если бы у человека было неограниченное время и вычислительная мощность для принятия каждого решения, эта процедура была бы наилучшим способом принятия любого решения."

Д 3 {\textstyle D_{3}} = "Байесовская эпистемология : философская теория, которая утверждает, что эпистемический статус предложения (то есть насколько оно хорошо доказано или установлено) наилучшим образом измеряется вероятностью и что правильный способ пересмотра этой вероятности дается байесовской обусловленностью или аналогичными процедурами. Байесовский эпистемолог будет использовать вероятность для определения и изучения взаимосвязи между такими понятиями, как эпистемический статус, поддержка или объяснительная сила".

Пусть набор терминов будет: Т {\textstyle Т}

Т = { т 1 = принцип Байеса , т 2 = вероятность , т 3 = принятие решений , т 4 = Байесовская эпистемология } {\displaystyle T=\{t_{1}={\text{принцип Байеса}},t_{2}={\text{вероятность}},t_{3}={\text{принятие решений}},t_{4}={\text{байесовская эпистемология}}\}}

Тогда комплект документов следующий: Д {\textstyle D}

Д = { Д 1 ,   Д 2 ,   Д 3 } {\displaystyle D=\{D_{1},\ D_{2},\ D_{3}\}}

где Д 1 = { вероятность ,   принцип Байеса } Д 2 = { вероятность ,   принятие решений } Д 3 = { вероятность ,   Байесовская эпистемология } {\displaystyle {\begin{aligned}D_{1}&=\{{\text{probability}},\ {\text{Bayes' principle}}\}\\D_{2}&=\{{\text{probability}},\ {\text{decision-making}}\}\\D_{3}&=\{{\text{probability}},\ {\text{Bayesian epistemology}}\}\end{aligned}}}

Пусть запрос будет («вероятность» И «принятие решения»): Q {\textstyle Q}

Q = probability decision-making {\displaystyle Q={\text{probability}}\land {\text{decision-making}}} Затем, чтобы получить соответствующие документы:

  1. Во-первых, получаются (извлекаются) следующие наборы документов : Где соответствует документам, содержащим термин «вероятность», а также содержит термин «принятие решения». S 1 {\textstyle S_{1}} S 2 {\textstyle S_{2}} D i {\textstyle D_{i}} S 1 = { D 1 ,   D 2 ,   D 3 } S 2 = { D 2 } {\displaystyle {\begin{aligned}S_{1}&=\{D_{1},\ D_{2},\ D_{3}\}\\S_{2}&=\{D_{2}\}\end{aligned}}} S 1 {\displaystyle S_{1}} S 2 {\displaystyle S_{2}}
  2. Наконец, в ответ на запрос извлекаются следующие документы : где запрос ищет документы, содержащиеся в обоих наборах, с использованием оператора пересечения. D i {\textstyle D_{i}} Q {\textstyle Q} Q : { D 1 ,   D 2 ,   D 3 }     { D 2 }   =   { D 2 } {\displaystyle Q:\{D_{1},\ D_{2},\ D_{3}\}\ \cap \ \{D_{2}\}\ =\ \{D_{2}\}} S {\displaystyle S}

Это означает, что исходный документ является ответом на . D 2 {\displaystyle D_{2}} Q {\textstyle Q}

Если существует более одного документа с одинаковым представлением (одинаковое подмножество индексных терминов ), каждый такой документ извлекается. Такие документы неразличимы в BIR (другими словами, эквивалентны). t n {\displaystyle t_{n}}

Преимущества

  • Чистый формализм
  • Легко реализовать
  • Интуитивно понятная концепция
  • Если полученный набор документов слишком мал или слишком велик, сразу становится ясно, какие операторы создадут соответственно больший или меньший набор.
  • Это дает (экспертным) пользователям ощущение контроля над системой. Сразу становится ясно, почему документ был извлечен по запросу.

Недостатки

  • Точное совпадение может привести к извлечению слишком малого или слишком большого количества документов.
  • Трудно перевести запрос в логическое выражение
  • Неэффективен для концепций, устойчивых к поиску [3]
  • Все термины имеют одинаковый вес.
  • Больше похоже на поиск данных, чем на поиск информации
  • Поиск на основе бинарных критериев принятия решений без понятия частичного соответствия
  • Рейтинг документов не предусмотрен (отсутствие шкалы оценок)
  • Необходимость в информации должна быть преобразована в логическое выражение, что большинство пользователей считают неудобным.
  • Булевы запросы, формулируемые пользователями, чаще всего слишком упрощены.
  • Модель часто возвращает либо слишком мало, либо слишком много документов в ответ на запрос пользователя.

Структуры данных и алгоритмы

С чисто формальной математической точки зрения BIR является простым. Однако с практической точки зрения необходимо решить несколько дополнительных проблем, связанных с алгоритмами и структурами данных, например, выбор терминов (ручной или автоматический выбор или оба), стемминг , хэш-таблицы , инвертированная файловая структура и т. д. [4]

Хэш-наборы

Другая возможность — использовать хэш-наборы. Каждый документ представлен хэш-таблицей, которая содержит каждый отдельный термин этого документа. Поскольку размер хэш-таблицы увеличивается и уменьшается в реальном времени с добавлением и удалением терминов, каждый документ будет занимать гораздо меньше места в памяти. Однако это приведет к замедлению производительности, поскольку операции более сложны, чем с битовыми векторами . В худшем случае производительность может ухудшиться с O( n ) до O( n 2 ). В среднем случае замедление производительности будет не намного хуже, чем у битовых векторов, а использование пространства будет намного эффективнее.

Файл подписи

Каждый документ может быть суммирован фильтром Блума, представляющим набор слов в этом документе, сохраненный в битовой строке фиксированной длины, называемой сигнатурой. Файл сигнатуры содержит одну такую ​​суперпозиционную битовую строку кода для каждого документа в коллекции. Каждый запрос также может быть суммирован фильтром Блума, представляющим набор слов в запросе, сохраненный в битовой строке той же фиксированной длины. Битовая строка запроса проверяется по каждой сигнатуре. [5] [6] [7]

Рассматриваемый файл подписи используется в BitFunnel .

Перевернутый файл

Файл инвертированного индекса состоит из двух частей: словаря, содержащего все термины, используемые в коллекции, и для каждого отдельного термина инвертированный индекс, в котором перечислены все документы, в которых упоминается этот термин. [5] [6]

Ссылки

  1. ^ Ланкастер, Ф.У.; Фейен, Э.Г. (1973), Информационный поиск в сети , Melville Publishing Co., Лос-Анджелес, Калифорния
  2. ^ "Информационный поиск". MIT Press . Получено 2023-12-09 .
  3. ^ Shokraneh, Farhad (6 августа 2024 г.). «Прекратите искать, и вы найдете: концепции, устойчивые к поиску, в поиске систематических обзоров». BMJ Evidence-Based Medicine : bmjebm–2023–112798. doi :10.1136/bmjebm-2023-112798.
  4. ^ Wartik, Steven (1992). "Булевы операции". Информационно-поисковые структуры данных и алгоритмы. Prentice-Hall, Inc. ISBN 0-13-463837-9. Архивировано из оригинала 2013-09-28.
  5. ^ ab Джастин Зобель; Алистер Моффат; и Котагири Рамамоханарао. «Инвертированные файлы против файлов подписей для индексации текста».
  6. ^ ab Боб Гудвин и др. «BitFunnel: Пересмотр сигнатур для поиска». 2017.
  7. ^ Ричард Стартин. «Сигнатуры с побитовым срезом и фильтры Блума».
  • Лашкари, AH; Махдави, F.; Гоми, V. (2009), «Булевская модель в информационном поиске для поисковых систем», Международная конференция по управлению информацией и инжинирингу 2009 г. , стр.  385–389 , doi :10.1109/ICIME.2009.101, ISBN 978-0-7695-3595-1, S2CID  18147603
Retrieved from "https://en.wikipedia.org/w/index.php?title=Boolean_model_of_information_retrieval&oldid=1244904020"