В информационном поиске tf –idf (также TF*IDF , TFIDF , TF–IDF или Tf–idf ), сокращение от термина частота–обратная частота документа , является мерой важности слова для документа в коллекции или корпусе , скорректированной с учетом того факта, что некоторые слова встречаются чаще в целом. [1] Как и модель мешка слов, она моделирует документ как мультимножество слов без порядка слов . Это усовершенствование простой модели мешка слов , позволяющее весу слов зависеть от остальной части корпуса.
Одна из простейших функций ранжирования вычисляется путем суммирования tf–idf для каждого термина запроса; многие более сложные функции ранжирования являются вариантами этой простой модели.
Специфичность термина можно количественно оценить как обратную функцию количества документов, в которых он встречается.
Например, df (частота документа) и idf для некоторых слов в 37 пьесах Шекспира следующие: [4]
Слово
дф
израильская армия
Ромео
1
1.57
салат
2
1.27
Фальстаф
4
0,967
лес
12
0,489
боевой
21
0,246
остроумие
34
0,037
дурак
36
0,012
хороший
37
0
сладкий
37
0
Мы видим, что « Ромео », « Фальстаф » и «салат» появляются в очень немногих пьесах, поэтому, увидев эти слова, можно получить хорошее представление о том, какая это может быть пьеса. Напротив, «хороший» и «сладкий» появляются в каждой пьесе и совершенно неинформативны относительно того, какая это пьеса.
Определение
tf–idf является произведением двух статистик, частоты термина и обратной частоты документа . Существуют различные способы определения точных значений обеих статистик.
Формула, призванная определить важность ключевого слова или фразы в документе или на веб-странице.
Варианты термина частота (tf) вес
схема взвешивания
вес тс
двоичный
сырой подсчет
частота термина
нормализация журнала
двойная нормализация 0,5
двойная нормализация К
Частота термина
Частота термина, tf( t , d ) , — это относительная частота термина t в документе d ,
,
где f t , d — это сырое количество термина в документе, т. е. количество раз, когда термин t встречается в документе d . Обратите внимание, что знаменатель — это просто общее количество терминов в документе d (подсчитывая каждое появление одного и того же термина отдельно). Существуют различные другие способы определения частоты термина: [5] : 128
сам необработанный подсчет: tf( t , d ) = f t , d
Булевы «частоты»: tf( t , d ) = 1, если t встречается в d , и 0 в противном случае;
увеличенная частота, чтобы предотвратить смещение в сторону более длинных документов, например, исходная частота, деленная на исходную частоту наиболее часто встречающегося термина в документе:
Обратная частота документа
Варианты веса обратной частоты документа (idf)
схема взвешивания
вес ИДФ ( )
унарный
1
обратная частота документа
обратный документ частота гладкий
обратная частота документа макс.
вероятностная обратная частота документа
Обратная частота документа — это мера того, сколько информации предоставляет слово, т. е. насколько оно распространено или редко встречается во всех документах. Это логарифмически масштабированная обратная дробь документов, содержащих слово (полученная путем деления общего числа документов на число документов, содержащих термин, и последующего логарифмирования этого частного):
с
: общее количество документов в корпусе
: количество документов, в которых встречается термин (т.е. ). Если термин отсутствует в корпусе, это приведет к делению на ноль. Поэтому принято корректировать числитель и знаменатель до .
Частота термина – обратная частота документа
Варианты термина частота-обратная частота документа (tf–idf) веса
схема взвешивания
tf-idf
подсчет-idf
двойная нормализация-idf
нормализация журнала-idf
Тогда tf–idf рассчитывается как
Высокий вес в tf–idf достигается высокой частотой термина (в данном документе) и низкой частотой термина в документе во всей коллекции документов; таким образом, веса имеют тенденцию отфильтровывать общие термины. Поскольку отношение внутри логарифмической функции idf всегда больше или равно 1, значение idf (и tf–idf) больше или равно 0. По мере того, как термин появляется в большем количестве документов, отношение внутри логарифма приближается к 1, приближая idf и tf–idf к 0.
Обоснование израильской армии
Idf был представлен как «термин-специфичность» Карен Сперк Джонс в статье 1972 года. Хотя он хорошо зарекомендовал себя как эвристика , его теоретические основы были проблемными в течение по крайней мере трех десятилетий после этого, и многие исследователи пытались найти для него обоснования с точки зрения теории информации . [7]
Объяснение самого Сперка Джонса не предлагало много теории, за исключением связи с законом Ципфа . [7] Были предприняты попытки поставить idf на вероятностную основу, [8] оценивая вероятность того, что данный документ d содержит термин t как относительную частоту документа,
так что мы можем определить idf как
А именно, обратная частота документа представляет собой логарифм «обратной» относительной частоты документа.
Эта вероятностная интерпретация в свою очередь принимает ту же форму, что и самоинформация . Однако применение таких информационно-теоретических понятий к проблемам поиска информации приводит к проблемам при попытке определить соответствующие пространства событий для требуемых распределений вероятностей : необходимо учитывать не только документы, но также запросы и термины. [7]
Связь с теорией информации
Оба термина частота и обратная частота документа могут быть сформулированы в терминах теории информации ; это помогает понять, почему их произведение имеет значение в терминах совместного информационного содержания документа. Характерное предположение о распределении заключается в том, что:
Это предположение и его последствия, по словам Айзавы: «представляют собой эвристику, которую использует tf–idf». [9]
Условная энтропия «случайно выбранного» документа в корпусе , обусловленная тем фактом, что он содержит определенный термин (и предполагающая, что все документы имеют одинаковую вероятность быть выбранными), равна:
В терминах обозначений и являются «случайными величинами», соответствующими соответственно рисованию документа или термина. Взаимная информация может быть выражена как
Последний шаг — расширить безусловную вероятность выпадения термина относительно (случайного) выбора документа, чтобы получить:
Это выражение показывает, что суммирование Tf–idf всех возможных терминов и документов восстанавливает взаимную информацию между документами и термином, принимая во внимание все особенности их совместного распределения. [9] Таким образом, каждый Tf–idf несет «бит информации», прикрепленный к паре термин x документ.
Пример tf–idf
Предположим, что у нас есть таблицы подсчета терминов корпуса, состоящего всего из двух документов, как указано справа.
Документ 2
Срок
Количество терминов
этот
1
является
1
другой
2
пример
3
Документ 1
Срок
Количество терминов
этот
1
является
1
а
2
образец
1
Расчет tf–idf для термина «this» выполняется следующим образом:
В своей сырой частотной форме tf — это просто частота «этого» для каждого документа. В каждом документе слово «это» появляется один раз; но поскольку в документе 2 больше слов, его относительная частота меньше.
IDF постоянен для каждого корпуса и учитывает соотношение документов, включающих слово «этот». В этом случае у нас есть корпус из двух документов, и все они включают слово «этот».
Таким образом, tf–idf равен нулю для слова «this», что означает, что слово не очень информативно, поскольку оно встречается во всех документах.
Слово «пример» более интересно — оно встречается три раза, но только во втором документе:
Идея, лежащая в основе tf–idf, применима и к другим сущностям, нежели термины. В 1998 году концепция idf была применена к цитатам. [10] Авторы утверждали, что «если очень необычная цитата встречается в двух документах, она должна иметь больший вес, чем цитата, сделанная большим количеством документов». Кроме того, tf–idf применялась к «визуальным словам» с целью проведения сопоставления объектов в видео, [11] и целых предложениях. [12] Однако концепция tf–idf не оказалась более эффективной во всех случаях, чем простая схема tf (без idf). Когда tf–idf применялась к цитатам, исследователи не смогли найти никаких улучшений по сравнению с простым весом подсчета цитат, который не имел компонента idf. [13]
Производные
Ряд схем взвешивания терминов произошли от tf–idf. Одна из них — TF–PDF (частота термина * пропорциональная частота документа). [14] TF–PDF был представлен в 2001 году в контексте выявления новых тем в СМИ. Компонент PDF измеряет разницу в частоте появления термина в разных доменах. Другим производным является TF–IDuF. В TF–IDuF [15] idf не рассчитывается на основе корпуса документов, который должен быть найден или рекомендован. Вместо этого idf рассчитывается на основе личных коллекций документов пользователей. Авторы сообщают, что TF–IDuF был столь же эффективен, как tf–idf, но также может применяться в ситуациях, когда, например, система моделирования пользователей не имеет доступа к глобальному корпусу документов.
^ Раджараман, А.; Ульман, Дж. Д. (2011). "Data Mining" (PDF) . Mining of Massive Datasets . стр. 1– 17. doi :10.1017/CBO9781139058452.002. ISBN978-1-139-05845-2.
^ Брайтингер, Коринна; Гипп, Бела; Лангер, Стефан (2015-07-26). «Системы рекомендации исследовательских работ: обзор литературы». Международный журнал по цифровым библиотекам . 17 (4): 305–338 . doi :10.1007/s00799-015-0156-0. ISSN 1432-5012. S2CID 207035184.
^ Spärck Jones, K. (1972). «Статистическая интерпретация специфичности термина и ее применение в поиске». Журнал документации . 28 (1): 11– 21. CiteSeerX 10.1.1.115.8343 . doi :10.1108/eb026526. S2CID 2996187.
^ Обработка речи и языка (3-е изд., черновик), Дэн Джурафски и Джеймс Х. Мартин, глава 14.https://web.stanford.edu/~jurafsky/slp3/14.pdf
^ Manning, CD; Raghavan, P.; Schutze, H. (2008). "Оценка, взвешивание терминов и модель векторного пространства" (PDF) . Введение в информационный поиск . стр. 100. doi :10.1017/CBO9780511809071.007. ISBN978-0-511-80907-1.
^ "Статистика TFIDF | SAX-VSM".
^ abc Robertson, S. (2004). «Понимание обратной частоты документов: теоретические аргументы в пользу IDF». Journal of Documentation . 60 (5): 503–520 . doi :10.1108/00220410410560582.
^ См. также Оценки вероятности на практике в книге Введение в информационный поиск .
^ ab Aizawa, Akiko (2003). "Информационно-теоретическая перспектива мер tf–idf". Обработка информации и управление . 39 (1): 45– 65. doi :10.1016/S0306-4573(02)00021-3. S2CID 45793141.
^ Боллакер, Курт Д.; Лоуренс, Стив; Джайлс, К. Ли (1998-01-01). "CiteSeer". Труды второй международной конференции по автономным агентам - AGENTS '98 . стр. 116–123 . doi :10.1145/280765.280786. ISBN978-0-89791-983-8. S2CID 3526393.
^ Сивич, Йозеф; Зиссерман, Эндрю (2003-01-01). "Видео Google: подход к поиску текста для сопоставления объектов в видео". Труды Девятой международной конференции IEEE по компьютерному зрению. ICCV '03. стр. 1470–. doi :10.1109/ICCV.2003.1238663. ISBN978-0-7695-1950-0. S2CID 14457153.
^ Секи, Ёхэй. «Извлечение предложений с помощью tf/idf и взвешивание позиций из газетных статей» (PDF) . Национальный институт информатики.
^ Beel, Joeran; Breitinger, Corinna (2017). «Оценка схемы цитирования-взвешивания CC-IDF – насколько эффективно можно применять 'обратную частоту документа' (IDF) к ссылкам?» (PDF) . Труды 12-й конференции IConference . Архивировано из оригинала (PDF) 22-09-2020 . Получено 29-01-2017 .
^ Khoo Khyou Bun; Bun, Khoo Khyou; Ishizuka, M. (2001). "Emerging Topic Tracking System". Труды Третьего международного семинара по передовым вопросам электронной коммерции и веб-информационных систем. WECWIS 2001. стр. 2–11 . CiteSeerX 10.1.1.16.7986 . doi :10.1109/wecwis.2001.933900. ISBN978-0-7695-1224-2. S2CID 1049263.
^ Лангер, Стефан; Гипп, Бела (2017). «TF-IDuF: новая схема взвешивания терминов для моделирования пользователей на основе личных коллекций документов пользователей» (PDF) . IConference .
Генератор текста в матрицу (TMG) Набор инструментов MATLAB, который может использоваться для различных задач в области интеллектуального анализа текста (TM), в частности i) индексирование, ii) поиск, iii) снижение размерности, iv) кластеризация, v) классификация. Шаг индексирования предлагает пользователю возможность применять локальные и глобальные методы взвешивания, включая tf–idf.