тф–идф

Оценка важности слова в документе

В информационном поиске tf –idf (также TF*IDF , TFIDF , TF–IDF или Tf–idf ), сокращение от термина частота–обратная частота документа , является мерой важности слова для документа в коллекции или корпусе , скорректированной с учетом того факта, что некоторые слова встречаются чаще в целом. [1] Как и модель мешка слов, она моделирует документ как мультимножество слов без порядка слов . Это усовершенствование простой модели мешка слов , позволяющее весу слов зависеть от остальной части корпуса.

Он часто использовался в качестве весового коэффициента при поиске информации, интеллектуальном анализе текста и моделировании пользователей . Опрос, проведенный в 2015 году, показал, что 83% текстовых рекомендательных систем в цифровых библиотеках использовали tf–idf. [2] Вариации схемы весовых коэффициентов tf–idf часто использовались поисковыми системами в качестве центрального инструмента при оценке и ранжировании релевантности документа с учетом запроса пользователя .

Одна из простейших функций ранжирования вычисляется путем суммирования tf–idf для каждого термина запроса; многие более сложные функции ранжирования являются вариантами этой простой модели.

Мотивации

Карен Сперк Джонс (1972) разработала статистическую интерпретацию специфичности термина, названную обратной частотой документа (idf), которая стала краеугольным камнем взвешивания терминов: [3]

Специфичность термина можно количественно оценить как обратную функцию количества документов, в которых он встречается.

Например, df (частота документа) и idf для некоторых слов в 37 пьесах Шекспира следующие: [4]

Словодфизраильская армия
Ромео11.57
салат21.27
Фальстаф40,967
лес120,489
боевой210,246
остроумие340,037
дурак360,012
хороший370
сладкий370

Мы видим, что « Ромео », « Фальстаф » и «салат» появляются в очень немногих пьесах, поэтому, увидев эти слова, можно получить хорошее представление о том, какая это может быть пьеса. Напротив, «хороший» и «сладкий» появляются в каждой пьесе и совершенно неинформативны относительно того, какая это пьеса.

Определение

  1. tf–idf является произведением двух статистик, частоты термина и обратной частоты документа . Существуют различные способы определения точных значений обеих статистик.
  2. Формула, призванная определить важность ключевого слова или фразы в документе или на веб-странице.
Варианты термина частота (tf) вес
схема взвешиваниявес тс
двоичный 0 , 1 {\displaystyle {0,1}}
сырой подсчет ф т , г {\displaystyle f_{т,д}}
частота термина ф т , г / т г ф т , г {\displaystyle f_{t,d}{\Bigg ][\sum _{t'\in d}{f_{t',d}}}}
нормализация журнала бревно ( 1 + ф т , г ) {\displaystyle \log(1+f_{t,d})}
двойная нормализация 0,5 0,5 + 0,5 ф т , г макс { т г } ф т , г {\displaystyle 0,5+0,5\cdot {\frac {f_{t,d}}{\max _{\{t'\in d\}}{f_{t',d}}}}}
двойная нормализация К К + ( 1 К ) ф т , г макс { т г } ф т , г {\displaystyle K+(1-K){\frac {f_{t,d}}{\max _{\{t'\in d\}}{f_{t',d}}}}}

Частота термина

Частота термина, tf( t , d ) , — это относительная частота термина t в документе d ,

т ф ( т , г ) = ф т , г т г ф т , г {\displaystyle \mathrm {tf} (t,d)={\frac {f_{t,d}}{\sum _{t'\in d}{f_{t',d}}}}} ,

где f t , d — это сырое количество термина в документе, т. е. количество раз, когда термин t встречается в документе d . Обратите внимание, что знаменатель — это просто общее количество терминов в документе d (подсчитывая каждое появление одного и того же термина отдельно). Существуют различные другие способы определения частоты термина: [5] : 128 

  • сам необработанный подсчет: tf( t , d ) = f t , d
  • Булевы «частоты»: tf( t , d ) = 1, если t встречается в d , и 0 в противном случае;
  • Логарифмически масштабированная частота: tf( t , d ) = log (1 + f t , d ) ; [6]
  • увеличенная частота, чтобы предотвратить смещение в сторону более длинных документов, например, исходная частота, деленная на исходную частоту наиболее часто встречающегося термина в документе:
т ф ( т , г ) = 0,5 + 0,5 ф т , г макс { ф т , г : т г } {\displaystyle \mathrm {tf} (t,d)=0,5+0,5\cdot {\frac {f_{t,d}}{\max\{f_{t',d}:t'\in d\}}}}

Обратная частота документа

Варианты веса обратной частоты документа (idf)
схема взвешиваниявес ИДФ ( ) н т = | { г Д : т г } | {\displaystyle n_{t}=|\{d\in D:t\in d\}|}
унарный1
обратная частота документа бревно Н н т = бревно н т Н {\displaystyle \log {\frac {N}{n_{t}}}=-\log {\frac {n_{t}}{N}}}
обратный документ частота гладкий бревно ( Н 1 + н т ) + 1 {\displaystyle \log \left({\frac {N}{1+n_{t}}}\right)+1}
обратная частота документа макс. бревно ( макс { т г } н т 1 + н т ) {\displaystyle \log \left({\frac {\max _{\{t'\in d\}}n_{t'}}{1+n_{t}}}\right)}
вероятностная обратная частота документа бревно Н н т н т {\displaystyle \log {\frac {N-n_{t}}{n_{t}}}}

Обратная частота документа — это мера того, сколько информации предоставляет слово, т. е. насколько оно распространено или редко встречается во всех документах. Это логарифмически масштабированная обратная дробь документов, содержащих слово (полученная путем деления общего числа документов на число документов, содержащих термин, и последующего логарифмирования этого частного):

я г ф ( т , Д ) = бревно Н | { г : г Д  и  т г } | {\displaystyle \mathrm {idf} (t,D)=\log {\frac {N}{|\{d:d\in D{\text{ and }}t\in d\}|}}}

с

  • N {\displaystyle N} : общее количество документов в корпусе N = | D | {\displaystyle N={|D|}}
  • | { d D : t d } | {\displaystyle |\{d\in D:t\in d\}|}  : количество документов, в которых встречается термин (т.е. ). Если термин отсутствует в корпусе, это приведет к делению на ноль. Поэтому принято корректировать числитель и знаменатель до . t {\displaystyle t} t f ( t , d ) 0 {\displaystyle \mathrm {tf} (t,d)\neq 0} 1 + N {\displaystyle 1+N} 1 + | { d D : t d } | {\displaystyle 1+|\{d\in D:t\in d\}|}
График различных обратных функций частоты документа: стандартная, гладкая, вероятностная.

Частота термина – обратная частота документа

Варианты термина частота-обратная частота документа (tf–idf) веса
схема взвешиванияtf-idf
подсчет-idf f t , d log N n t {\displaystyle f_{t,d}\cdot \log {\frac {N}{n_{t}}}}
двойная нормализация-idf ( 0.5 + 0.5 f t , q max t f t , q ) log N n t {\displaystyle \left(0.5+0.5{\frac {f_{t,q}}{\max _{t}f_{t,q}}}\right)\cdot \log {\frac {N}{n_{t}}}}
нормализация журнала-idf ( 1 + log f t , d ) log N n t {\displaystyle (1+\log f_{t,d})\cdot \log {\frac {N}{n_{t}}}}

Тогда tf–idf рассчитывается как

t f i d f ( t , d , D ) = t f ( t , d ) i d f ( t , D ) {\displaystyle \mathrm {tfidf} (t,d,D)=\mathrm {tf} (t,d)\cdot \mathrm {idf} (t,D)}

Высокий вес в tf–idf достигается высокой частотой термина (в данном документе) и низкой частотой термина в документе во всей коллекции документов; таким образом, веса имеют тенденцию отфильтровывать общие термины. Поскольку отношение внутри логарифмической функции idf всегда больше или равно 1, значение idf (и tf–idf) больше или равно 0. По мере того, как термин появляется в большем количестве документов, отношение внутри логарифма приближается к 1, приближая idf и tf–idf к 0.

Обоснование израильской армии

Idf был представлен как «термин-специфичность» Карен Сперк Джонс в статье 1972 года. Хотя он хорошо зарекомендовал себя как эвристика , его теоретические основы были проблемными в течение по крайней мере трех десятилетий после этого, и многие исследователи пытались найти для него обоснования с точки зрения теории информации . [7]

Объяснение самого Сперка Джонса не предлагало много теории, за исключением связи с законом Ципфа . [7] Были предприняты попытки поставить idf на вероятностную основу, [8] оценивая вероятность того, что данный документ d содержит термин t как относительную частоту документа,

P ( t | D ) = | { d D : t d } | N , {\displaystyle P(t|D)={\frac {|\{d\in D:t\in d\}|}{N}},}

так что мы можем определить idf как

i d f = log P ( t | D ) = log 1 P ( t | D ) = log N | { d D : t d } | {\displaystyle {\begin{aligned}\mathrm {idf} &=-\log P(t|D)\\&=\log {\frac {1}{P(t|D)}}\\&=\log {\frac {N}{|\{d\in D:t\in d\}|}}\end{aligned}}}

А именно, обратная частота документа представляет собой логарифм «обратной» относительной частоты документа.

Эта вероятностная интерпретация в свою очередь принимает ту же форму, что и самоинформация . Однако применение таких информационно-теоретических понятий к проблемам поиска информации приводит к проблемам при попытке определить соответствующие пространства событий для требуемых распределений вероятностей : необходимо учитывать не только документы, но также запросы и термины. [7]

Оба термина частота и обратная частота документа могут быть сформулированы в терминах теории информации ; это помогает понять, почему их произведение имеет значение в терминах совместного информационного содержания документа. Характерное предположение о распределении заключается в том, что: p ( d , t ) {\displaystyle p(d,t)}

p ( d | t ) = 1 | { d D : t d } | {\displaystyle p(d|t)={\frac {1}{|\{d\in D:t\in d\}|}}}

Это предположение и его последствия, по словам Айзавы: «представляют собой эвристику, которую использует tf–idf». [9]

Условная энтропия «случайно выбранного» документа в корпусе , обусловленная тем фактом, что он содержит определенный термин (и предполагающая, что все документы имеют одинаковую вероятность быть выбранными), равна: D {\displaystyle D} t {\displaystyle t}

H ( D | T = t ) = d p d | t log p d | t = log 1 | { d D : t d } | = log | { d D : t d } | | D | + log | D | = i d f ( t ) + log | D | {\displaystyle H({\cal {D}}|{\cal {T}}=t)=-\sum _{d}p_{d|t}\log p_{d|t}=-\log {\frac {1}{|\{d\in D:t\in d\}|}}=\log {\frac {|\{d\in D:t\in d\}|}{|D|}}+\log |D|=-\mathrm {idf} (t)+\log |D|}

В терминах обозначений и являются «случайными величинами», соответствующими соответственно рисованию документа или термина. Взаимная информация может быть выражена как D {\displaystyle {\cal {D}}} T {\displaystyle {\cal {T}}}

M ( T ; D ) = H ( D ) H ( D | T ) = t p t ( H ( D ) H ( D | W = t ) ) = t p t i d f ( t ) {\displaystyle M({\cal {T}};{\cal {D}})=H({\cal {D}})-H({\cal {D}}|{\cal {T}})=\sum _{t}p_{t}\cdot (H({\cal {D}})-H({\cal {D}}|W=t))=\sum _{t}p_{t}\cdot \mathrm {idf} (t)}

Последний шаг — расширить безусловную вероятность выпадения термина относительно (случайного) выбора документа, чтобы получить: p t {\displaystyle p_{t}}

M ( T ; D ) = t , d p t | d p d i d f ( t ) = t , d t f ( t , d ) 1 | D | i d f ( t ) = 1 | D | t , d t f ( t , d ) i d f ( t ) . {\displaystyle M({\cal {T}};{\cal {D}})=\sum _{t,d}p_{t|d}\cdot p_{d}\cdot \mathrm {idf} (t)=\sum _{t,d}\mathrm {tf} (t,d)\cdot {\frac {1}{|D|}}\cdot \mathrm {idf} (t)={\frac {1}{|D|}}\sum _{t,d}\mathrm {tf} (t,d)\cdot \mathrm {idf} (t).}

Это выражение показывает, что суммирование Tf–idf всех возможных терминов и документов восстанавливает взаимную информацию между документами и термином, принимая во внимание все особенности их совместного распределения. [9] Таким образом, каждый Tf–idf несет «бит информации», прикрепленный к паре термин x документ.

Пример tf–idf

Предположим, что у нас есть таблицы подсчета терминов корпуса, состоящего всего из двух документов, как указано справа.

Документ 2
СрокКоличество терминов
этот1
является1
другой2
пример3
Документ 1
СрокКоличество терминов
этот1
является1
а2
образец1

Расчет tf–idf для термина «this» выполняется следующим образом:

В своей сырой частотной форме tf — это просто частота «этого» для каждого документа. В каждом документе слово «это» появляется один раз; но поскольку в документе 2 больше слов, его относительная частота меньше.

t f ( t h i s , d 1 ) = 1 5 = 0.2 {\displaystyle \mathrm {tf} ({\mathsf {''this''}},d_{1})={\frac {1}{5}}=0.2}
t f ( t h i s , d 2 ) = 1 7 0.14 {\displaystyle \mathrm {tf} ({\mathsf {''this''}},d_{2})={\frac {1}{7}}\approx 0.14}

IDF постоянен для каждого корпуса и учитывает соотношение документов, включающих слово «этот». В этом случае у нас есть корпус из двух документов, и все они включают слово «этот».

i d f ( t h i s , D ) = log ( 2 2 ) = 0 {\displaystyle \mathrm {idf} ({\mathsf {''this''}},D)=\log \left({\frac {2}{2}}\right)=0}

Таким образом, tf–idf равен нулю для слова «this», что означает, что слово не очень информативно, поскольку оно встречается во всех документах.

t f i d f ( t h i s , d 1 , D ) = 0.2 × 0 = 0 {\displaystyle \mathrm {tfidf} ({\mathsf {''this''}},d_{1},D)=0.2\times 0=0}
t f i d f ( t h i s , d 2 , D ) = 0.14 × 0 = 0 {\displaystyle \mathrm {tfidf} ({\mathsf {''this''}},d_{2},D)=0.14\times 0=0}

Слово «пример» более интересно — оно встречается три раза, но только во втором документе:

t f ( e x a m p l e , d 1 ) = 0 5 = 0 {\displaystyle \mathrm {tf} ({\mathsf {''example''}},d_{1})={\frac {0}{5}}=0}
t f ( e x a m p l e , d 2 ) = 3 7 0.429 {\displaystyle \mathrm {tf} ({\mathsf {''example''}},d_{2})={\frac {3}{7}}\approx 0.429}
i d f ( e x a m p l e , D ) = log ( 2 1 ) = 0.301 {\displaystyle \mathrm {idf} ({\mathsf {''example''}},D)=\log \left({\frac {2}{1}}\right)=0.301}

Окончательно,

t f i d f ( e x a m p l e , d 1 , D ) = t f ( e x a m p l e , d 1 ) × i d f ( e x a m p l e , D ) = 0 × 0.301 = 0 {\displaystyle \mathrm {tfidf} ({\mathsf {''example''}},d_{1},D)=\mathrm {tf} ({\mathsf {''example''}},d_{1})\times \mathrm {idf} ({\mathsf {''example''}},D)=0\times 0.301=0}
t f i d f ( e x a m p l e , d 2 , D ) = t f ( e x a m p l e , d 2 ) × i d f ( e x a m p l e , D ) = 0.429 × 0.301 0.129 {\displaystyle \mathrm {tfidf} ({\mathsf {''example''}},d_{2},D)=\mathrm {tf} ({\mathsf {''example''}},d_{2})\times \mathrm {idf} ({\mathsf {''example''}},D)=0.429\times 0.301\approx 0.129}

(используя логарифм по основанию 10 ).

За пределами терминов

Идея, лежащая в основе tf–idf, применима и к другим сущностям, нежели термины. В 1998 году концепция idf была применена к цитатам. [10] Авторы утверждали, что «если очень необычная цитата встречается в двух документах, она должна иметь больший вес, чем цитата, сделанная большим количеством документов». Кроме того, tf–idf применялась к «визуальным словам» с целью проведения сопоставления объектов в видео, [11] и целых предложениях. [12] Однако концепция tf–idf не оказалась более эффективной во всех случаях, чем простая схема tf (без idf). Когда tf–idf применялась к цитатам, исследователи не смогли найти никаких улучшений по сравнению с простым весом подсчета цитат, который не имел компонента idf. [13]

Производные

Ряд схем взвешивания терминов произошли от tf–idf. Одна из них — TF–PDF (частота термина * пропорциональная частота документа). [14] TF–PDF был представлен в 2001 году в контексте выявления новых тем в СМИ. Компонент PDF измеряет разницу в частоте появления термина в разных доменах. Другим производным является TF–IDuF. В TF–IDuF [15] idf не рассчитывается на основе корпуса документов, который должен быть найден или рекомендован. Вместо этого idf рассчитывается на основе личных коллекций документов пользователей. Авторы сообщают, что TF–IDuF был столь же эффективен, как tf–idf, но также может применяться в ситуациях, когда, например, система моделирования пользователей не имеет доступа к глобальному корпусу документов.

Смотрите также

Ссылки

  1. ^ Раджараман, А.; Ульман, Дж. Д. (2011). "Data Mining" (PDF) . Mining of Massive Datasets . стр.  1– 17. doi :10.1017/CBO9781139058452.002. ISBN 978-1-139-05845-2.
  2. ^ Брайтингер, Коринна; Гипп, Бела; Лангер, Стефан (2015-07-26). «Системы рекомендации исследовательских работ: обзор литературы». Международный журнал по цифровым библиотекам . 17 (4): 305–338 . doi :10.1007/s00799-015-0156-0. ISSN  1432-5012. S2CID  207035184.
  3. ^ Spärck Jones, K. (1972). «Статистическая интерпретация специфичности термина и ее применение в поиске». Журнал документации . 28 (1): 11– 21. CiteSeerX 10.1.1.115.8343 . doi :10.1108/eb026526. S2CID  2996187. 
  4. ^ Обработка речи и языка (3-е изд., черновик), Дэн Джурафски и Джеймс Х. Мартин, глава 14.https://web.stanford.edu/~jurafsky/slp3/14.pdf
  5. ^ Manning, CD; Raghavan, P.; Schutze, H. (2008). "Оценка, взвешивание терминов и модель векторного пространства" (PDF) . Введение в информационный поиск . стр. 100. doi :10.1017/CBO9780511809071.007. ISBN 978-0-511-80907-1.
  6. ^ "Статистика TFIDF | SAX-VSM".
  7. ^ abc Robertson, S. (2004). «Понимание обратной частоты документов: теоретические аргументы в пользу IDF». Journal of Documentation . 60 (5): 503–520 . doi :10.1108/00220410410560582.
  8. ^ См. также Оценки вероятности на практике в книге Введение в информационный поиск .
  9. ^ ab Aizawa, Akiko (2003). "Информационно-теоретическая перспектива мер tf–idf". Обработка информации и управление . 39 (1): 45– 65. doi :10.1016/S0306-4573(02)00021-3. S2CID  45793141.
  10. ^ Боллакер, Курт Д.; Лоуренс, Стив; Джайлс, К. Ли (1998-01-01). "CiteSeer". Труды второй международной конференции по автономным агентам - AGENTS '98 . стр.  116–123 . doi :10.1145/280765.280786. ISBN 978-0-89791-983-8. S2CID  3526393.
  11. ^ Сивич, Йозеф; Зиссерман, Эндрю (2003-01-01). "Видео Google: подход к поиску текста для сопоставления объектов в видео". Труды Девятой международной конференции IEEE по компьютерному зрению. ICCV '03. стр. 1470–. doi :10.1109/ICCV.2003.1238663. ISBN 978-0-7695-1950-0. S2CID  14457153.
  12. ^ Секи, Ёхэй. «Извлечение предложений с помощью tf/idf и взвешивание позиций из газетных статей» (PDF) . Национальный институт информатики.
  13. ^ Beel, Joeran; Breitinger, Corinna (2017). «Оценка схемы цитирования-взвешивания CC-IDF – насколько эффективно можно применять 'обратную частоту документа' (IDF) к ссылкам?» (PDF) . Труды 12-й конференции IConference . Архивировано из оригинала (PDF) 22-09-2020 . Получено 29-01-2017 .
  14. ^ Khoo Khyou Bun; Bun, Khoo Khyou; Ishizuka, M. (2001). "Emerging Topic Tracking System". Труды Третьего международного семинара по передовым вопросам электронной коммерции и веб-информационных систем. WECWIS 2001. стр.  2–11 . CiteSeerX 10.1.1.16.7986 . doi :10.1109/wecwis.2001.933900. ISBN  978-0-7695-1224-2. S2CID  1049263.
  15. ^ Лангер, Стефан; Гипп, Бела (2017). «TF-IDuF: новая схема взвешивания терминов для моделирования пользователей на основе личных коллекций документов пользователей» (PDF) . IConference .
  • Salton, G ; McGill, MJ (1986). Введение в современный информационный поиск . McGraw-Hill . ISBN 978-0-07-054484-0.
  • Salton, G. ; Fox, EA; Wu, H. (1983). «Расширенный поиск булевой информации». Communications of the ACM . 26 (11): 1022– 1036. doi :10.1145/182.358466. hdl : 1813/6351 . S2CID  207180535.
  • Salton, G. ; Buckley, C. (1988). "Подходы к взвешиванию терминов при автоматическом поиске текста" (PDF) . Information Processing & Management . 24 (5): 513– 523. doi :10.1016/0306-4573(88)90021-0. hdl : 1813/6721 . S2CID  7725217.
  • Wu, HC; Luk, RWP; Wong, KF; Kwok, KL (2008). «Интерпретация весов терминов TF-IDF как принятие решений о релевантности». ACM Transactions on Information Systems . 26 (3): 1. doi : 10.1145/1361684.1361686. hdl : 10397/10130 . S2CID  18303048.
  • Gensim — это библиотека Python для моделирования векторного пространства, включающая весовые коэффициенты tf–idf.
  • Анатомия поисковой системы
  • tf–idf и связанные определения, используемые в Lucene
  • TfidfTransformer в scikit-learn
  • Генератор текста в матрицу (TMG) Набор инструментов MATLAB, который может использоваться для различных задач в области интеллектуального анализа текста (TM), в частности i) индексирование, ii) поиск, iii) снижение размерности, iv) кластеризация, v) классификация. Шаг индексирования предлагает пользователю возможность применять локальные и глобальные методы взвешивания, включая tf–idf.
  • Объяснение термина «частота употребления»
Retrieved from "https://en.wikipedia.org/w/index.php?title=Tf–idf&oldid=1268530811"