SimHash

Методика быстрой оценки сходства множеств

В информатике SimHash — это метод быстрой оценки того, насколько похожи два набора. Алгоритм используется Google Crawler для поиска почти дублирующихся страниц. Он был создан Моисеем Чарикаром . В 2021 году Google объявила о своем намерении также использовать алгоритм в своей недавно созданной системе FLoC (Federated Learning of Cohorts) . [1]

Оценка и контрольные показатели

Масштабная оценка была проведена Google в 2006 году [2] для сравнения производительности алгоритмов Minhash и Simhash [3] . В 2007 году Google сообщил об использовании Simhash для обнаружения дубликатов при веб-сканировании [4] и использовании Minhash и LSH для персонализации Google News . [5]

Смотрите также

Ссылки

  1. ^ Cyphers, Bennett (2021-03-03). «FLoC от Google — ужасная идея». Electronic Frontier Foundation . Получено 2021-04-13 .
  2. ^ Хензингер, Моника (2006), «Поиск почти дублирующихся веб-страниц: крупномасштабная оценка алгоритмов», Труды 29-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, стр. 284, doi :10.1145/1148170.1148222, ISBN 978-1595933690, S2CID  207160068.
  3. ^ Чарикар, Мозес С. (2002), «Методы оценки сходства на основе алгоритмов округления», Труды 34-го ежегодного симпозиума ACM по теории вычислений , стр. 380, doi :10.1145/509907.509965, ISBN 978-1581134957, S2CID  4229473.
  4. ^ Гурмит Сингх, Манку; Джейн, Арвинд; Дас Сарма, Аниш (2007), «Обнаружение почти дубликатов для веб-сканирования», Труды 16-й Международной конференции по Всемирной паутине (PDF) , стр. 141, doi :10.1145/1242572.1242592, ISBN 9781595936547.
  5. ^ Das, Abhinandan S.; Datar, Mayur; Garg, Ashutosh; Rajaram, Shyam; et al. (2007), "Персонализация новостей Google: масштабируемая совместная фильтрация в Интернете", Труды 16-й Международной конференции по Всемирной паутине , стр. 271, doi :10.1145/1242572.1242610, ISBN 9781595936547, S2CID  207163129.
  • Симхаш Принстонская статья
  • Симхаш объяснил
  • Сравнение MinHash и Simhash
Взято с "https://en.wikipedia.org/w/index.php?title=SimHash&oldid=1189269889"