Коэффициент Дайса-Сёренсена

Статистика, используемая для сравнения сходства двух образцов.

Коэффициент Дайса-Сёренсена (другие названия см. ниже) — это статистика, используемая для оценки сходства двух образцов . Он был независимо разработан ботаниками Ли Рэймондом Дайсом [1] и Торвальдом Сёренсеном [2] , которые опубликовали свои работы в 1945 и 1948 годах соответственно.

Имя

Индекс известен под несколькими другими названиями, особенно индекс Сёренсена–Дайса , [3] индекс Сёренсена и коэффициент Дайса . Другие вариации включают «коэффициент сходства» или «индекс», такой как коэффициент сходства Дайса ( DSC ). Распространенные альтернативные написания для Сёренсена — это Соренсон , Соеренсон и Сёренсон , и все три также можно увидеть с окончанием –сен ( датская буква ø фонетически эквивалентна немецкой/шведской ö, которая может быть записана как oe в ASCII).

Другие названия включают:

  • Оценка F1
  • Бинарный (неколичественный) индекс Чекановского [ 4]
  • Мера генетического сходства [5]
  • Индекс сходства Зиденбоса, [6] [7] относится к статье Зиджденбоса и др. 1994 года. [8] [3]

Формула

Первоначальная формула Сёренсена была предназначена для применения к дискретным данным. При наличии двух наборов, X и Y, она определяется как

Д С С = 2 | Х И | | Х | + | И | {\displaystyle DSC={\frac {2|X\cap Y|}{|X|+|Y|}}}

где | X | и | Y | — мощности двух множеств (т. е. количество элементов в каждом множестве). Индекс Сёренсена равен удвоенному количеству элементов, общих для обоих множеств, делённому на сумму количества элементов в каждом множестве. Эквивалентно, индекс — это размер пересечения как доля среднего размера двух множеств.

Применительно к булевым данным, используя определения истинно положительного (TP), ложно положительного (FP) и ложно отрицательного (FN) результата, его можно записать как

Д С С = 2 Т П 2 Т П + Ф П + Ф Н {\displaystyle DSC={\frac {2{\mathit {TP}}}{2{\mathit {TP}}+{\mathit {FP}}+{\mathit {FN}}}}} .

Он отличается от индекса Жаккара , который учитывает истинно положительные результаты только один раз как в числителе, так и в знаменателе. DSC — это коэффициент сходства, который находится в диапазоне от 0 до 1. [9] Его можно рассматривать как меру сходства по множествам.

Аналогично индексу Жаккара , операции над множествами можно выразить через векторные операции над бинарными векторами a и b :

с в = 2 | а б | | а | 2 + | б | 2 {\displaystyle s_{v}={\frac {2|{\bf {{a}\cdot {\bf {{b}|}}}}}{|{\bf {{a}|^{2}+|{\bf {{b}|^{2}}}}}}}}

что дает тот же результат для двоичных векторов, а также дает более общую метрику сходства для векторов в общих чертах.

Для наборов X и Y ключевых слов, используемых при поиске информации , коэффициент может быть определен как удвоенная общая информация (пересечение) по сумме мощностей: [10]

Если рассматривать коэффициент как меру сходства строк , то его можно рассчитать для двух строк, x и y, используя биграммы следующим образом: [11]

с = 2 н т н х + н у {\displaystyle s={\frac {2n_{t}}{n_{x}+n_{y}}}}

где n t — количество биграмм символов, найденных в обеих строках, n x — количество биграмм в строке x , а n y — количество биграмм в строке y . Например, чтобы вычислить сходство между:

night
nacht

Мы найдем набор биграмм в каждом слове:

{ ni, ig, gh, ht}
{ na, ac, ch, ht}

Каждое множество состоит из четырех элементов, а пересечение этих двух множеств состоит только из одного элемента: ht.

Подставляя эти числа в формулу, вычисляем, s  = (2 · 1) / (4 + 4) = 0,25.

Непрерывный коэффициент кубика

Источник: [12]

Для дискретной (бинарной) истинности и непрерывных мер в интервале [0,1] можно использовать следующую формулу: А {\displaystyle А} Б {\displaystyle Б}

с Д С = 2 | А Б | с | А | + | Б | {\displaystyle cDC={\frac {2|A\cap B|}{c*|A|+|B|}}}

Где и | А Б | = Σ я а я б я {\displaystyle |A\cap B|=\Сигма _{i}a_{i}b_{i}} | Б | = Σ я б я {\displaystyle |B|=\Сигма _{i}b_{i}}

c можно вычислить следующим образом:

с = Σ я а я б я Σ я а я знак ( б я ) {\displaystyle c={\frac {\Sigma _{i}a_{i}b_{i}}{\Sigma _{i}a_{i}\operatorname {знак} {(b_{i})}}}}

Если это означает отсутствие пересечения между A и B, то c произвольно устанавливается равным 1. Σ я а я знак ( б я ) = 0 {\displaystyle \Sigma _{i}a_{i}\operatorname {знак} {(b_{i})}=0}

Отличие от Жаккара

Этот коэффициент не сильно отличается по форме от индекса Жаккара . Фактически, оба они эквивалентны в том смысле, что, имея значение коэффициента Сёренсена–Дайса , можно рассчитать соответствующее значение индекса Жаккара и наоборот, используя уравнения и . С {\displaystyle S} Дж. {\displaystyle J} Дж. = С / ( 2 С ) {\displaystyle J=S/(2-S)} С = 2 Дж. / ( 1 + Дж. ) {\displaystyle S=2J/(1+J)}

Поскольку коэффициент Сёренсена–Дайса не удовлетворяет неравенству треугольника , его можно считать полуметрической версией индекса Жаккара. [4]

Функция варьируется от нуля до единицы, как Жаккар. В отличие от Жаккара, соответствующая функция разности

г ( Х , И ) = 1 2 | Х И | | Х | + | И | {\displaystyle d(X,Y)=1-{\frac {2|X\cap Y|}{|X|+|Y|}}}

не является собственной метрикой расстояния, поскольку не удовлетворяет неравенству треугольника. [4] Простейший контрпример этого дается тремя множествами , и . Имеем и . Чтобы удовлетворить неравенству треугольника, сумма любых двух сторон должна быть больше или равна сумме оставшейся стороны. Однако . Х = { а } {\displaystyle X=\{a\}} И = { б } {\displaystyle Y=\{b\}} З = Х И = { а , б } {\displaystyle Z=X\чашка Y=\{a,b\}} г ( Х , И ) = 1 {\displaystyle d(X,Y)=1} г ( Х , З ) = г ( И , З ) = 1 / 3 {\displaystyle d(X,Z)=d(Y,Z)=1/3} г ( Х , З ) + г ( И , З ) = 2 / 3 < 1 = г ( Х , И ) {\displaystyle d(X,Z)+d(Y,Z)=2/3<1=d(X,Y)}

Приложения

Коэффициент Сёренсена–Дайса полезен для данных об экологическом сообществе (например, Looman & Campbell, 1960 [13] ). Обоснование его использования в первую очередь эмпирическое, а не теоретическое (хотя его можно обосновать теоретически как пересечение двух нечетких множеств [14] ). По сравнению с евклидовым расстоянием , расстояние Сёренсена сохраняет чувствительность в более неоднородных наборах данных и придает меньший вес выбросам. [15] В последнее время оценка Дайса (и ее вариации, например, logDice, логарифмирующий ее) стала популярной в компьютерной лексикографии для измерения оценки лексической ассоциации двух заданных слов. [16] logDice также используется как часть расстояния Mash для оценки расстояния генома и метагенома [17] Наконец, Dice используется в сегментации изображений , в частности, для сравнения выходных данных алгоритма с эталонными масками в медицинских приложениях. [8]

Версия изобилия

Выражение легко распространяется на обилие вместо наличия/отсутствия видов. Эта количественная версия известна под несколькими названиями:

  • Количественный индекс Серенсена – Дайса [4]
  • Количественный индекс Серенсена [4]
  • Количественный индекс Dice [4]
  • Сходство Брея-Кертиса (1 минус несходство Брея-Кертиса ) [4]
  • Количественный показатель Чекановского [ 4]
  • Индекс Штейнхауза [4]
  • Процентное сходство Пиелоу [ 4]
  • 1 минус расстояние Хеллингера [18]
  • Доля конкретного согласия [19] или положительного согласия [20]

Смотрите также

Ссылки

  1. ^ Дайс, Ли Р. (1945). «Измерения количества экологической ассоциации между видами». Экология . 26 (3): 297– 302. doi :10.2307/1932409. JSTOR  1932409. S2CID  53335638.
  2. ^ Соренсен, Т. (1948). «Метод создания групп равной амплитуды в социологии растений, основанный на сходстве видов, и его применение к анализу растительности на территории Дании». Kongelige Danske Videnskabernes Selskab . 5 (4): 1–34 .
  3. ^ ab Carass, A.; Roy, S.; Gherman, A.; Reinhold, JC; Jesson, A.; et al. (2020). «Оценка сегментации поражений белого вещества с помощью уточненного анализа Серенсена-Дайса». Scientific Reports . 10 (1): 8242. Bibcode :2020NatSR..10.8242C. doi : 10.1038/s41598-020-64803-w . ISSN  2045-2322. PMC 7237671 . PMID  32427874. 
  4. ^ abcdefghij Галлахер, ED, 1999. Документация COMPAH, Массачусетский университет, Бостон
  5. ^ Nei, M.; Li, WH (1979). «Математическая модель для изучения генетической изменчивости с точки зрения эндонуклеаз рестрикции». PNAS . 76 (10): 5269– 5273. Bibcode :1979PNAS...76.5269N. doi : 10.1073/pnas.76.10.5269 . PMC 413122 . PMID  291943. 
  6. ^ Prescott, JW; Pennell, M.; Best, TM; Swanson, MS; Haq, F.; Jackson, R.; Gurcan, MN (2009). «Автоматизированный метод сегментации бедренной кости для исследования остеоартрита». Ежегодная международная конференция IEEE Engineering in Medicine and Biology Society 2009 г. IEEE. стр.  6364– 6367. doi :10.1109/iembs.2009.5333257. PMC 2826829 . 
  7. ^ Swanson, MS; Prescott, JW; Best, TM; Powell, K.; Jackson, RD; Haq, F.; Gurcan, MN (2010). «Полуавтоматическая сегментация для оценки латерального мениска в нормальных и остеоартритных коленях». Остеоартрит и хрящ . 18 (3): 344–353 . doi :10.1016/j.joca.2009.10.004. ISSN  1063-4584. PMC 2826568. PMID 19857510  . 
  8. ^ ab Zijdenbos, AP; Dawant, BM; Margolin, RA; Palmer, AC (1994). «Морфометрический анализ поражений белого вещества на изображениях МРТ: метод и валидация». IEEE Transactions on Medical Imaging . 13 (4): 716– 724. doi :10.1109/42.363096. ISSN  0278-0062. PMID  18218550.
  9. ^ Мургия, Мигель; Луис Вильясеньор, Хосе (2003). «Оценка влияния коэффициента сходства и кластерного алгоритма на биогеографические классификации» (PDF) . Анналы Ботаники Фенники . 40 : 415–421 . ISSN  0003-3847.
  10. ^ ван Рейсберген, Корнелис Йост (1979). Информационный поиск. Лондон: Баттервортс. ISBN 3-642-12274-4.
  11. ^ Kondrak, Grzegorz; Marcu, Daniel; Knight, Kevin (2003). «Cognates Can Improve Statistical Translation Models» (PDF) . Труды HLT-NAACL 2003: Конференция по технологиям естественного языка Североамериканского отделения Ассоциации компьютерной лингвистики . С.  46–48 .
  12. ^ Шамир, Рубен Р.; Дучин, Ювал; Ким, Джинёнг; Сапиро, Гильермо; Харель, Ноам (2018-04-25). «Непрерывный коэффициент кубика: метод оценки вероятностных сегментаций»: 306977. arXiv : 1906.11031 . doi :10.1101/306977. S2CID  90993940. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  13. ^ Looman, J.; Campbell, JB (1960). «Адаптация K Соренсена (1948) для оценки сходства единиц в растительности прерий». Ecology . 41 (3): 409– 416. doi :10.2307/1933315. JSTOR  1933315.
  14. ^ Робертс, Д. У. (1986). «Ординация на основе теории нечетких множеств». Vegetatio . 66 (3): 123– 131. doi :10.1007/BF00039905. S2CID  12573576.
  15. ^ МакКьюн, Брюс и Грейс, Джеймс (2002) Анализ экологических сообществ. Mjm Software Design; ISBN 0-9721290-0-6 . 
  16. ^ Рыхли, П. (2008) Оценка ассоциаций, удобная для лексикографов. Труды Второго семинара по последним достижениям в обработке естественного славянского языка RASLAN 2008: 6–9
  17. ^ Ондов, Брайан Д. и др. «Mash: быстрая оценка расстояний генома и метагенома с использованием MinHash». Геномная биология 17.1 (2016): 1-14.
  18. ^ Брей, Дж. Роджер; Кертис, Дж. Т. (1957). «Ординация лесных сообществ нагорья Южного Висконсина». Экологические монографии . 27 (4): 326–349 . doi :10.2307/1942268. JSTOR  1942268.
  19. ^ Аяппа, Инду; Норман, Роберт Г. (2000). «Неинвазивное обнаружение респираторных пробуждений, связанных с усилием (RERA), с помощью носовой канюли/системы датчика давления». Сон . 23 (6): 763–771 . doi : 10.1093/sleep/23.6.763 . PMID  11007443.
  20. ^ Джон Юберсакс. «Индексы необработанного согласия».
Взято с "https://en.wikipedia.org/w/index.php?title=Коэффициент_игры_в_игре_в_игре_по_Кости_по_Сёренсену&oldid=1262274117"