В теории вероятности и статистики распределения Твиди представляют собой семейство распределений вероятностей , включающее в себя чисто непрерывное нормальное , гамма- и обратное гауссовское распределения, чисто дискретное масштабированное распределение Пуассона и класс составных распределений Пуассона–гамма , которые имеют положительную массу в нуле, но в остальном являются непрерывными. [1] Распределения Твиди являются частным случаем моделей экспоненциальной дисперсии и часто используются в качестве распределений для обобщенных линейных моделей . [2]
Распределения Твиди были названы Бентом Йоргенсеном в [3] в честь Мориса Твиди , [4] статистика и медицинского физика из Ливерпульского университета , Великобритания, который представил первое тщательное исследование этих распределений в 1982 году, когда проводилась конференция [1] . Примерно в то же время Бар-Лев и Энис опубликовали работы на ту же тему. [5] [6]
(Репродуктивные) распределения Твиди определяются как подсемейство (репродуктивных) моделей экспоненциальной дисперсии (ED) со специальным соотношением среднего и дисперсии . Случайная величина Y распределена Твиди Tw p (μ, σ 2 ) , если со средним , положительным параметром дисперсии и где называется параметром мощности Твиди. Распределение вероятностей P θ , σ 2 на измеримых множествах A , задается для некоторой σ-конечной меры ν λ . Это представление использует канонический параметр θ модели экспоненциальной дисперсии и кумулянтную функцию , где мы использовали , или эквивалентно .
Описанные модели находятся в репродуктивной форме. Экспоненциальная дисперсионная модель всегда имеет дуальную: аддитивную форму. Если Y репродуктивна, то с находится в аддитивной форме ED * ( θ , λ ), для Tweedie Tw * p (μ, λ) . Аддитивные модели обладают тем свойством, что распределение суммы независимых случайных величин, для которых Z i ~ ED * ( θ , λ i ) с фиксированным θ и различными λ, являются членами семейства распределений с тем же θ ,
Существует второй класс моделей экспоненциальной дисперсии, обозначенный случайной величиной , где σ 2 = 1/ λ , известный как репродуктивные модели экспоненциальной дисперсии. Они обладают тем свойством, что для n независимых случайных величин Y i ~ ED( μ , σ 2 / w i ), с весовыми коэффициентами w i и взвешенным средним переменных дает,
Для репродуктивных моделей средневзвешенное значение независимых случайных величин с фиксированными μ и σ 2 и различными значениями w i является членом семейства распределений с теми же μ и σ 2 .
Модели экспоненциальной дисперсии Твиди являются как аддитивными, так и репродуктивными; таким образом, мы имеем преобразование дуальности
Третье свойство моделей Твиди заключается в том, что они масштабно инвариантны : для репродуктивной экспоненциальной дисперсионной модели Tw p (μ, σ 2 ) и любой положительной константы c мы имеем свойство замкнутости относительно масштабного преобразования,
Для определения функции дисперсии для моделей экспоненциального рассеивания мы используем отображение среднего значения, связь между каноническим параметром θ и средним значением μ . Она определяется функцией с кумулятивной функцией . Функция дисперсии V ( μ ) строится из отображения среднего значения,
Здесь отрицательный показатель степени в τ −1 ( μ ) обозначает обратную функцию, а не обратную. Среднее значение и дисперсия аддитивной случайной величины тогда равны E( Z ) = λμ и var( Z ) = λV ( μ ) .
Масштабная инвариантность подразумевает, что функция дисперсии подчиняется соотношению V ( μ ) = μ p . [2]
Единичное отклонение репродуктивного распределения Твиди определяется по формуле
Свойства моделей экспоненциальной дисперсии дают нам два дифференциальных уравнения . [2] Первое связывает отображение среднего значения и функцию дисперсии друг с другом,
Во втором случае показано, как отображение среднего значения связано с кумулянтной функцией ,
Эти уравнения можно решить, чтобы получить кумулянтную функцию для различных случаев моделей Твиди. Затем из кумулянтной функции можно получить кумулянтную производящую функцию (CGF). Аддитивная CGF обычно задается уравнением , а репродуктивная CGF — где s — переменная производящей функции.
Для аддитивных моделей Твиди CGF принимают форму, а для репродуктивных моделей:
Аддитивную и репродуктивную модели Твиди условно обозначают символами Tw * p ( θ , λ ) и Tw p ( θ , σ 2 ) соответственно.
Первая и вторая производные CGF при s = 0 дают среднее значение и дисперсию соответственно. Таким образом, можно подтвердить, что для аддитивных моделей дисперсия связана со средним значением степенным законом,
Модели экспоненциальной дисперсии Твиди являются фундаментальными в статистической теории вследствие их роли в качестве фокусов сходимости для широкого спектра статистических процессов. Йоргенсен и др. доказали теорему, которая определяет асимптотическое поведение функций дисперсии, известную как теорема о сходимости Твиди . [7] Эта теорема, в технических терминах, формулируется следующим образом: [2] Единичная функция дисперсии является регулярной порядка p в нуле (или бесконечности) при условии, что V ( μ ) ~ c 0 μ p для μ по мере того, как она стремится к нулю (или бесконечности) для всех действительных значений p и c 0 > 0. Тогда для единичной функции дисперсии регулярной порядка p либо в нуле, либо в бесконечности и для для любого , и мы имеем как или , соответственно, где сходимость достигается через значения c такие, что cμ находится в области θ и c p −2 / σ 2 находится в области λ . Модель должна быть бесконечно делимой, поскольку c 2− p стремится к бесконечности. [2]
В нетехнических терминах эта теорема подразумевает, что любая модель экспоненциальной дисперсии, которая асимптотически демонстрирует степенной закон дисперсии к среднему, должна иметь функцию дисперсии, которая попадает в область притяжения модели Твиди. Почти все функции распределения с конечными кумулянтными генерирующими функциями квалифицируются как модели экспоненциальной дисперсии, и большинство моделей экспоненциальной дисперсии демонстрируют функции дисперсии этой формы. Следовательно, многие распределения вероятностей имеют функции дисперсии, которые выражают это асимптотическое поведение, и распределения Твиди становятся фокусами сходимости для широкого диапазона типов данных. [8]
Распределения Твиди включают в себя ряд знакомых распределений, а также некоторые необычные, каждое из которых определяется доменом индексного параметра. У нас есть
Для 0 < p < 1 не существует модели Твиди. Обратите внимание, что все стабильные распределения означают фактически сгенерированные стабильными распределениями .
Закон Тейлора — эмпирический закон в экологии , который связывает дисперсию числа особей вида на единицу площади среды обитания с соответствующим средним значением степенным соотношением . [9] Для численности популяции Y со средним значением μ и дисперсией var( Y ) закон Тейлора записывается так, где a и p — положительные константы. С тех пор как Л. Р. Тейлор описал этот закон в 1961 году, было предложено много различных объяснений, чтобы объяснить его, начиная от поведения животных, [9] модели случайного блуждания , [10] стохастической модели рождения, смерти, иммиграции и эмиграции , [11] до следствия равновесной и неравновесной статистической механики . [12] Не существует единого мнения относительно объяснения этой модели.
Поскольку закон Тейлора математически идентичен степенному закону дисперсии к среднему, который характеризует модели Твиди, казалось разумным использовать эти модели и теорему о сходимости Твиди для объяснения наблюдаемой кластеризации животных и растений, связанной с законом Тейлора. [13] [14] Большинство наблюдаемых значений для показателя степенного закона p попали в интервал (1,2), и поэтому составное распределение Пуассона–гамма Твиди, по-видимому, применимо. Сравнение эмпирической функции распределения с теоретическим составным распределением Пуассона–гамма предоставило средство для проверки согласованности этой гипотезы. [13]
В то время как обычные модели для закона Тейлора, как правило, включают в себя предположения о поведении животных или динамике популяции ad hoc , теорема о сходимости Твиди подразумевает, что закон Тейлора является результатом общего математического эффекта сходимости, во многом похожего на то, как центральная предельная теорема управляет поведением сходимости определенных типов случайных данных. Действительно, любая математическая модель, приближение или симуляция, разработанная для получения закона Тейлора (на основе этой теоремы), должна сходиться к форме моделей Твиди. [8]
Розовый шум , или шум 1/ f , относится к модели шума, характеризующейся степенной зависимостью между его интенсивностями S ( f ) на разных частотах f , где безразмерный показатель γ ∈ [0,1]. Он встречается в разнообразном количестве естественных процессов. [15] Существует много различных объяснений шума 1/ f , широко распространенная гипотеза основана на самоорганизованной критичности , когда динамические системы, близкие к критической точке, как полагают, проявляют масштабно-инвариантное пространственное и/или временное поведение.
В этом подразделе будет описана математическая связь между шумом 1/ f и законом дисперсии к среднему значению Твиди. Для начала нам сначала нужно ввести самоподобные процессы : для последовательности чисел со средним отклонением дисперсии и функцией автокорреляции с задержкой k , если автокорреляция этой последовательности имеет поведение в дальнем диапазоне при k →∞ и где L ( k ) является медленно меняющейся функцией при больших значениях k , эта последовательность называется самоподобным процессом. [16]
Метод расширения бинов может быть использован для анализа самоподобных процессов. Рассмотрим набор неперекрывающихся бинов одинакового размера, который делит исходную последовательность из N элементов на группы из m сегментов одинакового размера ( N/m — целое число), так что можно определить новые репродуктивные последовательности на основе средних значений:
Дисперсия, определенная из этой последовательности, будет масштабироваться по мере изменения размера ячейки, так что тогда и только тогда, когда автокорреляция имеет предельную форму [17]
Можно также построить набор соответствующих аддитивных последовательностей на основе расширяющихся ячеек,
При условии, что функция автокорреляции демонстрирует такое же поведение, аддитивные последовательности будут подчиняться соотношению
Поскольку и являются константами, эта связь представляет собой степенной закон дисперсии к среднему, где p = 2 - d . [8] [18]
Двуусловное отношение выше между законом дисперсии к среднему и функцией автокорреляции степенного закона, а также теорема Винера–Хинчина [19] подразумевают, что любая последовательность, которая демонстрирует закон дисперсии к среднему по методу расширения бинов, также проявит шум 1/ f , и наоборот. Более того, теорема сходимости Твиди в силу своего центрального предельного эффекта генерации распределений, которые проявляют функции дисперсии к среднему, также будет генерировать процессы, которые проявляют шум 1/ f . [8] Таким образом, теорема сходимости Твиди дает альтернативное объяснение происхождения шума 1/ f , основанное на его центральном предельном эффекте.
Подобно тому, как центральная предельная теорема требует, чтобы определенные виды случайных процессов имели в качестве фокуса своей сходимости распределение Гаусса и, таким образом, выражали белый шум , теорема о сходимости Твиди требует, чтобы определенные негауссовские процессы имели в качестве фокуса своей сходимости распределения Твиди, которые выражают шум 1/ f . [8]
Из свойств самоподобных процессов показатель степени p = 2 - d связан с показателем Херста H и фрактальной размерностью D соотношением [17]
Одномерная последовательность данных самоподобных данных может демонстрировать степенной закон дисперсии к среднему с локальными вариациями в значении p и, следовательно, в значении D. Когда фрактальные структуры проявляют локальные вариации в фрактальной размерности, они называются мультифракталами . Примерами последовательностей данных, которые демонстрируют локальные вариации в p , как это, являются отклонения собственных значений гауссовых ортогональных и унитарных ансамблей . [8] Составное распределение Пуассона-гамма Твиди служило для моделирования мультифрактальности на основе локальных вариаций в показателе Твиди α . Следовательно, в сочетании с вариацией α , теорему о сходимости Твиди можно рассматривать как играющую роль в генезисе таких мультифракталов.
Было обнаружено, что вариация α в некоторых случаях подчиняется асимметричному распределению Лапласа . [20] Было показано, что это распределение является членом семейства геометрических моделей Твиди, [21] которые проявляются как предельные распределения в теореме о сходимости для геометрических дисперсионных моделей.
Региональный кровоток органов традиционно оценивался путем инъекции радиоактивно меченых полиэтиленовых микросфер в артериальное кровообращение животных, такого размера, чтобы они попадали в микроциркуляцию органов . Затем оцениваемый орган делится на равные по размеру кубы, и количество радиоактивной метки в каждом кубе оценивается с помощью жидкостного сцинтилляционного подсчета и регистрируется. Количество радиоактивности в каждом кубе принимается для отражения кровотока через этот образец во время инъекции. Можно оценить соседние кубы из органа, чтобы аддитивно определить кровоток через более крупные области. Благодаря работе Дж. Б. Бассингтуэйта и других был выведен эмпирический степенной закон между относительной дисперсией кровотока образцов тканей ( RD = стандартное отклонение/среднее) массы m относительно образцов референтного размера: [22]
Этот показатель степени D s был назван фрактальной размерностью. Можно показать, что степенной закон Бассингтуэйта напрямую связан с степенным законом дисперсии к среднему. Таким образом, региональный кровоток в органе может быть смоделирован с помощью распределения Пуассона–гамма Твиди. [23] В этой модели образец ткани можно рассматривать как содержащий случайное (Пуассоновское) распределенное число участков захвата, каждое с гамма-распределенным кровотоком. Было обнаружено, что кровоток на этом микроциркуляторном уровне подчиняется гамма-распределению, [24] таким образом подтверждая эту гипотезу.
«Экспериментальный анализ метастазов рака » [25] имеет некоторое сходство с вышеописанным методом измерения регионального кровотока. Группам сингенных и подобранных по возрасту мышей внутривенно вводят равные по размеру аликвоты суспензий клонированных раковых клеток, а затем по истечении определенного периода времени их легкие удаляют, и подсчитывают количество метастазов рака в каждой паре легких. Если другим группам мышей вводят другие клоны раковых клеток , то количество метастазов в каждой группе будет отличаться в соответствии с метастатическим потенциалом клонов. Давно признано, что может быть значительная внутриклоновая вариация в количестве метастазов на мышь, несмотря на все попытки сохранить единообразие экспериментальных условий в каждой клональной группе. [25] Эта вариация больше, чем можно было бы ожидать на основе распределения Пуассона количества метастазов на мышь в каждом клоне, и когда дисперсия количества метастазов на мышь была построена против соответствующего среднего, был обнаружен степенной закон. [26]
Было обнаружено, что закон дисперсии к среднему для метастазов также справедлив для спонтанных метастазов у мышей [27] и для серии случаев метастазов у людей. [28] Поскольку гематогенное метастазирование происходит в прямой зависимости от регионального кровотока [29] , а видеомикроскопические исследования показывают, что прохождение и захват раковых клеток в кровотоке, по-видимому, аналогичны экспериментам с микросферами [30], казалось правдоподобным предположить, что изменение количества гематогенных метастазов может отражать гетерогенность регионального кровотока в органах. [31] Модель кровотока была основана на распределении Пуассона-гамма Твиди, распределении, управляющем непрерывной случайной величиной. По этой причине в модели метастазов предполагалось, что кровоток регулируется этим распределением и что количество региональных метастазов происходит как процесс Пуассона , для которого интенсивность прямо пропорциональна кровотоку. Это привело к описанию отрицательного биномиального распределения Пуассона (PNB) как дискретного эквивалента сложного распределения Пуассона–гамма Твиди. Функция генерации вероятности для распределения PNB имеет вид
Тогда соотношение между средним значением и дисперсией распределения PNB будет таким, что в диапазоне многих экспериментальных анализов метастазов будет неотличимо от степенного закона дисперсии к среднему. Однако для разреженных данных это дискретное соотношение дисперсии к среднему будет вести себя скорее как распределение Пуассона, где дисперсия равна среднему.
Локальная плотность однонуклеотидных полиморфизмов (SNP) в геноме человека , а также плотность генов , по-видимому, кластеризуется в соответствии с законом дисперсии к среднему значению и распределением Пуассона-гамма Твиди. [32] [33] В случае SNP их наблюдаемая плотность отражает методы оценки, доступность геномных последовательностей для анализа и гетерозиготность нуклеотидов . [34] Первые два фактора отражают ошибки определения, присущие методам сбора данных, последний фактор отражает внутреннее свойство генома.
В коалесцентной модели популяционной генетики каждый генетический локус имеет свою собственную уникальную историю. В эволюции популяции некоторых видов некоторые генетические локусы предположительно можно проследить до относительно недавнего общего предка, тогда как другие локусы могут иметь более древние генеалогии . Более древние геномные сегменты имели бы больше времени для накопления SNP и рекомбинации . RR Hudson предложил модель, в которой рекомбинация могла бы вызывать вариации во времени до наиболее общего недавнего предка для различных геномных сегментов. [35] Высокая скорость рекомбинации может привести к тому, что хромосома будет содержать большое количество небольших сегментов с менее коррелированными генеалогиями.
Предполагая постоянную фоновую скорость мутации, число SNP на геномный сегмент будет накапливаться пропорционально времени до самого последнего общего предка. Текущая популяционная генетическая теория указывает на то, что эти времена будут гамма-распределены , в среднем. [36] Составное распределение Пуассона-гамма Твиди предполагает модель, в которой карта SNP будет состоять из нескольких небольших геномных сегментов со средним числом SNP на сегмент, которое будет гамма-распределено в соответствии с моделью Хадсона.
Распределение генов в геноме человека также продемонстрировало степенной закон дисперсии к среднему значению, когда метод расширения бинов использовался для определения соответствующих дисперсий и средних значений. [33] Аналогичным образом было обнаружено, что количество генов на счетный бин подчиняется составному распределению Пуассона–гамма Твиди. Это распределение вероятностей считалось совместимым с двумя различными биологическими моделями: моделью микрорасположения , где количество генов на единицу длины генома определялось суммой случайного числа меньших геномных сегментов, полученных путем случайного разрыва и реконструкции протохормосом. Эти меньшие сегменты, как предполагалось, несут в среднем гамма-распределенное количество генов.
В альтернативной модели кластера генов гены будут распределены случайным образом внутри протохромосом. В течение больших эволюционных временных масштабов будут происходить тандемные дупликации , мутации, вставки, делеции и перестройки , которые могут влиять на гены через стохастический процесс рождения, смерти и иммиграции, чтобы дать составное распределение Пуассона-гамма Твиди.
Оба эти механизма предполагают нейтральные эволюционные процессы , которые приводят к региональной кластеризации генов.
Гауссовский унитарный ансамбль (GUE) состоит из комплексных эрмитовых матриц , которые инвариантны относительно унитарных преобразований , тогда как гауссовский ортогональный ансамбль (GOE) состоит из действительных симметричных матриц, инвариантных относительно ортогональных преобразований . Ранжированные собственные значения E n из этих случайных матриц подчиняются полукруговому распределению Вигнера : для матрицы N × N средняя плотность собственных значений размера E будет при E → ∞ . Интеграция полукругового правила дает число собственных значений в среднем меньше E ,
Ранжированные собственные значения можно развернуть или перенормировать с помощью уравнения
Это удаляет тенденцию последовательности из флуктуирующей части. Если мы посмотрим на абсолютное значение разницы между фактическим и ожидаемым кумулятивным числом собственных значений, мы получим последовательность флуктуаций собственных значений , которая, используя метод расширения бинов, выявляет степенной закон дисперсии к среднему. [8] Флуктуации собственных значений как GUE, так и GOE проявляют этот степенной закон с показателями степенного закона в диапазоне от 1 до 2, и они аналогично проявляют спектры шума 1/ f . Эти флуктуации собственных значений также соответствуют составному распределению Пуассона–гамма Твиди и демонстрируют мультифрактальность. [8]
Вторая функция Чебышева ψ ( x ) задается как, где суммирование распространяется на все простые степени, не превышающие x , x пробегает положительные действительные числа, и является функцией фон Мангольдта . Функция ψ ( x ) связана с функцией подсчета простых чисел π ( x ) и как таковая предоставляет информацию относительно распределения простых чисел среди действительных чисел. Она асимптотическая к x , утверждение эквивалентно теореме о простых числах , и можно также показать, что она связана с нулями дзета- функции Римана, расположенными на критической полосе ρ , где действительная часть нуля дзета ρ находится между 0 и 1. Тогда ψ, выраженная для x больше единицы, может быть записана: где
Гипотеза Римана утверждает, что все нетривиальные нули дзета- функции Римана имеют действительную часть 1 ⁄ 2 . Эти нули дзета-функции связаны с распределением простых чисел . Шенфельд [37] показал, что если гипотеза Римана верна, то для всех . Если мы проанализируем отклонения Чебышева Δ( n ) для целых чисел n с использованием метода расширения интервалов и построим график зависимости дисперсии от среднего значения, то можно продемонстрировать степенной закон дисперсии от среднего. [ необходима цитата ] Более того, эти отклонения соответствуют сложному распределению Пуассона-гамма Твиди и демонстрируют шум 1/ f .
Приложения распределений Tweedie включают в себя: