Независимые и одинаково распределенные случайные величины

Концепция вероятности и статистики
Диаграмма, показывающая равномерное распределение. Точки разбросаны хаотично, без какой-либо закономерности или кластеров.
Диаграмма, показывающая равномерное распределение

В теории вероятностей и статистике совокупность случайных величин независима и одинаково распределена ( iid , iid или IID ), если каждая случайная величина имеет такое же распределение вероятностей, как и другие, и все они взаимно независимы . [1] IID впервые был определен в статистике и находит применение во многих областях, таких как интеллектуальный анализ данных и обработка сигналов .

Введение

Статистика обычно имеет дело со случайными выборками. Случайную выборку можно рассматривать как набор объектов, выбранных случайным образом. Более формально, это «последовательность независимых, одинаково распределенных (IID) случайных точек данных».

Другими словами, термины случайная выборка и IID являются синонимами. В статистике « случайная выборка » — типичная терминология, но в теории вероятности чаще говорят « IID ».

  • Одинаковое распределение означает, что общих тенденций нет — распределение не колеблется, и все элементы в выборке берутся из одного и того же распределения вероятностей .
  • Независимые означает, что все элементы выборки являются независимыми событиями. Другими словами, они никак не связаны друг с другом; [2] знание значения одной переменной не дает никакой информации о значении другой и наоборот.

Приложение

Независимые и одинаково распределенные случайные величины часто используются в качестве предположения, что имеет тенденцию упрощать лежащую в основе математику. Однако в практических приложениях статистического моделирования это предположение может быть или не быть реалистичным. [3]

Предположение iid также используется в центральной предельной теореме , которая утверждает, что распределение вероятностей суммы (или среднего) iid-переменных с конечной дисперсией приближается к нормальному распределению . [4]

Предположение iid часто возникает в контексте последовательностей случайных величин. Тогда «независимый и одинаково распределенный» подразумевает, что элемент в последовательности независим от случайных величин, которые были до него. Таким образом, последовательность iid отличается от последовательности Маркова , где распределение вероятностей для n- й случайной величины является функцией предыдущей случайной величины в последовательности (для последовательности Маркова первого порядка). Последовательность iid не подразумевает, что вероятности для всех элементов пространства выборки или пространства событий должны быть одинаковыми. [5] Например, повторные броски загруженных игральных костей дадут последовательность, которая является iid, несмотря на смещение результатов.

В обработке сигналов и изображений понятие преобразования в iid подразумевает две спецификации: часть «id» и часть «i.»:

id . – Уровень сигнала должен быть сбалансирован по оси времени.

i . – Спектр сигнала должен быть выровнен, т.е. преобразован путем фильтрации (например, деконволюции ) в сигнал белого шума (т.е. сигнал, в котором все частоты присутствуют в равной степени).

Определение

Определение для двух случайных величин

Предположим, что случайные величины и определены так, чтобы принимать значения в . Пусть и будут кумулятивными функциями распределения и , соответственно, и обозначим их совместную кумулятивную функцию распределения как . Х {\displaystyle X} И {\displaystyle Y} я Р {\displaystyle I\subseteq \mathbb {R} } Ф Х ( х ) = П ( Х х ) {\displaystyle F_{X}(x)=\operatorname {P} (X\leq x)} Ф И ( у ) = П ( И у ) {\displaystyle F_{Y}(y)=\operatorname {P} (Y\leq y)} Х {\displaystyle X} И {\displaystyle Y} Ф Х , И ( х , у ) = П ( Х х И у ) {\displaystyle F_{X,Y}(x,y)=\operatorname {P} (X\leq x\land Y\leq y)}

Две случайные величины и независимы тогда и только тогда, когда для всех . (Для более простого случая событий, два события и независимы тогда и только тогда, когда , см. также Независимость (теория вероятностей) § Две случайные величины .) Х {\displaystyle X} И {\displaystyle Y} Ф Х , И ( х , у ) = Ф Х ( х ) Ф И ( у ) {\displaystyle F_{X,Y}(x,y)=F_{X}(x)\cdot F_{Y}(y)} х , у я {\displaystyle x,y\in I} А {\displaystyle А} Б {\displaystyle Б} П ( А Б ) = П ( А ) П ( Б ) {\displaystyle P(A\land B)=P(A)\cdot P(B)}

Две случайные величины и распределены одинаково тогда и только тогда, когда для всех . [6] Х {\displaystyle X} И {\displaystyle Y} Ф Х ( х ) = Ф И ( х ) {\displaystyle F_{X}(x)=F_{Y}(x)} х я {\displaystyle x\in I}

Две случайные величины и являются независимыми , если они независимы и одинаково распределены, т.е. тогда и только тогда, когда Х {\displaystyle X} И {\displaystyle Y}

Ф Х ( х ) = Ф И ( х ) х я Ф Х , И ( х , у ) = Ф Х ( х ) Ф И ( у ) х , у я {\displaystyle {\begin{aligned}&F_{X}(x)=F_{Y}(x)\,&\forall x\in I\\&F_{X,Y}(x,y)=F_{X}(x)\cdot F_{Y}(y)\,&\forall x,y\in I\end{aligned}}}

Определение для более чем двух случайных величин

Определение естественным образом распространяется на более чем две случайные величины. Мы говорим, что случайные величины являются iid , если они независимы (см. далее Независимость (теория вероятностей) § Более двух случайных величин ) и одинаково распределены, т.е. тогда и только тогда, когда n {\displaystyle n} X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}}

F X 1 ( x ) = F X k ( x ) k { 1 , , n }  and  x I F X 1 , , X n ( x 1 , , x n ) = F X 1 ( x 1 ) F X n ( x n ) x 1 , , x n I {\displaystyle {\begin{aligned}&F_{X_{1}}(x)=F_{X_{k}}(x)\,&\forall k\in \{1,\ldots ,n\}{\text{ and }}\forall x\in I\\&F_{X_{1},\ldots ,X_{n}}(x_{1},\ldots ,x_{n})=F_{X_{1}}(x_{1})\cdot \ldots \cdot F_{X_{n}}(x_{n})\,&\forall x_{1},\ldots ,x_{n}\in I\end{aligned}}}

где обозначает совместную кумулятивную функцию распределения . F X 1 , , X n ( x 1 , , x n ) = P ( X 1 x 1 X n x n ) {\displaystyle F_{X_{1},\ldots ,X_{n}}(x_{1},\ldots ,x_{n})=\operatorname {P} (X_{1}\leq x_{1}\land \ldots \land X_{n}\leq x_{n})} X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}}

Примеры

Пример 1

Последовательность результатов вращений честной или нечестной рулеткиiid . Одним из следствий этого является то, что если шарик рулетки приземляется на «красное», например, 20 раз подряд, то вероятность того, что следующее вращение выпадет на «черное», не больше и не меньше, чем при любом другом вращении (см. ошибку игрока ).

Пример 2

Подбросьте монету 10 раз и запишите результаты в переменные . A 1 , , A 10 {\displaystyle A_{1},\ldots ,A_{10}}

  1. Независимый : каждый результат не повлияет на другой результат ( от 1 до 10), что означает, что переменные независимы друг от друга. A i {\displaystyle A_{i}} A j {\displaystyle A_{j}} i j {\displaystyle i\neq j} A 1 , , A 10 {\displaystyle A_{1},\ldots ,A_{10}}
  2. Одинаково распределено : независимо от того, является ли монета честной (с вероятностью выпадения орла 1/2) или предвзятой, до тех пор, пока для каждого подбрасывания используется одна и та же монета, вероятность выпадения орла остается одинаковой для всех подбрасываний.

Такая последовательность независимых переменных также называется процессом Бернулли .

Пример 3

Бросьте игральную кость 10 раз и сохраните результаты в переменных . A 1 , , A 10 {\displaystyle A_{1},\ldots ,A_{10}}

  1. Независимы : каждый результат броска кубика не повлияет на следующий, что означает, что 10 переменных независимы друг от друга.
  2. Одинаково распределено : независимо от того, является ли кость честной или взвешенной, каждый бросок будет иметь ту же вероятность увидеть каждый результат, что и любой другой бросок. Напротив, бросок 10 разных костей, некоторые из которых взвешены, а некоторые нет, не даст переменных iid.

Пример 4

Выберите карту из стандартной колоды карт, содержащей 52 карты, затем положите карту обратно в колоду. Повторите это 52 раза. Наблюдайте, когда появится король.

  1. Независимые : каждое наблюдение не повлияет на следующее, что означает, что 52 результата независимы друг от друга. Напротив, если каждая вытащенная карта не попадает в колоду, последующие вытащенные карты будут затронуты ею (вытащенный король сделает вытащенный второй король менее вероятным), и наблюдения не будут независимыми.
  2. Одинаково распределено : после вытягивания из колоды одной карты (и последующего возвращения карты в колоду) вероятность появления короля каждый раз составляет 4/52, что означает, что вероятность каждый раз одинакова.

Обобщения

Многие результаты, которые были впервые доказаны при предположении, что случайные величины являются независимыми , оказались верными даже при более слабом предположении о распределении.

Случайные величины, допускающие обмен

Наиболее общим понятием, которое разделяет основные свойства независимых тождественных переменных, являются взаимозаменяемые случайные величины , введенные Бруно де Финетти . [ требуется ссылка ] Взаимозаменяемость означает, что, хотя переменные могут быть независимы, будущие переменные ведут себя так же, как и прошлые — формально любое значение конечной последовательности так же вероятно, как и любая перестановка этих значений — совместное распределение вероятностей инвариантно относительно симметричной группы .

Это дает полезное обобщение — например, выборка без замены не является независимой, но может быть заменена.

Процесс Леви

В стохастическом исчислении переменные iid рассматриваются как дискретный временной процесс Леви : каждая переменная показывает, насколько она изменяется от одного момента времени к другому. Например, последовательность испытаний Бернулли интерпретируется как процесс Бернулли .

Это можно обобщить, включив в него непрерывные во времени процессы Леви , и многие процессы Леви можно рассматривать как пределы независимых тождественных переменных — например, процесс Винера является пределом процесса Бернулли.

В машинном обучении

Машинное обучение (ML) подразумевает изучение статистических взаимосвязей в данных. Для эффективного обучения моделей ML крайне важно использовать данные, которые можно широко обобщить. Если данные обучения недостаточно репрезентативны для задачи, производительность модели на новых, невиданных данных может быть низкой.

Гипотеза iid позволяет значительно сократить количество индивидуальных случаев, требуемых в обучающей выборке, упрощая оптимизационные расчеты. В задачах оптимизации предположение о независимом и идентичном распределении упрощает расчет функции правдоподобия. Благодаря этому предположению функция правдоподобия может быть выражена как:

l ( θ ) = P ( x 1 , x 2 , x 3 , . . . , x n | θ ) = P ( x 1 | θ ) P ( x 2 | θ ) P ( x 3 | θ ) . . . P ( x n | θ ) {\displaystyle l(\theta )=P(x_{1},x_{2},x_{3},...,x_{n}|\theta )=P(x_{1}|\theta )P(x_{2}|\theta )P(x_{3}|\theta )...P(x_{n}|\theta )}

Для максимизации вероятности наблюдаемого события применяется логарифмическая функция для максимизации параметра . В частности, она вычисляет: θ {\textstyle \theta }

a r g m a x θ log ( l ( θ ) ) {\displaystyle \mathop {\rm {argmax}} \limits _{\theta }\log(l(\theta ))}

где

log ( l ( θ ) ) = log ( P ( x 1 | θ ) ) + log ( P ( x 2 | θ ) ) + log ( P ( x 3 | θ ) ) + . . . + log ( P ( x n | θ ) ) {\displaystyle \log(l(\theta ))=\log(P(x_{1}|\theta ))+\log(P(x_{2}|\theta ))+\log(P(x_{3}|\theta ))+...+\log(P(x_{n}|\theta ))}

Компьютеры очень эффективны при выполнении множественных сложений, но не так эффективны при выполнении умножений. Это упрощение повышает вычислительную эффективность. Логарифмическое преобразование в процессе максимизации преобразует многие экспоненциальные функции в линейные функции.

Есть две основные причины, по которым эта гипотеза практически полезна в сочетании с центральной предельной теоремой (ЦПТ):

  1. Даже если выборка происходит из сложного негауссовского распределения , ее можно хорошо аппроксимировать, поскольку ЦПТ позволяет упростить ее до гауссовского распределения («для большого числа наблюдаемых выборок сумма многих случайных величин будет иметь приблизительно нормальное распределение»).
  2. Вторая причина заключается в том, что точность модели зависит от простоты и репрезентативной мощности блока модели, а также от качества данных. Простота блока упрощает его интерпретацию и масштабирование, в то время как репрезентативная мощность и масштабируемость повышают точность модели. Например, в глубокой нейронной сети каждый нейрон прост, но при этом мощен в представлении, слой за слоем, захватывая более сложные признаки для повышения точности модели.

Смотрите также

Ссылки

  1. ^ Clauset, Aaron (2011). "Краткий учебник по распределениям вероятностей" (PDF) . Институт Санта-Фе . Архивировано из оригинала (PDF) 2012-01-20 . Получено 29-11-2011 .
  2. ^ Стефани (2016-05-11). "Статистика IID: Независимое и одинаково распределенное определение и примеры". Статистика Как это сделать . Получено 2021-12-09 .
  3. ^ Хампель, Фрэнк (1998), «Статистика слишком сложна?», Канадский журнал статистики , 26 (3): 497–513 , doi :10.2307/3315772, hdl : 20.500.11850/145503 , JSTOR  3315772, S2CID  53117661(§8).
  4. ^ Блюм, Дж. Р.; Чернофф, Х.; Розенблатт, М.; Тейхер, Х. (1958). «Центральные предельные теоремы для взаимозаменяемых процессов». Канадский математический журнал . 10 : 222– 229. doi : 10.4153/CJM-1958-026-0 . S2CID  124843240.
  5. ^ Cover, TM; Thomas, JA (2006). Элементы теории информации . Wiley-Interscience . стр.  57–58 . ISBN 978-0-471-24195-9.
  6. ^ Казелла и Бергер 2002, Теорема 1.5.10

Дальнейшее чтение

Retrieved from "https://en.wikipedia.org/w/index.php?title=Independent_and_identically_distributed_random_variables&oldid=1260202164"