Оценка Каплана–Майера

Непараметрическая статистика, используемая для оценки функции выживания

Пример графика Каплана–Майера для двух состояний, связанных с выживаемостью пациентов.

Оценка Каплана -Майера [1] [2], также известная как оценка предела продукта , является непараметрической статистикой, используемой для оценки функции выживания на основе данных о продолжительности жизни. В медицинских исследованиях она часто используется для измерения доли пациентов, живущих в течение определенного периода времени после лечения. В других областях оценки Каплана-Майера могут использоваться для измерения продолжительности времени, в течение которого люди остаются безработными после потери работы, [3] времени до отказа деталей машин или того, как долго мясистые плоды остаются на растениях, прежде чем их съедят плодоядные животные . Оценка названа в честь Эдварда Л. Каплана и Пола Майера , которые каждый представили похожие рукописи в Журнал Американской статистической ассоциации [4] . Редактор журнала Джон Тьюки убедил их объединить свою работу в одну статью, которая была процитирована более 34 000 раз с момента ее публикации в 1958 году. [5] [6]

Оценка функции выживания (вероятность того, что жизнь будет длиннее, чем ) определяется по формуле: С ( т ) {\displaystyle S(т)} т {\displaystyle т}

С ^ ( т ) = я :   т я т ( 1 г я н я ) , {\displaystyle {\widehat {S}}(t)=\prod \limits _{i:\ t_{i}\leq t}\left(1-{\frac {d_{i}}{n_{i}}}\right),}

где a — время, когда произошло хотя бы одно событие, d i — количество событий (например, смертей), которые произошли в это время , и лица , о которых известно, что они выжили (еще не пережили событие или не были цензурированы) к этому времени . т я {\displaystyle t_{i}} т я {\displaystyle t_{i}} н я {\displaystyle n_{i}} т я {\displaystyle t_{i}}

Основные понятия

График оценки Каплана–Майера представляет собой ряд снижающихся горизонтальных шагов, которые при достаточно большом размере выборки приближаются к истинной функции выживания для этой популяции. Значение функции выживания между последовательными отдельными выборочными наблюдениями («щелчками») предполагается постоянным.

Важным преимуществом кривой Каплана–Майера является то, что метод может учитывать некоторые типы цензурированных данных , в частности, правое цензурирование , которое происходит, если пациент выбывает из исследования, теряется для последующего наблюдения или жив без наступления события на последнем последующем наблюдении. На графике небольшие вертикальные отметки указывают на отдельных пациентов, время выживания которых было правое цензурирование. Когда не происходит усечения или цензурирования, кривая Каплана–Майера является дополнением эмпирической функции распределения .

В медицинской статистике типичное применение может включать группировку пациентов по категориям, например, с профилем гена A и с профилем гена B. На графике пациенты с геном B умирают гораздо быстрее, чем с геном A. Через два года выживают около 80% пациентов с геном A, но менее половины пациентов с геном B.

Для создания оценщика Каплана-Майера для каждого пациента (или каждого субъекта) требуется по крайней мере два фрагмента данных: статус при последнем наблюдении (возникновение события или цензурирование справа) и время до события (или время до цензурирования). Если необходимо сравнить функции выживания между двумя или более группами, то требуется третий фрагмент данных: групповое назначение каждого субъекта. [7]

Определение проблемы

Пусть будет случайной величиной, как время, которое проходит между началом возможного периода воздействия, , и временем, когда происходит интересующее нас событие, . Как указано выше, цель состоит в том, чтобы оценить функцию выживания, лежащую в основе . Напомним, что эта функция определяется как τ 0 {\displaystyle \тау \geq 0} т 0 {\displaystyle t_{0}} т 1 {\displaystyle t_{1}} С {\displaystyle S} τ {\displaystyle \тау}

С ( т ) = Вероятно ( τ > т ) {\displaystyle S(t)=\operatorname {Вероятность} (\tau >t)} , где время. т = 0 , 1 , {\displaystyle t=0,1,\точки}

Пусть будут независимыми, одинаково распределенными случайными величинами, общее распределение которых равно : — случайное время, когда произошло некоторое событие. Доступные для оценки данные — это не , а список пар , где для , — фиксированное, детерминированное целое число, цензурное время события и . В частности, доступная информация о времени события — произошло ли событие до фиксированного времени , и если да, то также доступно фактическое время события. Задача состоит в том, чтобы оценить, учитывая эти данные. τ 1 , , τ н 0 {\displaystyle \tau _{1},\dots,\tau _{n}\geq 0} τ {\displaystyle \тау} τ дж {\displaystyle \tau _{j}} дж {\displaystyle j} С {\displaystyle S} ( τ дж ) дж = 1 , , н {\displaystyle (\tau _{j})_{j=1,\dots,n}} ( ( τ ~ дж , с дж ) ) дж = 1 , , н {\displaystyle (\,({\tilde {\tau }}_{j},c_{j})\,)_{j=1,\dots,n}} дж [ н ] := { 1 , 2 , , н } {\displaystyle j\in [n]:=\{1,2,\точки ,n\}} с дж 0 {\displaystyle c_{j}\geq 0} дж {\displaystyle j} τ ~ дж = мин ( τ дж , с дж ) {\displaystyle {\tilde {\tau }}_{j}=\min(\tau _{j},c_{j})} дж {\displaystyle j} с дж {\displaystyle c_{j}} С ( т ) {\displaystyle S(т)}

Вывод оценки Каплана–Майера

Показаны два вывода оценки Каплана–Майера. Оба основаны на переписывании функции выживания в терминах того, что иногда называют риском или показателями смертности . Однако перед этим стоит рассмотреть наивную оценку.

Наивный оценщик

Чтобы понять мощь оценки Каплана–Майера, стоит сначала описать наивную оценку функции выживания.

Зафиксируем и пусть . Основной аргумент показывает, что справедливо следующее предложение: к [ н ] := { 1 , , н } {\displaystyle k\in [n]:=\{1,\точки ,n\}} т > 0 {\displaystyle т>0}

Предложение 1: Если время цензурирования события превышает ( ), то тогда и только тогда, когда . с к {\displaystyle c_{k}} к {\displaystyle к} т {\displaystyle т} с к т {\displaystyle c_{k}\geq t} τ ~ к т {\displaystyle {\tilde {\tau }}_{k}\geq t} τ к т {\displaystyle \tau _{k}\geq t}

Пусть будет таким, что . Из приведенного выше предложения следует, что к {\displaystyle к} с к т {\displaystyle c_{k}\geq t}

Вероятно ( τ к т ) = Вероятно ( τ ~ к т ) . {\displaystyle \operatorname {Prob} (\tau _{k}\geq t) = \operatorname {Prob} ({\tilde {\tau }}_{k}\geq t).}

Пусть и рассмотрим только те , то есть события, для которых результат не был цензурирован до времени . Пусть будет числом элементов в . Обратите внимание, что набор не является случайным, поэтому не является и . Кроме того, является последовательностью независимых, одинаково распределенных случайных величин Бернулли с общим параметром . Предполагая, что , это предполагает оценку с использованием Х к = я ( τ ~ к т ) {\displaystyle X_{k}=\mathbb {I} ({\tilde {\tau }}_{k}\geq t)} к С ( т ) := { к : с к т } {\displaystyle k\in C(t):=\{k\,:\,c_{k}\geq t\}} т {\displaystyle т} м ( т ) = | С ( т ) | {\displaystyle m(t)=|C(t)|} С ( т ) {\displaystyle C(т)} С ( т ) {\displaystyle C(т)} м ( т ) {\displaystyle m(t)} ( Х к ) к С ( т ) {\displaystyle (X_{k})_{k\in C(t)}} С ( т ) = Вероятно ( τ т ) {\displaystyle S(t)=\operatorname {Вероятность} (\tau \geq t)} м ( т ) > 0 {\displaystyle m(t)>0} С ( т ) {\displaystyle S(т)}

С ^ наивный ( т ) = 1 м ( т ) к : с к т Х к = | { 1 к н : τ ~ к т } | | { 1 к н : с к т } | = | { 1 к н : τ ~ к т } | м ( т ) , {\displaystyle {\hat {S}}_{\text{наивный}}(t)={\frac {1}{m(t)}}\sum _{k:c_{k}\geq t}X_{k}={\frac {|\{1\leq k\leq n\,:\,{\tilde {\tau }}_{k}\geq t\}|}{|\{1\leq k\leq n\,:\,c_{k}\geq t\}|}}={\frac {|\{1\leq k\leq n\,:\,{\tilde {\tau }}_{k}\geq t\}|}{m(t)}},}

где второе равенство следует из того, что подразумевает , тогда как последнее равенство — это просто изменение обозначений. τ ~ к т {\displaystyle {\tilde {\tau }}_{k}\geq t} с к т {\displaystyle c_{k}\geq t}

Качество этой оценки регулируется размером . Это может быть проблематично, когда мало, что происходит по определению, когда цензурируется множество событий. Особенно неприятное свойство этой оценки, которое предполагает, что, возможно, это не «лучшая» оценка, заключается в том, что она игнорирует все наблюдения, время цензурирования которых предшествует . Интуитивно эти наблюдения все еще содержат информацию о : Например, когда для многих событий с , также справедливо, мы можем сделать вывод, что события часто происходят рано, что подразумевает, что велико, что, посредством означает, должно быть малым. Однако эта информация игнорируется этой наивной оценкой. Тогда возникает вопрос, существует ли оценка, которая лучше использует все данные. Это то, чего достигает оценщик Каплана–Майера. Обратите внимание, что наивная оценка не может быть улучшена, когда цензурирование не происходит; поэтому возможность улучшения критически зависит от того, есть ли цензурирование. м ( т ) {\displaystyle m(t)} м ( т ) {\displaystyle m(t)} т {\displaystyle т} С ( т ) {\displaystyle S(т)} с к < т {\displaystyle c_{k}<t} τ к < с к {\displaystyle \tau _{k}<c_{k}} Вероятно ( τ т ) {\displaystyle \operatorname {Prob} (\tau \leq t)} С ( т ) = 1 Вероятно ( τ т ) {\displaystyle S(t)=1-\operatorname {Prob} (\tau \leq t)} S ( t ) {\displaystyle S(t)}

Подход с использованием подключаемого модуля

По элементарным расчетам,

S ( t ) = Prob ( τ > t τ > t 1 ) Prob ( τ > t 1 ) = ( 1 Prob ( τ t τ > t 1 ) ) Prob ( τ > t 1 ) = ( 1 Prob ( τ = t τ t ) ) Prob ( τ > t 1 ) = q ( t ) S ( t 1 ) , {\displaystyle {\begin{aligned}S(t)&=\operatorname {Prob} (\tau >t\mid \tau >t-1)\operatorname {Prob} (\tau >t-1)\\[4pt]&=(1-\operatorname {Prob} (\tau \leq t\mid \tau >t-1))\operatorname {Prob} (\tau >t-1)\\[4pt]&=(1-\operatorname {Prob} (\tau =t\mid \tau \geq t))\operatorname {Prob} (\tau >t-1)\\[4pt]&=q(t)S(t-1)\,,\end{aligned}}}

где предпоследнее равенство используется как целое число, а для последней строки мы ввели τ {\displaystyle \tau }

q ( t ) = 1 Prob ( τ = t τ t ) . {\displaystyle q(t)=1-\operatorname {Prob} (\tau =t\mid \tau \geq t).}

Рекурсивным расширением равенства получаем S ( t ) = q ( t ) S ( t 1 ) {\displaystyle S(t)=q(t)S(t-1)}

S ( t ) = q ( t ) q ( t 1 ) q ( 0 ) . {\displaystyle S(t)=q(t)q(t-1)\cdots q(0).}

Обратите внимание, что здесь . q ( 0 ) = 1 Prob ( τ = 0 τ > 1 ) = 1 Prob ( τ = 0 ) {\displaystyle q(0)=1-\operatorname {Prob} (\tau =0\mid \tau >-1)=1-\operatorname {Prob} (\tau =0)}

Оценку Каплана–Майера можно рассматривать как «вставную оценку», где каждая оценка основана на данных, а оценка получается как произведение этих оценок. q ( s ) {\displaystyle q(s)} S ( t ) {\displaystyle S(t)}

Остается указать, как следует оценивать. По предложению 1, для любого такого , что и оба имеют место. Следовательно, для любого такого, что , q ( s ) = 1 Prob ( τ = s τ s ) {\displaystyle q(s)=1-\operatorname {Prob} (\tau =s\mid \tau \geq s)} k [ n ] {\displaystyle k\in [n]} c k s {\displaystyle c_{k}\geq s} Prob ( τ = s ) = Prob ( τ ~ k = s ) {\displaystyle \operatorname {Prob} (\tau =s)=\operatorname {Prob} ({\tilde {\tau }}_{k}=s)} Prob ( τ s ) = Prob ( τ ~ k s ) {\displaystyle \operatorname {Prob} (\tau \geq s)=\operatorname {Prob} ({\tilde {\tau }}_{k}\geq s)} k [ n ] {\displaystyle k\in [n]} c k s {\displaystyle c_{k}\geq s}

Prob ( τ = s | τ s ) = Prob ( τ ~ k = s ) / Prob ( τ ~ k s ) . {\displaystyle \operatorname {Prob} (\tau =s|\tau \geq s)=\operatorname {Prob} ({\tilde {\tau }}_{k}=s)/\operatorname {Prob} ({\tilde {\tau }}_{k}\geq s).}

По аналогичным рассуждениям, которые привели к построению наивной оценки выше, мы приходим к оценке

q ^ ( s ) = 1 | { 1 k n : c k s , τ ~ k = s } | | { 1 k n : c k s , τ ~ k s } | = 1 | { 1 k n : τ ~ k = s } | | { 1 k n : τ ~ k s } | {\displaystyle {\hat {q}}(s)=1-{\frac {|\{1\leq k\leq n\,:\,c_{k}\geq s,{\tilde {\tau }}_{k}=s\}|}{|\{1\leq k\leq n\,:\,c_{k}\geq s,{\tilde {\tau }}_{k}\geq s\}|}}=1-{\frac {|\{1\leq k\leq n\,:\,{\tilde {\tau }}_{k}=s\}|}{|\{1\leq k\leq n\,:\,{\tilde {\tau }}_{k}\geq s\}|}}}

(представьте себе оценку числителя и знаменателя отдельно в определении «коэффициента риска» ). Тогда оценка Каплана–Майера задается как Prob ( τ = s | τ s ) {\displaystyle \operatorname {Prob} (\tau =s|\tau \geq s)}

S ^ ( t ) = s = 0 t q ^ ( s ) . {\displaystyle {\hat {S}}(t)=\prod _{s=0}^{t}{\hat {q}}(s).}

Форму оценщика, указанную в начале статьи, можно получить с помощью некоторой дальнейшей алгебры. Для этого запишите, где, используя терминологию актуарной науки, — это число известных смертей в момент времени , а — это число тех лиц, которые живы (и не подвергаются цензуре) в момент времени . q ^ ( s ) = 1 d ( s ) / n ( s ) {\displaystyle {\hat {q}}(s)=1-d(s)/n(s)} d ( s ) = | { 1 k n : τ k = s } | {\displaystyle d(s)=|\{1\leq k\leq n\,:\,\tau _{k}=s\}|} s {\displaystyle s} n ( s ) = | { 1 k n : τ ~ k s } | {\displaystyle n(s)=|\{1\leq k\leq n\,:\,{\tilde {\tau }}_{k}\geq s\}|} s 1 {\displaystyle s-1}

Обратите внимание, что если , . Это означает, что мы можем исключить из определения произведения все те члены, где . Тогда, полагая, что будут моментами времени , когда , и , приходим к форме оценки Каплана–Майера, приведенной в начале статьи: d ( s ) = 0 {\displaystyle d(s)=0} q ^ ( s ) = 1 {\displaystyle {\hat {q}}(s)=1} S ^ ( t ) {\displaystyle {\hat {S}}(t)} d ( s ) = 0 {\displaystyle d(s)=0} 0 t 1 < t 2 < < t m {\displaystyle 0\leq t_{1}<t_{2}<\dots <t_{m}} s {\displaystyle s} d ( s ) > 0 {\displaystyle d(s)>0} d i = d ( t i ) {\displaystyle d_{i}=d(t_{i})} n i = n ( t i ) {\displaystyle n_{i}=n(t_{i})}

S ^ ( t ) = i : t i t ( 1 d i n i ) . {\displaystyle {\hat {S}}(t)=\prod _{i:t_{i}\leq t}\left(1-{\frac {d_{i}}{n_{i}}}\right).}

В отличие от наивной оценки, можно увидеть, что эта оценка использует имеющуюся информацию более эффективно: в особом случае, упомянутом ранее, когда зафиксировано много ранних событий, оценка будет умножать много членов со значением ниже единицы и, таким образом, будет учитывать, что вероятность выживания не может быть большой.

Вывод как оценка максимального правдоподобия

Оценку Каплана-Майера можно вывести из оценки максимального правдоподобия дискретной функции риска . [8] [ самостоятельно опубликованный источник? ] Более конкретно, заданная как количество событий и общее количество лиц, подверженных риску в определенный момент времени  , дискретная скорость риска может быть определена как вероятность того, что у человека произойдет событие в определенный момент времени  . Тогда скорость выживания может быть определена как: d i {\displaystyle d_{i}} n i {\displaystyle n_{i}} t i {\displaystyle t_{i}} h i {\displaystyle h_{i}} t i {\displaystyle t_{i}}

S ( t ) = i :   t i t ( 1 h i ) {\displaystyle S(t)=\prod \limits _{i:\ t_{i}\leq t}(1-h_{i})}

а функция правдоподобия для функции опасности до определенного момента времени равна: t i {\displaystyle t_{i}}

L ( h j : j i d j : j i , n j : j i ) = j = 1 i h j d j ( 1 h j ) n j d j ( n j d j ) {\displaystyle {\mathcal {L}}(h_{j:j\leq i}\mid d_{j:j\leq i},n_{j:j\leq i})=\prod _{j=1}^{i}h_{j}^{d_{j}}(1-h_{j})^{n_{j}-d_{j}}{n_{j} \choose d_{j}}}

поэтому логарифм правдоподобия будет:

log ( L ) = j = 1 i ( d j log ( h j ) + ( n j d j ) log ( 1 h j ) + log ( n j d j ) ) {\displaystyle \log({\mathcal {L}})=\sum _{j=1}^{i}\left(d_{j}\log(h_{j})+(n_{j}-d_{j})\log(1-h_{j})+\log {n_{j} \choose d_{j}}\right)}

нахождение максимума логарифмического правдоподобия относительно урожайности: h i {\displaystyle h_{i}}

log ( L ) h i = d i h ^ i n i d i 1 h ^ i = 0 h ^ i = d i n i {\displaystyle {\frac {\partial \log({\mathcal {L}})}{\partial h_{i}}}={\frac {d_{i}}{{\widehat {h}}_{i}}}-{\frac {n_{i}-d_{i}}{1-{\widehat {h}}_{i}}}=0\Rightarrow {\widehat {h}}_{i}={\frac {d_{i}}{n_{i}}}}

где hat используется для обозначения оценки максимального правдоподобия. Учитывая этот результат, мы можем записать:

S ^ ( t ) = i :   t i t ( 1 h ^ i ) = i :   t i t ( 1 d i n i ) {\displaystyle {\widehat {S}}(t)=\prod \limits _{i:\ t_{i}\leq t}\left(1-{\widehat {h}}_{i}\right)=\prod \limits _{i:\ t_{i}\leq t}\left(1-{\frac {d_{i}}{n_{i}}}\right)}

В более общем смысле (как для непрерывных, так и для дискретных распределений выживаемости) оценка Каплана-Майера может быть интерпретирована как непараметрическая оценка максимального правдоподобия. [9]

Преимущества и ограничения

Оценка Каплана–Майера является одним из наиболее часто используемых методов анализа выживаемости. Оценка может быть полезна для изучения показателей выздоровления, вероятности смерти и эффективности лечения. Она ограничена в своей способности оценивать выживаемость, скорректированную на ковариаты ; параметрические модели выживаемости и модель пропорциональных рисков Кокса могут быть полезны для оценки выживаемости, скорректированной на ковариаты.

Оценка Каплана-Майера напрямую связана с оценкой Нельсона-Аалена , и обе максимизируют эмпирическое правдоподобие . [10]

Статистические соображения

Оценка Каплана–Майера является статистикой , и несколько оценок используются для аппроксимации ее дисперсии . Одной из наиболее распространенных оценок является формула Гринвуда: [11]

Var ^ ( S ^ ( t ) ) = S ^ ( t ) 2 i :   t i t d i n i ( n i d i ) , {\displaystyle {\widehat {\operatorname {Var} }}\left({\widehat {S}}(t)\right)={\widehat {S}}(t)^{2}\sum _{i:\ t_{i}\leq t}{\frac {d_{i}}{n_{i}(n_{i}-d_{i})}},}

где — число случаев, а — общее число наблюдений, для . d i {\displaystyle d_{i}} n i {\displaystyle n_{i}} t i < t {\displaystyle t_{i}<t}

Для «эскиза» математического вывода уравнения выше нажмите «показать», чтобы увидеть

Формула Гринвуда выведена [12] [ самостоятельно опубликованный источник? ] путем указания того, что вероятность получения отказов из случаев следует биномиальному распределению с вероятностью отказа . В результате для максимального уровня вероятности риска мы имеем и . Чтобы избежать работы с мультипликативными вероятностями, мы вычисляем дисперсию логарифма и будем использовать дельта-метод, чтобы преобразовать ее обратно в исходную дисперсию: d i {\displaystyle d_{i}} n i {\displaystyle n_{i}} h i {\displaystyle h_{i}} h ^ i = d i / n i {\displaystyle {\widehat {h}}_{i}=d_{i}/n_{i}} E ( h ^ i ) = h i {\displaystyle E\left({\widehat {h}}_{i}\right)=h_{i}} Var ( h ^ i ) = h i ( 1 h i ) / n i {\displaystyle \operatorname {Var} \left({\widehat {h}}_{i}\right)=h_{i}(1-h_{i})/n_{i}} S ^ ( t ) {\displaystyle {\widehat {S}}(t)}

Var ( log S ^ ( t ) ) 1 S ^ ( t ) 2 Var ( S ^ ( t ) ) Var ( S ^ ( t ) ) S ^ ( t ) 2 Var ( log S ^ ( t ) ) {\displaystyle {\begin{aligned}\operatorname {Var} \left(\log {\widehat {S}}(t)\right)&\sim {\frac {1}{{{\widehat {S}}(t)}^{2}}}\operatorname {Var} \left({\widehat {S}}(t)\right)\Rightarrow \\\operatorname {Var} \left({\widehat {S}}(t)\right)&\sim {{{\widehat {S}}(t)}^{2}}\operatorname {Var} \left(\log {\widehat {S}}(t)\right)\end{aligned}}}

Используя центральную предельную теорему мартингала , можно показать, что дисперсия суммы в следующем уравнении равна сумме дисперсий: [12]

log S ^ ( t ) = i :   t i t log ( 1 h ^ i ) {\displaystyle \log {\widehat {S}}(t)=\sum \limits _{i:\ t_{i}\leq t}\log \left(1-{\widehat {h}}_{i}\right)}

в результате мы можем записать:

Var ( S ^ ( t ) ) S ^ ( t ) 2 Var ( i :   t i t log ( 1 h ^ i ) ) S ^ ( t ) 2 i :   t i t Var ( log ( 1 h ^ i ) ) {\displaystyle {\begin{aligned}\operatorname {Var} ({\widehat {S}}(t))&\sim {{{\widehat {S}}(t)}^{2}}\operatorname {Var} \left(\sum _{i:\ t_{i}\leq t}\log \left(1-{\widehat {h}}_{i}\right)\right)\\&\sim {{{\widehat {S}}(t)}^{2}}\sum \limits _{i:\ t_{i}\leq t}\operatorname {Var} \left(\log \left(1-{\widehat {h}}_{i}\right)\right)\end{aligned}}}

еще раз используем дельта-метод:

Var ( S ^ ( t ) ) S ^ ( t ) 2 i :   t i t ( log ( 1 h ^ i ) h ^ i ) 2 Var ( h ^ i ) = S ^ ( t ) 2 i :   t i t ( 1 1 h ^ i ) 2 h ^ i ( 1 h ^ i ) n i = S ^ ( t ) 2 i :   t i t h ^ i n i ( 1 h ^ i ) = S ^ ( t ) 2 i :   t i t d i n i ( n i d i ) {\displaystyle {\begin{aligned}\operatorname {Var} ({\widehat {S}}(t))&\sim {{{\widehat {S}}(t)}^{2}}\sum _{i:\ t_{i}\leq t}\left({\frac {\partial \log \left(1-{\widehat {h}}_{i}\right)}{\partial {\widehat {h}}_{i}}}\right)^{2}\operatorname {Var} \left({\widehat {h}}_{i}\right)\\&={{{\widehat {S}}(t)}^{2}}\sum _{i:\ t_{i}\leq t}\left({\frac {1}{1-{\widehat {h}}_{i}}}\right)^{2}{\frac {{\widehat {h}}_{i}\left(1-{\widehat {h}}_{i}\right)}{n_{i}}}\\&={{{\widehat {S}}(t)}^{2}}\sum _{i:\ t_{i}\leq t}{\frac {{\widehat {h}}_{i}}{n_{i}\left(1-{\widehat {h}}_{i}\right)}}\\&={{{\widehat {S}}(t)}^{2}}\sum _{i:\ t_{i}\leq t}{\frac {d_{i}}{n_{i}(n_{i}-d_{i})}}\end{aligned}}}

по желанию.


В некоторых случаях может возникнуть необходимость сравнить различные кривые Каплана–Майера. Это можно сделать с помощью логрангового теста и теста пропорциональных рисков Кокса .

Другие статистические данные, которые могут быть полезны с этой оценкой, — это точечные доверительные интервалы [13], полоса Холла-Веллнера [14] и полоса равной точности [15] .

Программное обеспечение

  • Mathematica : встроенная функция SurvivalModelFitсоздает модели выживания. [16]
  • SAS : В процедуре реализована оценка Каплана–Майера proc lifetest. [17]
  • R : оценщик Каплана–Майера доступен как часть пакета survival. [18] [19] [20]
  • Stata : команда stsвозвращает оценку Каплана–Майера. [21] [22]
  • Python : lifelinesи scikit-survivalпакеты включают оценщик Каплана–Майера. [23] [24]
  • MATLAB : ecdfфункция с 'function','survivor'аргументами может вычислить или построить график оценки Каплана–Майера. [25]
  • StatsDirect : Оценка Каплана–Майера реализована в Survival Analysisменю. [26]
  • SPSS : Оценка Каплана–Майера реализована в Analyze > Survival > Kaplan-Meier...меню. [27]
  • Джулия : Survival.jlпакет включает оценщик Каплана–Майера. [28]
  • Epi Info : Кривые выживаемости оценщика Каплана-Майера и результаты логрангового теста получаются с помощью KMSURVIVALкоманды. [29]

Смотрите также

Ссылки

  1. ^ Каплан, EL; Мейер, П. (1958). «Непараметрическая оценка по неполным наблюдениям». J. Amer. Statist. Assoc. 53 (282): 457– 481. doi :10.2307/2281868. JSTOR  2281868.
  2. ^ Каплан, Э. Л. в ретроспективе основополагающей статьи в "This week's citation classic". Current Contents 24 , 14 (1983). Доступно в UPenn в формате PDF.
  3. ^ Мейер, Брюс Д. (1990). «Страхование по безработице и периоды безработицы» (PDF) . Econometrica . 58 (4): 757– 782. doi :10.2307/2938349. JSTOR  2938349. S2CID  154632727.
  4. ^ Stalpers, Lukas JA; Kaplan, Edward L (4 мая 2018 г.). «Эдвард Л. Каплан и кривая выживания Каплана-Майера». Бюллетень BSHM: Журнал Британского общества истории математики . 33 (2): 109– 135. doi : 10.1080/17498430.2018.1450055 . S2CID  125941631.
  5. ^ Каплан, EL; Мейер, Пол (1958). «Непараметрическая оценка по неполным наблюдениям». Журнал Американской статистической ассоциации . 53 (282): 457– 481. doi :10.1080/01621459.1958.10501452 . Получено 27 февраля 2023 г.
  6. ^ "Paul Meier, 1924–2011". Chicago Tribune . 18 августа 2011 г. Архивировано из оригинала 13 сентября 2017 г.
  7. ^ Рич, Джейсон Т.; Нили, Дж. Гейл; Паниелло, Рэндал К.; Фёлькер, Кортни К.Дж.; Нуссенбаум, Брайан; Ванг, Эрик В. (сентябрь 2010 г.). «Практическое руководство по пониманию кривых Каплана-Майера». Отоларингология–Хирургия головы и шеи . 143 (3): 331– 336. doi :10.1016/j.otohns.2010.05.007. PMC 3932959. PMID  20723767 . 
  8. ^ "STAT331 Unit 3" (PDF) . Получено 12 мая 2023 г.
  9. ^ Андерсен, Пер Краг; Борган, Орнульф; Гилл, Ричард Д.; Кейдинг, Нильс (1993). Статистические модели, основанные на процессах подсчета . Нью-Йорк: Springer-Verlag. ISBN 0-387-97872-0.
  10. ^ Чжоу, М. (2015). Метод эмпирического правдоподобия в анализе выживаемости (1-е изд.). Chapman and Hall/CRC. https://doi.org/10.1201/b18598, https://books.google.com/books?id=9-b5CQAAQBAJ&dq=Does+the+Nelson%E2%80%93Aalen+estimator+construct+an+empirical+likelihood%3F&pg=PA7
  11. ^ Гринвуд, Мейджор (1926). Отчет о естественной продолжительности рака . Выпуск 33 Отчетов по общественному здравоохранению и медицинским предметам. HMSO . OCLC  14713088.
  12. ^ ab "Доверительные интервалы Гринвуда и экспоненциальные Гринвуда в анализе выживаемости" (PDF) . Получено 12 мая 2023 г.
  13. ^ Фэй, Майкл П.; Бриттен, Эрика Х.; Прошан, Майкл А. (1 сентября 2013 г.). «Точечные доверительные интервалы для распределения выживаемости с небольшими выборками или сильным цензурированием». Биостатистика . 14 ( 4): 723–736 . doi :10.1093/biostatistics/kxt016. PMC 3769999. PMID  23632624. 
  14. ^ Холл, У. Дж.; Уэллнер, Джон А. (1980). «Доверительные полосы для кривой выживаемости из цензурированных данных». Biometrika . 67 (1): 133– 143. doi :10.1093/biomet/67.1.133.
  15. ^ Наир, Виджаян Н. (август 1984 г.). «Доверительные полосы для функций выживания с цензурированными данными: сравнительное исследование». Technometrics . 26 (3): 265– 275. doi :10.1080/00401706.1984.10487964.
  16. ^ "Анализ выживаемости – Mathematica SurvivalModelFit". wolfram.com . Получено 14 августа 2017 г. .
  17. ^ "Руководство пользователя SAS/STAT(R) 14.1". support.sas.com . Получено 12 мая 2023 г. .
  18. ^ Therneau, Terry M. (9 августа 2022 г.). "выживание: анализ выживания". The Comprehensive R Archive Network . Получено 30 ноября 2022 г.
  19. ^ Willekens, Frans (2014). "Статистические пакеты для многофакторного анализа истории жизни". Многофакторный анализ историй жизни с помощью R. Используйте R!. Springer. стр.  135–153 . doi :10.1007/978-3-319-08383-4_6. ISBN 978-3-319-08383-4.
  20. ^ Чэнь, Дин-Гэн; Пис, Карл Э. (2014). Анализ данных клинических испытаний с использованием R. CRC Press. С.  99–108 . ISBN 9781439840214.
  21. ^ "sts — Создание, построение графиков, составление списков и тестирование функций выживаемости и кумулятивной опасности" (PDF) . Stata Manual .
  22. ^ Клевес, Марио (2008). Введение в анализ выживания с использованием Stata (второе изд.). College Station: Stata Press. стр.  93–107 . ISBN 978-1-59718-041-2.
  23. ^ "lifelines — lifelines 0.27.7 documentation". lifelines.readthedocs.io . Получено 12 мая 2023 г. .
  24. ^ "sksurv.nonparametric.kaplan_meier_estimator — scikit-survival 0.20.0". scikit-survival.readthedocs.io . Получено 12 мая 2023 г. .
  25. ^ "Эмпирическая кумулятивная функция распределения – MATLAB ecdf". mathworks.com . Получено 16 июня 2016 г. .
  26. ^ "Оценки выживаемости Каплана-Майера". statsdirect.co.uk . Получено 12 мая 2023 г. .
  27. ^ «Метод Каплана-Майера в SPSS Statistics | Laerd Statistics».
  28. ^ "Каплан-Майер · Выживание.jl".
  29. ^ "Руководство пользователя Epi Info™ - Справочник команд - Команды анализа: KMSURVIVAL" . Получено 30 октября 2023 г. .

Дальнейшее чтение

  • Аален, Одд; Борган, Орнульф; Гессинг, Хакон (2008). Анализ истории выживания и событий: точка зрения процесса . Springer. стр.  90–104 . ISBN 978-0-387-68560-1.
  • Грин, Уильям Х. (2012). «Непараметрические и полупараметрические подходы». Эконометрический анализ (седьмое изд.). Prentice-Hall. стр.  909–912 . ISBN 978-0-273-75356-8.
  • Джонс, Эндрю М.; Райс, Найджел; Д'Ува, Тереза ​​Баго; Балия, Сильвия (2013). «Данные о длительности». Прикладная экономика здравоохранения . Лондон: Routledge. С.  139–181 . ISBN 978-0-415-67682-3.
  • Сингер, Джудит Б.; Уиллетт, Джон Б. (2003). Прикладной анализ продольных данных: моделирование изменений и возникновения событий. Нью-Йорк: Oxford University Press. С.  483–487 . ISBN 0-19-515296-4.
  • Данн, Стив (2002). «Кривые выживания: накопление и оценка Каплана–Майера». Cancer Guide . Статистика.
  • Три эволюционные кривые Каплана–Майера на YouTube
Retrieved from "https://en.wikipedia.org/w/index.php?title=Kaplan–Meier_estimator&oldid=1256792358"