Байесовский классификатор

В статистической классификации байесовский классификатор — это классификатор, имеющий наименьшую вероятность неправильной классификации среди всех классификаторов, использующих тот же набор признаков. [1]

Определение

Предположим, что пара принимает значения в , где — метка класса элемента, характеристики которого заданы как . Предположим, что условное распределение X , учитывая, что метка Y принимает значение r , задается как , где " " означает "распределен как", а где обозначает распределение вероятностей. ( X , Y ) {\displaystyle (X,Y)} R d × { 1 , 2 , , K } {\displaystyle \mathbb {R} ^{d}\times \{1,2,\dots ,K\}} Y {\displaystyle Y} X {\displaystyle X} ( X Y = r ) P r for r = 1 , 2 , , K {\displaystyle (X\mid Y=r)\sim P_{r}\quad {\text{for}}\quad r=1,2,\dots ,K} {\displaystyle \sim } P r {\displaystyle P_{r}}

Классификатор — это правило, которое присваивает наблюдению X = x предположение или оценку того, какой на самом деле была ненаблюдаемая метка Y = r . В теоретических терминах классификатор — это измеримая функция , с интерпретацией, что C классифицирует точку x в класс C ( x ). Вероятность неправильной классификации, или риск , классификатора C определяется как C : R d { 1 , 2 , , K } {\displaystyle C:\mathbb {R} ^{d}\to \{1,2,\dots ,K\}} R ( C ) = P { C ( X ) Y } . {\displaystyle {\mathcal {R}}(C)=\operatorname {P} \{C(X)\neq Y\}.}

Байесовский классификатор — это C Bayes ( x ) = argmax r { 1 , 2 , , K } P ( Y = r X = x ) . {\displaystyle C^{\text{Bayes}}(x)={\underset {r\in \{1,2,\dots ,K\}}{\operatorname {argmax} }}\operatorname {P} (Y=r\mid X=x).}

На практике, как и в большинстве статистических исследований, трудности и тонкости связаны с эффективным моделированием распределений вероятностей — в данном случае. Классификатор Байеса является полезным эталоном в статистической классификации . P ( Y = r X = x ) {\displaystyle \operatorname {P} (Y=r\mid X=x)}

Избыточный риск общего классификатора (возможно, зависящий от некоторых обучающих данных) определяется как Таким образом, эта неотрицательная величина важна для оценки производительности различных методов классификации. Классификатор считается согласованным , если избыточный риск стремится к нулю, когда размер обучающего набора данных стремится к бесконечности. [2] C {\displaystyle C} R ( C ) R ( C Bayes ) . {\displaystyle {\mathcal {R}}(C)-{\mathcal {R}}(C^{\text{Bayes}}).}

Считая компоненты взаимно независимыми, получаем наивный байесовский классификатор , где x i {\displaystyle x_{i}} x {\displaystyle x} C Bayes ( x ) = argmax r { 1 , 2 , , K } P ( Y = r ) i = 1 d P r ( x i ) . {\displaystyle C^{\text{Bayes}}(x)={\underset {r\in \{1,2,\dots ,K\}}{\operatorname {argmax} }}\operatorname {P} (Y=r)\prod _{i=1}^{d}P_{r}(x_{i}).}

Характеристики

Доказательство того, что байесовский классификатор оптимален и коэффициент байесовой ошибки минимален, выполняется следующим образом.

Определим переменные: Риск , Байесовский риск , все возможные классы, к которым могут быть отнесены точки . Пусть апостериорная вероятность принадлежности точки к классу 1 будет . Определим классификатор как R ( h ) {\displaystyle R(h)} R {\displaystyle R^{*}} Y = { 0 , 1 } {\displaystyle Y=\{0,1\}} η ( x ) = P r ( Y = 1 | X = x ) {\displaystyle \eta (x)=Pr(Y=1|X=x)} h {\displaystyle {\mathcal {h}}^{*}} h ( x ) = { 1 if  η ( x ) 0.5 , 0 otherwise. {\displaystyle {\mathcal {h}}^{*}(x)={\begin{cases}1&{\text{if }}\eta (x)\geqslant 0.5,\\0&{\text{otherwise.}}\end{cases}}}

Тогда мы имеем следующие результаты:

  1. R ( h ) = R {\displaystyle R(h^{*})=R^{*}} , т.е. является байесовским классификатором, h {\displaystyle h^{*}}
  2. Для любого классификатора избыточный риск удовлетворяет h {\displaystyle h} R ( h ) R = 2 E X [ | η ( x ) 0.5 | I { h ( X ) h ( X ) } ] {\displaystyle R(h)-R^{*}=2\mathbb {E} _{X}\left[|\eta (x)-0.5|\cdot \mathbb {I} _{\left\{h(X)\neq h^{*}(X)\right\}}\right]}
  3. R = E X [ min ( η ( X ) , 1 η ( X ) ) ] {\displaystyle R^{*}=\mathbb {E} _{X}\left[\min(\eta (X),1-\eta (X))\right]}
  4. R = 1 2 1 2 E [ | 2 η ( X ) 1 | ] {\displaystyle R^{*}={\frac {1}{2}}-{\frac {1}{2}}\mathbb {E} [|2\eta (X)-1|]}

Доказательство (а): Для любого классификатора мы имеем, где вторая строка была выведена с помощью теоремы Фубини h {\displaystyle h} R ( h ) = E X Y [ I { h ( X ) Y } ] = E X E Y | X [ I { h ( X ) Y } ] = E X [ η ( X ) I { h ( X ) = 0 } + ( 1 η ( X ) ) I { h ( X ) = 1 } ] {\displaystyle {\begin{aligned}R(h)&=\mathbb {E} _{XY}\left[\mathbb {I} _{\left\{h(X)\neq Y\right\}}\right]\\&=\mathbb {E} _{X}\mathbb {E} _{Y|X}[\mathbb {I} _{\left\{h(X)\neq Y\right\}}]\\&=\mathbb {E} _{X}[\eta (X)\mathbb {I} _{\left\{h(X)=0\right\}}+(1-\eta (X))\mathbb {I} _{\left\{h(X)=1\right\}}]\end{aligned}}}

Обратите внимание, что минимизируется путем принятия , R ( h ) {\displaystyle R(h)} x X {\displaystyle \forall x\in X} h ( x ) = { 1 if  η ( x ) 1 η ( x ) , 0 otherwise. {\displaystyle h(x)={\begin{cases}1&{\text{if }}\eta (x)\geqslant 1-\eta (x),\\0&{\text{otherwise.}}\end{cases}}}

Поэтому минимально возможный риск — это байесовский риск . R = R ( h ) {\displaystyle R^{*}=R(h^{*})}

Доказательство (б): R ( h ) R = R ( h ) R ( h ) = E X [ η ( X ) I { h ( X ) = 0 } + ( 1 η ( X ) ) I { h ( X ) = 1 } η ( X ) I { h ( X ) = 0 } ( 1 η ( X ) ) I { h ( X ) = 1 } ] = E X [ | 2 η ( X ) 1 | I { h ( X ) h ( X ) } ] = 2 E X [ | η ( X ) 0.5 | I { h ( X ) h ( X ) } ] {\displaystyle {\begin{aligned}R(h)-R^{*}&=R(h)-R(h^{*})\\&=\mathbb {E} _{X}[\eta (X)\mathbb {I} _{\left\{h(X)=0\right\}}+(1-\eta (X))\mathbb {I} _{\left\{h(X)=1\right\}}-\eta (X)\mathbb {I} _{\left\{h^{*}(X)=0\right\}}-(1-\eta (X))\mathbb {I} _{\left\{h^{*}(X)=1\right\}}]\\&=\mathbb {E} _{X}[|2\eta (X)-1|\mathbb {I} _{\left\{h(X)\neq h^{*}(X)\right\}}]\\&=2\mathbb {E} _{X}[|\eta (X)-0.5|\mathbb {I} _{\left\{h(X)\neq h^{*}(X)\right\}}]\end{aligned}}}


Доказательство (c): R ( h ) = E X [ η ( X ) I { h ( X ) = 0 } + ( 1 η ( X ) ) I { h ( X ) = 1 } ] = E X [ min ( η ( X ) , 1 η ( X ) ) ] {\displaystyle {\begin{aligned}R(h^{*})&=\mathbb {E} _{X}[\eta (X)\mathbb {I} _{\left\{h^{*}(X)=0\right\}}+(1-\eta (X))\mathbb {I} _{\left\{h*(X)=1\right\}}]\\&=\mathbb {E} _{X}[\min(\eta (X),1-\eta (X))]\end{aligned}}}

Доказательство (d): R ( h ) = E X [ min ( η ( X ) , 1 η ( X ) ) ] = 1 2 E X [ max ( η ( X ) 1 / 2 , 1 / 2 η ( X ) ) ] = 1 2 1 2 E [ | 2 η ( X ) 1 | ] {\displaystyle {\begin{aligned}R(h^{*})&=\mathbb {E} _{X}[\min(\eta (X),1-\eta (X))]\\&={\frac {1}{2}}-\mathbb {E} _{X}[\max(\eta (X)-1/2,1/2-\eta (X))]\\&={\frac {1}{2}}-{\frac {1}{2}}\mathbb {E} [|2\eta (X)-1|]\end{aligned}}}

Общий случай

Общий случай, когда классификатор Байеса минимизирует ошибку классификации, когда каждый элемент может принадлежать к любой из n категорий, реализуется путем нарастающих ожиданий следующим образом. E Y ( I { y y ^ } ) = E X E Y | X ( I { y y ^ } | X = x ) = E [ Pr ( Y = 1 | X = x ) I { y ^ = 2 , 3 , , n } + Pr ( Y = 2 | X = x ) I { y ^ = 1 , 3 , , n } + + Pr ( Y = n | X = x ) I { y ^ = 1 , 2 , 3 , , n 1 } ] {\displaystyle {\begin{aligned}\mathbb {E} _{Y}(\mathbb {I} _{\{y\neq {\hat {y}}\}})&=\mathbb {E} _{X}\mathbb {E} _{Y|X}\left(\mathbb {I} _{\{y\neq {\hat {y}}\}}|X=x\right)\\&=\mathbb {E} \left[\Pr(Y=1|X=x)\mathbb {I} _{\{{\hat {y}}=2,3,\dots ,n\}}+\Pr(Y=2|X=x)\mathbb {I} _{\{{\hat {y}}=1,3,\dots ,n\}}+\dots +\Pr(Y=n|X=x)\mathbb {I} _{\{{\hat {y}}=1,2,3,\dots ,n-1\}}\right]\end{aligned}}}

Это минимизируется путем одновременной минимизации всех членов ожидания с использованием классификатора для каждого наблюдения x . h ( x ) = k , arg max k P r ( Y = k | X = x ) {\displaystyle h(x)=k,\quad \arg \max _{k}Pr(Y=k|X=x)}

Смотрите также

Ссылки

  1. ^ Деврой, Л.; Дьерфи Л. и Лугоши Г. (1996). Вероятностная теория распознавания образов . Спрингер. ISBN 0-3879-4618-7.
  2. ^ Фараго, А.; Лугоши, Г. (1993). «Сильная универсальная согласованность классификаторов нейронных сетей». Труды IEEE по теории информации . 39 (4): 1146–1151. doi :10.1109/18.243433.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Bayes_classifier&oldid=1214114560"