Байесовская интерпретация регуляризации ядра

В байесовской статистике для машинного обучения методы ядра возникают из предположения о внутреннем пространстве произведения или структуре подобия на входах. Для некоторых таких методов, таких как машины опорных векторов (SVM), исходная формулировка и ее регуляризация не были байесовскими по своей природе. Полезно понимать их с байесовской точки зрения. Поскольку ядра не обязательно являются положительно полуопределенными, базовая структура может быть не внутренним пространством произведения, а вместо этого более общими воспроизводящими ядрами гильбертовыми пространствами . В байесовской вероятности методы ядра являются ключевым компонентом гауссовских процессов , где функция ядра известна как функция ковариации. Методы ядра традиционно использовались в задачах контролируемого обучения , где входное пространство обычно является пространством векторов , а выходное пространствопространством скаляров . Совсем недавно эти методы были распространены на задачи, которые имеют дело с несколькими выходами, такими как многозадачное обучение . [1]

Математическая эквивалентность между регуляризацией и байесовской точкой зрения легко доказывается в случаях, когда воспроизводящее ядро ​​гильбертова пространства является конечномерным . Бесконечномерный случай поднимает тонкие математические вопросы; мы рассмотрим здесь конечномерный случай. Мы начнем с краткого обзора основных идей, лежащих в основе методов ядра для скалярного обучения, и кратко введем понятия регуляризации и гауссовских процессов. Затем мы покажем, как обе точки зрения приходят к по существу эквивалентным оценкам , и покажем связь, которая связывает их вместе.

Проблема контролируемого обучения

Классическая задача контролируемого обучения требует оценки выходных данных для некоторой новой входной точки путем обучения скалярной оценки на основе обучающего набора, состоящего из пар вход-выход, . [2] При наличии симметричной и положительной двумерной функции , называемой ядром , одна из самых популярных оценок в машинном обучении задается как х {\displaystyle \mathbf {x} '} ф ^ ( х ) {\displaystyle {\hat {f}}(\mathbf {x} ')} С {\displaystyle S} н {\displaystyle n} С = ( Х , И ) = ( х 1 , у 1 ) , , ( х н , у н ) {\displaystyle S=(\mathbf {X},\mathbf {Y})=(\mathbf {x} _{1},y_{1}),\ldots ,(\mathbf {x} _{n}, y_{n})} к ( , ) {\displaystyle k(\cdot ,\cdot )}

где — матрица ядра с элементами , и . Мы увидим, как эта оценка может быть получена как с точки зрения регуляризации, так и с точки зрения байесовского подхода. К к ( Х , Х ) {\displaystyle \mathbf {K} \equiv k(\mathbf {X} ,\mathbf {X} )} К я дж = к ( х я , х дж ) {\ displaystyle \ mathbf {K} _ {ij} = k (\ mathbf {x} _ {i}, \ mathbf {x} _ {j})} к = [ к ( х 1 , х ) , , к ( х н , х ) ] {\displaystyle \mathbf {k} =[k(\mathbf {x} _{1},\mathbf {x} '),\ldots ,k(\mathbf {x} _{n},\mathbf {x} ')]^{\top }} И = [ у 1 , , у н ] {\displaystyle \mathbf {Y} =[y_{1},\ldots,y_{n}]^{\top }}

Перспектива регуляризации

Основное предположение в перспективе регуляризации заключается в том, что набор функций предполагается принадлежащим воспроизводящему ядру гильбертова пространства . [2] [3] [4] [5] Ф {\displaystyle {\mathcal {F}}} ЧАС к {\displaystyle {\mathcal {H}}_{k}}

Воспроизведение ядра Гильбертова пространства

Гильбертово пространство воспроизводящего ядра (RKHS) — это гильбертово пространство функций, определяемое симметричной положительно определенной функцией, называемой воспроизводящим ядром, такой, что функция принадлежит для всех . [6] [7] [8] Существует три основных свойства, которые делают RKHS привлекательным: ЧАС к {\displaystyle {\mathcal {H}}_{k}} к : Х × Х Р {\displaystyle k:{\mathcal {X}}\times {\mathcal {X}}\rightarrow \mathbb {R} } к ( х , ) {\displaystyle k(\mathbf {x} ,\cdot )} ЧАС к {\displaystyle {\mathcal {H}}_{k}} х Х {\displaystyle \mathbf {x} \in {\mathcal {X}}}

1. Воспроизводящее свойство , дающее название пространству,

ф ( х ) = ф , к ( х , ) к ,   ф ЧАС к , {\displaystyle f(\mathbf {x}) =\langle f,k(\mathbf {x},\cdot)\rangle _ {k},\quad \forall \ f\in {\mathcal {H}}_ {к},}

где находится внутренний продукт в . , к {\displaystyle \langle \cdot, \cdot \rangle _ {k}} ЧАС к {\displaystyle {\mathcal {H}}_{k}}

2. Функции в RKHS находятся в замыкании линейной комбинации ядра в заданных точках,

ф ( х ) = я к ( х я , х ) с я {\displaystyle f(\mathbf {x} )=\sum _{i}k(\mathbf {x} _{i},\mathbf {x} )c_{i}} .

Это позволяет строить в единой структуре как линейные, так и обобщенные линейные модели.

3. Квадрат нормы в RKHS можно записать как

ф к 2 = я , дж к ( х я , х дж ) с я с дж {\displaystyle \|f\|_{k}^{2}=\sum _{i,j}k(\mathbf {x} _{i},\mathbf {x} _{j})c_{i }c_{j}}

и может рассматриваться как измерение сложности функции.

Регуляризованный функционал

Оценка выводится как минимизатор регуляризованного функционала

где и — норма в . Первый член в этом функционале, который измеряет среднее квадратов ошибок между и , называется эмпирическим риском и представляет собой стоимость, которую мы платим, прогнозируя истинное значение . Второй член в функционале — это квадрат нормы в RKHS, умноженный на вес , и служит для стабилизации проблемы [3] [5], а также для добавления компромисса между подгонкой и сложностью оценщика. [2] Вес , называемый регуляризатором , определяет степень, в которой нестабильность и сложность оценщика должны быть оштрафованы (более высокий штраф за увеличение значения ). ф ЧАС к {\displaystyle f\in {\mathcal {H}}_{k}} к {\displaystyle \|\cdot \|_{k}} ЧАС к {\displaystyle {\mathcal {H}}_{k}} ф ( х я ) {\displaystyle f(\mathbf {x} _{i})} у я {\displaystyle y_{i}} ф ( х я ) {\displaystyle f(\mathbf {x} _{i})} у я {\displaystyle y_{i}} λ {\displaystyle \лямбда} λ {\displaystyle \лямбда} λ {\displaystyle \лямбда}

Вывод оценщика

Явная форма оценщика в уравнении ( 1 ) выводится в два этапа. Во-первых, теорема о репрезентаторе [9] [10] [11] утверждает, что минимизатор функционала ( 2 ) всегда может быть записан как линейная комбинация ядер, центрированных в точках обучающего множества,

для некоторых . Явный вид коэффициентов можно найти, подставив в функционал ( 2 ). Для функции вида в уравнении ( 3 ) имеем, что с Р н {\displaystyle \mathbf {c} \in \mathbb {R} ^{n}} с = [ с 1 , , с н ] {\displaystyle \mathbf {c} =[c_{1},\ldots ,c_{n}]^{\top }} f ( ) {\displaystyle f(\cdot )}

f k 2 = f , f k , = i = 1 N c i k ( x i , ) , j = 1 N c j k ( x j , ) k , = i = 1 N j = 1 N c i c j k ( x i , ) , k ( x j , ) k , = i = 1 N j = 1 N c i c j k ( x i , x j ) , = c K c . {\displaystyle {\begin{aligned}\|f\|_{k}^{2}&=\langle f,f\rangle _{k},\\&=\left\langle \sum _{i=1}^{N}c_{i}k(\mathbf {x} _{i},\cdot ),\sum _{j=1}^{N}c_{j}k(\mathbf {x} _{j},\cdot )\right\rangle _{k},\\&=\sum _{i=1}^{N}\sum _{j=1}^{N}c_{i}c_{j}\langle k(\mathbf {x} _{i},\cdot ),k(\mathbf {x} _{j},\cdot )\rangle _{k},\\&=\sum _{i=1}^{N}\sum _{j=1}^{N}c_{i}c_{j}k(\mathbf {x} _{i},\mathbf {x} _{j}),\\&=\mathbf {c} ^{\top }\mathbf {K} \mathbf {c} .\end{aligned}}}

Мы можем переписать функционал ( 2 ) как

1 n y K c 2 + λ c K c . {\displaystyle {\frac {1}{n}}\|\mathbf {y} -\mathbf {K} \mathbf {c} \|^{2}+\lambda \mathbf {c} ^{\top }\mathbf {K} \mathbf {c} .}

Этот функционал выпуклый по и поэтому мы можем найти его минимум, установив градиент по равным нулю, c {\displaystyle \mathbf {c} } c {\displaystyle \mathbf {c} }

1 n K ( Y K c ) + λ K c = 0 , ( K + λ n I ) c = Y , c = ( K + λ n I ) 1 Y . {\displaystyle {\begin{aligned}-{\frac {1}{n}}\mathbf {K} (\mathbf {Y} -\mathbf {K} \mathbf {c} )+\lambda \mathbf {K} \mathbf {c} &=0,\\(\mathbf {K} +\lambda n\mathbf {I} )\mathbf {c} &=\mathbf {Y} ,\\\mathbf {c} &=(\mathbf {K} +\lambda n\mathbf {I} )^{-1}\mathbf {Y} .\end{aligned}}}

Подставляя это выражение для коэффициентов в уравнении ( 3 ), получаем оценку, указанную ранее в уравнении ( 1 ),

f ^ ( x ) = k ( K + λ n I ) 1 Y . {\displaystyle {\hat {f}}(\mathbf {x} ')=\mathbf {k} ^{\top }(\mathbf {K} +\lambda n\mathbf {I} )^{-1}\mathbf {Y} .}

Байесовская точка зрения

Понятие ядра играет решающую роль в байесовской вероятности как ковариационной функции стохастического процесса, называемого гауссовым процессом .

Обзор байесовской вероятности

Как часть байесовского фреймворка, гауссовский процесс определяет априорное распределение , которое описывает априорные убеждения о свойствах моделируемой функции. Эти убеждения обновляются после учета данных наблюдений с помощью функции правдоподобия , которая связывает априорные убеждения с наблюдениями. Взятые вместе, априорное и правдоподобное приводят к обновленному распределению, называемому апостериорным распределением , которое обычно используется для прогнозирования тестовых случаев.

Гауссовский процесс

Гауссовский процесс (ГП) — это стохастический процесс, в котором любое конечное число случайных величин, которые выбираются, следуют совместному нормальному распределению . [12] Средний вектор и ковариационная матрица гауссовского распределения полностью определяют ГП. ГП обычно используются как априорное распределение для функций, и как таковые средний вектор и ковариационная матрица могут рассматриваться как функции, где ковариационная функция также называется ядром ГП . Пусть функция следует гауссовскому процессу со средней функцией и функцией ядра , f {\displaystyle f} m {\displaystyle m} k {\displaystyle k}

f G P ( m , k ) . {\displaystyle f\sim {\mathcal {GP}}(m,k).}

С точки зрения базового гауссовского распределения, мы имеем это для любого конечного множества, если мы допустим , то X = { x i } i = 1 n {\displaystyle \mathbf {X} =\{\mathbf {x} _{i}\}_{i=1}^{n}} f ( X ) = [ f ( x 1 ) , , f ( x n ) ] {\displaystyle f(\mathbf {X} )=[f(\mathbf {x} _{1}),\ldots ,f(\mathbf {x} _{n})]^{\top }}

f ( X ) N ( m , K ) , {\displaystyle f(\mathbf {X} )\sim {\mathcal {N}}(\mathbf {m} ,\mathbf {K} ),}

где — средний вектор, а — ковариационная матрица многомерного гауссовского распределения. m = m ( X ) = [ m ( x 1 ) , , m ( x N ) ] {\displaystyle \mathbf {m} =m(\mathbf {X} )=[m(\mathbf {x} _{1}),\ldots ,m(\mathbf {x} _{N})]^{\top }} K = k ( X , X ) {\displaystyle \mathbf {K} =k(\mathbf {X} ,\mathbf {X} )}

Вывод оценщика

В контексте регрессии обычно предполагается, что функция правдоподобия имеет гауссовское распределение, а наблюдения являются независимыми и одинаково распределенными (iid),

p ( y | f , x , σ 2 ) = N ( f ( x ) , σ 2 ) . {\displaystyle p(y|f,\mathbf {x} ,\sigma ^{2})={\mathcal {N}}(f(\mathbf {x} ),\sigma ^{2}).}

Это предположение соответствует тому, что наблюдения искажены гауссовым шумом с нулевым средним и дисперсией . Предположение iid позволяет факторизовать функцию правдоподобия по точкам данных, учитывая набор входных данных и дисперсию шума , и, таким образом, апостериорное распределение может быть вычислено аналитически. Для тестового входного вектора , учитывая обучающие данные , апостериорное распределение задается как σ 2 {\displaystyle \sigma ^{2}} X {\displaystyle \mathbf {X} } σ 2 {\displaystyle \sigma ^{2}} x {\displaystyle \mathbf {x} '} S = { X , Y } {\displaystyle S=\{\mathbf {X} ,\mathbf {Y} \}}

p ( f ( x ) | S , x , ϕ ) = N ( m ( x ) , σ 2 ( x ) ) , {\displaystyle p(f(\mathbf {x} ')|S,\mathbf {x} ',{\boldsymbol {\phi }})={\mathcal {N}}(m(\mathbf {x} '),\sigma ^{2}(\mathbf {x} ')),}

где обозначает набор параметров, которые включают дисперсию шума и любые параметры из ковариационной функции и где ϕ {\displaystyle {\boldsymbol {\phi }}} σ 2 {\displaystyle \sigma ^{2}} k {\displaystyle k}

m ( x ) = k ( K + σ 2 I ) 1 Y , σ 2 ( x ) = k ( x , x ) k ( K + σ 2 I ) 1 k . {\displaystyle {\begin{aligned}m(\mathbf {x} ')&=\mathbf {k} ^{\top }(\mathbf {K} +\sigma ^{2}\mathbf {I} )^{-1}\mathbf {Y} ,\\\sigma ^{2}(\mathbf {x} ')&=k(\mathbf {x} ',\mathbf {x} ')-\mathbf {k} ^{\top }(\mathbf {K} +\sigma ^{2}\mathbf {I} )^{-1}\mathbf {k} .\end{aligned}}}

Связь между регуляризацией и Байесом

Связь между теорией регуляризации и байесовской теорией может быть достигнута только в случае конечномерного RKHS . При этом предположении теория регуляризации и байесовская теория связаны посредством предсказания гауссовского процесса. [3] [12] [13]

В конечномерном случае каждый RKHS можно описать в терминах карты признаков, такой что [2] Φ : X R p {\displaystyle \Phi :{\mathcal {X}}\rightarrow \mathbb {R} ^{p}}

k ( x , x ) = i = 1 p Φ i ( x ) Φ i ( x ) . {\displaystyle k(\mathbf {x} ,\mathbf {x} ')=\sum _{i=1}^{p}\Phi ^{i}(\mathbf {x} )\Phi ^{i}(\mathbf {x} ').}

Функции в RKHS с ядром могут быть записаны как K {\displaystyle \mathbf {K} }

f w ( x ) = i = 1 p w i Φ i ( x ) = w , Φ ( x ) , {\displaystyle f_{\mathbf {w} }(\mathbf {x} )=\sum _{i=1}^{p}\mathbf {w} ^{i}\Phi ^{i}(\mathbf {x} )=\langle \mathbf {w} ,\Phi (\mathbf {x} )\rangle ,}

и у нас также есть это

f w k = w . {\displaystyle \|f_{\mathbf {w} }\|_{k}=\|\mathbf {w} \|.}

Теперь мы можем построить гауссовский процесс, предположив, что он распределен в соответствии с многомерным гауссовым распределением с нулевым средним и единичной ковариационной матрицей, w = [ w 1 , , w p ] {\displaystyle \mathbf {w} =[w^{1},\ldots ,w^{p}]^{\top }}

w N ( 0 , I ) exp ( w 2 ) . {\displaystyle \mathbf {w} \sim {\mathcal {N}}(0,\mathbf {I} )\propto \exp(-\|\mathbf {w} \|^{2}).}

Если мы предположим гауссовское правдоподобие, то получим

P ( Y | X , f ) = N ( f ( X ) , σ 2 I ) exp ( 1 σ 2 f w ( X ) Y 2 ) , {\displaystyle P(\mathbf {Y} |\mathbf {X} ,f)={\mathcal {N}}(f(\mathbf {X} ),\sigma ^{2}\mathbf {I} )\propto \exp \left(-{\frac {1}{\sigma ^{2}}}\|f_{\mathbf {w} }(\mathbf {X} )-\mathbf {Y} \|^{2}\right),}

где . Результирующее апостериорное распределение определяется как f w ( X ) = ( w , Φ ( x 1 ) , , w , Φ ( x n ) {\displaystyle f_{\mathbf {w} }(\mathbf {X} )=(\langle \mathbf {w} ,\Phi (\mathbf {x} _{1})\rangle ,\ldots ,\langle \mathbf {w} ,\Phi (\mathbf {x} _{n}\rangle )}

P ( f | X , Y ) exp ( 1 σ 2 f w ( X ) Y n 2 + w 2 ) {\displaystyle P(f|\mathbf {X} ,\mathbf {Y} )\propto \exp \left(-{\frac {1}{\sigma ^{2}}}\|f_{\mathbf {w} }(\mathbf {X} )-\mathbf {Y} \|_{n}^{2}+\|\mathbf {w} \|^{2}\right)}

Мы видим, что оценка максимального апостериорного распределения (MAP) эквивалентна задаче минимизации, определяющей регуляризацию Тихонова , где в байесовском случае параметр регуляризации связан с дисперсией шума.

С философской точки зрения функция потерь в регуляризации играет иную роль, чем функция правдоподобия в байесовской настройке. В то время как функция потерь измеряет ошибку, которая возникает при прогнозировании вместо , функция правдоподобия измеряет, насколько вероятны наблюдения из модели, которая предполагалась истинной в генеративном процессе. Однако с математической точки зрения формулировки регуляризации и байесовской фреймворков делают функцию потерь и функцию правдоподобия одинаковой математической ролью содействия выводу функций, которые максимально приближают метки . f ( x ) {\displaystyle f(\mathbf {x} )} y {\displaystyle y} f {\displaystyle f} y {\displaystyle y}

Смотрите также

Ссылки

  1. ^ Альварес, Маурисио А.; Росаско, Лоренцо; Лоуренс, Нил Д. (июнь 2011 г.). «Ядра для векторнозначных функций: обзор». arXiv : 1106.6251 [stat.ML].
  2. ^ abcd Вапник, Владимир (1998). Статистическая теория обучения. Wiley. ISBN 9780471030034.
  3. ^ abc Wahba, Grace (1990). Сплайновые модели для данных наблюдений . SIAM.
  4. ^ Schölkopf, Bernhard; Smola, Alexander J. (2002). Обучение с помощью ядер: машины опорных векторов, регуляризация, оптимизация и не только . MIT Press. ISBN 9780262194754.
  5. ^ ab Girosi, F.; Poggio, T. (1990). "Сети и свойство наилучшего приближения" (PDF) . Биологическая кибернетика . 63 (3). Springer: 169– 176. doi :10.1007/bf00195855. hdl : 1721.1/6017 . S2CID  18824241.
  6. ^ Ароншайн, Н (май 1950). «Теория воспроизводства ядер». Труды Американского математического общества . 68 (3): 337– 404. doi : 10.2307/1990404 . JSTOR  1990404.
  7. ^ Шварц, Лоран (1964). «Sous-espaces hilbertiens d'espaces vectoriels topologiques et noyaux associés (noyaux reproduisants)». Журнал Математического Анализа . 13 (1). Спрингер: 115–256 . doi : 10.1007/bf02786620. S2CID  117202393.
  8. ^ Cucker, Felipe; Smale, Steve (5 октября 2001 г.). «О математических основах обучения». Бюллетень Американского математического общества . 39 (1): 1– 49. doi : 10.1090/s0273-0979-01-00923-5 .
  9. ^ Кимельдорф, Джордж С.; Вахба, Грейс (1970). «Соответствие между байесовской оценкой стохастических процессов и сглаживанием сплайнами». Анналы математической статистики . 41 (2): 495– 502. doi : 10.1214/aoms/1177697089 .
  10. ^ Schölkopf, Bernhard; Herbrich, Ralf; Smola, Alex J. (2001). "A Generalized Representer Theorem". Computational Learning Theory . Lecture Notes in Computer Science. Vol. 2111/2001. pp.  416– 426. doi :10.1007/3-540-44581-1_27. ISBN 978-3-540-42343-0.
  11. ^ Де Вито, Эрнесто; Росаско, Лоренцо; Капоннетто, Андреа; Пиана, Микеле; Верри, Алессандро (октябрь 2004 г.). «Некоторые свойства регуляризованных ядерных методов». Журнал исследований машинного обучения . 5 : 1363–1390 .
  12. ^ ab Rasmussen, Carl Edward; Williams, Christopher KI (2006). Гауссовские процессы для машинного обучения. MIT Press. ISBN 0-262-18253-X.
  13. ^ Хуан, Юньфэй.; и др. (2019). «Микроскопия силы тяги с оптимизированной регуляризацией и автоматизированным выбором байесовских параметров для сравнения клеток». Scientific Reports . 9 (1): 537. arXiv : 1810.05848 . Bibcode :2019NatSR...9..539H. doi : 10.1038/s41598-018-36896-x . PMC 6345967 . PMID  30679578. 
Retrieved from "https://en.wikipedia.org/w/index.php?title=Bayesian_interpretation_of_kernel_regularization&oldid=1258736266"