Функция роста

Функция роста , также называемая коэффициентом разрушения или числом разрушения , измеряет богатство семейства множеств или класса функций. Она особенно используется в контексте статистической теории обучения , где она применяется для изучения свойств методов статистического обучения. Термин «функция роста» был придуман Вапником и Червоненкисом в их статье 1968 года, где они также доказали многие из ее свойств. [1] Это базовая концепция в машинном обучении . [2] [3]

Определения

Определение семейства наборов

Пусть — семейство множеств (множество множеств) и множество. Их пересечение определяется как следующее множество-семейство: ЧАС {\displaystyle H} С {\displaystyle С}

ЧАС С := { час С час ЧАС } {\displaystyle H\cap C:=\{h\cap C\mid h\in H\}}

Размер пересечения (также называемый индексом ) относительно равен . Если множество содержит элементы, то индекс не превышает . Если индекс равен ровно 2 м , то говорят, что множество разбито , поскольку содержит все подмножества , то есть: ЧАС {\displaystyle H} С {\displaystyle С} | ЧАС С | {\displaystyle |H\cap C|} С м {\displaystyle C_{м}} м {\displaystyle м} 2 м {\displaystyle 2^{м}} С {\displaystyle С} ЧАС {\displaystyle H} ЧАС С {\displaystyle H\cap C} С {\displaystyle С}

| ЧАС С | = 2 | С | , {\displaystyle |H\cap C|=2^{|C|},}

Функция роста измеряет размер как функцию от . Формально: ЧАС С {\displaystyle H\cap C} | С | {\displaystyle |С|}

Рост ( ЧАС , м ) := макс С : | С | = м | ЧАС С | {\displaystyle \operatorname {Рост} (H,m):=\max _{C:|C|=m}|H\cap C|}

Определение класса гипотез

Эквивалентно, пусть будет классом гипотез (множеством бинарных функций) и множеством с элементами. Ограничение на — это множество бинарных функций на , которое может быть получено из : [3] : 45  ЧАС {\displaystyle H} С {\displaystyle С} м {\displaystyle м} ЧАС {\displaystyle H} С {\displaystyle С} С {\displaystyle С} ЧАС {\displaystyle H}

ЧАС С := { ( час ( х 1 ) , , час ( х м ) ) час ЧАС , х я С } {\displaystyle H_{C}:=\{(h(x_{1}),\ldots ,h(x_{m}))\mid h\in H,x_{i}\in C\}}

Функция роста измеряет размер как функцию : [3] : 49  ЧАС С {\displaystyle H_{C}} | С | {\displaystyle |С|}

Рост ( ЧАС , м ) := макс С : | С | = м | ЧАС С | {\displaystyle \operatorname {Рост} (H,m):=\max _{C:|C|=m}|H_{C}|}

Примеры

1. Область определения — это вещественная прямая . Семейство множеств содержит все полупрямые (лучи) от заданного числа до положительной бесконечности, т. е. все множества вида для некоторого . Для любого множества вещественных чисел пересечение содержит множества: пустое множество, множество, содержащее наибольший элемент , множество, содержащее два наибольших элемента , и так далее. Следовательно: . [1] : Пример 1  То же самое верно и для случая, когда содержит открытые полупрямые, закрытые полупрямые или и то, и другое. Р {\displaystyle \mathbb {R} } ЧАС {\displaystyle H} { х > х 0 х Р } {\displaystyle \{x>x_{0}\mid x\in \mathbb {R} \}} х 0 Р {\displaystyle x_{0}\in \mathbb {R} } С {\displaystyle С} м {\displaystyle м} ЧАС С {\displaystyle H\cap C} м + 1 {\displaystyle м+1} С {\displaystyle С} С {\displaystyle С} Рост ( ЧАС , м ) = м + 1 {\displaystyle \operatorname {Рост} (H,m)=m+1} ЧАС {\displaystyle H}

2. Область — это сегмент . Множество-семейство содержит все открытые множества. Для любого конечного множества действительных чисел пересечение содержит все возможные подмножества . Такие подмножества существуют , поэтому . [1] : Пример 2  [ 0 , 1 ] {\displaystyle [0,1]} H {\displaystyle H} C {\displaystyle C} m {\displaystyle m} H C {\displaystyle H\cap C} C {\displaystyle C} 2 m {\displaystyle 2^{m}} Growth ( H , m ) = 2 m {\displaystyle \operatorname {Growth} (H,m)=2^{m}}

3. Область — это евклидово пространство . Множество-семейство содержит все полупространства вида: , где — фиксированный вектор. Тогда , где Comp — число компонент в разбиении n-мерного пространства m гиперплоскостями . [1] : Пример 3  R n {\displaystyle \mathbb {R} ^{n}} H {\displaystyle H} x ϕ 1 {\displaystyle x\cdot \phi \geq 1} ϕ {\displaystyle \phi } Growth ( H , m ) = Comp ( n , m ) {\displaystyle \operatorname {Growth} (H,m)=\operatorname {Comp} (n,m)}

4. Область определения — это вещественная линия . Семейство множеств содержит все вещественные интервалы, т. е. все множества вида для некоторого . Для любого множества вещественных чисел пересечение содержит все серии от 0 до последовательных элементов . Число таких серий равно , поэтому . R {\displaystyle \mathbb {R} } H {\displaystyle H} { x [ x 0 , x 1 ] | x R } {\displaystyle \{x\in [x_{0},x_{1}]|x\in \mathbb {R} \}} x 0 , x 1 R {\displaystyle x_{0},x_{1}\in \mathbb {R} } C {\displaystyle C} m {\displaystyle m} H C {\displaystyle H\cap C} m {\displaystyle m} C {\displaystyle C} ( m + 1 2 ) + 1 {\displaystyle {m+1 \choose 2}+1} Growth ( H , m ) = ( m + 1 2 ) + 1 {\displaystyle \operatorname {Growth} (H,m)={m+1 \choose 2}+1}

Полиномиальный или экспоненциальный

Главное свойство, делающее функцию роста интересной, заключается в том, что она может быть либо полиномиальной, либо экспоненциальной — ничего промежуточного.

Следующее является свойством размера пересечения: [1] : Лем.1 

  • Если для некоторого набора размеров и для некоторого числа , - C m {\displaystyle C_{m}} m {\displaystyle m} n m {\displaystyle n\leq m} | H C m | Comp ( n , m ) {\displaystyle |H\cap C_{m}|\geq \operatorname {Comp} (n,m)}
  • тогда существует подмножество размера такое, что . C n C m {\displaystyle C_{n}\subseteq C_{m}} n {\displaystyle n} | H C n | = 2 n {\displaystyle |H\cap C_{n}|=2^{n}}

Это подразумевает следующее свойство функции роста. [1] : Th.1  Для каждого семейства возможны два случая: H {\displaystyle H}

  • Экспоненциальный случай : тождественно. Growth ( H , m ) = 2 m {\displaystyle \operatorname {Growth} (H,m)=2^{m}}
  • Случай полинома : мажорируется по , где — наименьшее целое число, для которого . Growth ( H , m ) {\displaystyle \operatorname {Growth} (H,m)} Comp ( n , m ) m n + 1 {\displaystyle \operatorname {Comp} (n,m)\leq m^{n}+1} n {\displaystyle n} Growth ( H , n ) < 2 n {\displaystyle \operatorname {Growth} (H,n)<2^{n}}

Другие свойства

Тривиальная верхняя граница

Для любого конечного : H {\displaystyle H}

Growth ( H , m ) | H | {\displaystyle \operatorname {Growth} (H,m)\leq |H|}

поскольку для каждого число элементов в не более . Поэтому функция роста в основном интересна, когда бесконечна. C {\displaystyle C} H C {\displaystyle H\cap C} | H | {\displaystyle |H|} H {\displaystyle H}

Экспоненциальная верхняя граница

Для любого непустого : H {\displaystyle H}

Growth ( H , m ) 2 m {\displaystyle \operatorname {Growth} (H,m)\leq 2^{m}}

То есть функция роста имеет экспоненциальную верхнюю границу.

Мы говорим, что множество-семейство разбивает множество , если их пересечение содержит все возможные подмножества , т. е . Если разбивает множество размера , то , что является верхней границей. H {\displaystyle H} C {\displaystyle C} C {\displaystyle C} H C = 2 C {\displaystyle H\cap C=2^{C}} H {\displaystyle H} C {\displaystyle C} m {\displaystyle m} Growth ( H , C ) = 2 m {\displaystyle \operatorname {Growth} (H,C)=2^{m}}

Декартово пересечение

Определим декартово пересечение двух семейств множеств как:

H 1 H 2 := { h 1 h 2 h 1 H 1 , h 2 H 2 } {\displaystyle H_{1}\bigotimes H_{2}:=\{h_{1}\cap h_{2}\mid h_{1}\in H_{1},h_{2}\in H_{2}\}} .

Тогда: [2] : 57 

Growth ( H 1 H 2 , m ) Growth ( H 1 , m ) Growth ( H 2 , m ) {\displaystyle \operatorname {Growth} (H_{1}\bigotimes H_{2},m)\leq \operatorname {Growth} (H_{1},m)\cdot \operatorname {Growth} (H_{2},m)}

Союз

Для каждых двух семейств наборов: [2] : 58 

Growth ( H 1 H 2 , m ) Growth ( H 1 , m ) + Growth ( H 2 , m ) {\displaystyle \operatorname {Growth} (H_{1}\cup H_{2},m)\leq \operatorname {Growth} (H_{1},m)+\operatorname {Growth} (H_{2},m)}

Измерение ВК

Измерение VC определяется в соответствии со следующими двумя случаями: H {\displaystyle H}

  • В случае полинома = наибольшее целое число, для которого . VCDim ( H ) = n 1 {\displaystyle \operatorname {VCDim} (H)=n-1} d {\displaystyle d} Growth ( H , d ) = 2 d {\displaystyle \operatorname {Growth} (H,d)=2^{d}}
  • В экспоненциальном случае . VCDim ( H ) = {\displaystyle \operatorname {VCDim} (H)=\infty }

Так что если-и-только-если . VCDim ( H ) d {\displaystyle \operatorname {VCDim} (H)\geq d} Growth ( H , d ) = 2 d {\displaystyle \operatorname {Growth} (H,d)=2^{d}}

Функцию роста можно рассматривать как уточнение концепции размерности VC. Размерность VC говорит нам только о том, равно ли или меньше , тогда как функция роста говорит нам, как именно изменяется в зависимости от . Growth ( H , d ) {\displaystyle \operatorname {Growth} (H,d)} 2 d {\displaystyle 2^{d}} Growth ( H , m ) {\displaystyle \operatorname {Growth} (H,m)} m {\displaystyle m}

Другая связь между функцией роста и размерностью VC задается леммой Зауэра–Шелаха : [3] : 49 

Если , то: VCDim ( H ) = d {\displaystyle \operatorname {VCDim} (H)=d}
для всех : m {\displaystyle m} Growth ( H , m ) i = 0 d ( m i ) {\displaystyle \operatorname {Growth} (H,m)\leq \sum _{i=0}^{d}{m \choose i}}

В частности,

для всех : m > d + 1 {\displaystyle m>d+1} Growth ( H , m ) ( e m / d ) d = O ( m d ) {\displaystyle \operatorname {Growth} (H,m)\leq (em/d)^{d}=O(m^{d})}
поэтому, когда размерность VC конечна, функция роста растет полиномиально с . m {\displaystyle m}

Эта верхняя граница точна, т.е. для всех существует с размерностью VC такое, что: [2] : 56  m > d {\displaystyle m>d} H {\displaystyle H} d {\displaystyle d}

Growth ( H , m ) = i = 0 d ( m i ) {\displaystyle \operatorname {Growth} (H,m)=\sum _{i=0}^{d}{m \choose i}}

Энтропия

В то время как функция роста связана с максимальным размером пересечения, энтропия связана со средним размером пересечения: [1] : 272–273 

Entropy ( H , m ) = E | C m | = m [ log 2 ( | H C m | ) ] {\displaystyle \operatorname {Entropy} (H,m)=E_{|C_{m}|=m}{\big [}\log _{2}(|H\cap C_{m}|){\big ]}}

Размер пересечения имеет следующее свойство. Для каждого семейства множеств : H {\displaystyle H}

| H ( C 1 C 2 ) | | H C 1 | | H C 2 | {\displaystyle |H\cap (C_{1}\cup C_{2})|\leq |H\cap C_{1}|\cdot |H\cap C_{2}|}

Следовательно:

Entropy ( H , m 1 + m 2 ) Entropy ( H , m 1 ) + Entropy ( H , m 2 ) {\displaystyle \operatorname {Entropy} (H,m_{1}+m_{2})\leq \operatorname {Entropy} (H,m_{1})+\operatorname {Entropy} (H,m_{2})}

Более того, последовательность сходится к константе, когда . Entropy ( H , m ) / m {\displaystyle \operatorname {Entropy} (H,m)/m} c [ 0 , 1 ] {\displaystyle c\in [0,1]} m {\displaystyle m\to \infty }

Более того, случайная величина концентрируется вблизи . log 2 | H C m | / m {\displaystyle \log _{2}{|H\cap C_{m}|/m}} c {\displaystyle c}

Приложения в теории вероятностей

Пусть будет множеством, на котором определена вероятностная мера . Пусть будет семейством подмножеств (= семейством событий). Ω {\displaystyle \Omega } Pr {\displaystyle \Pr } H {\displaystyle H} Ω {\displaystyle \Omega }

Предположим, что мы выбираем набор , содержащий элементы , где каждый элемент выбирается случайным образом в соответствии с мерой вероятности , независимо от других (т.е. с заменами). Для каждого события мы сравниваем следующие две величины: C m {\displaystyle C_{m}} m {\displaystyle m} Ω {\displaystyle \Omega } P {\displaystyle P} h H {\displaystyle h\in H}

  • Его относительная частота в , т.е. ; C m {\displaystyle C_{m}} | h C m | / m {\displaystyle |h\cap C_{m}|/m}
  • Его вероятность . Pr [ h ] {\displaystyle \Pr[h]}

Нас интересует разность, . Эта разность удовлетворяет следующей верхней границе: D ( h , C m ) := | | h C m | / m Pr [ h ] | {\displaystyle D(h,C_{m}):={\big |}|h\cap C_{m}|/m-\Pr[h]{\big |}}

Pr [ h H : D ( h , C m ) 8 ( ln Growth ( H , 2 m ) + ln ( 4 / δ ) ) m ]         >         1 δ {\displaystyle \Pr \left[\forall h\in H:D(h,C_{m})\leq {\sqrt {8(\ln \operatorname {Growth} (H,2m)+\ln(4/\delta )) \over m}}\right]~~~~>~~~~1-\delta }

что эквивалентно: [1] : Th.2 

Pr [ h H : D ( h , C m ) ε ]         >         1 4 Growth ( H , 2 m ) exp ( ε 2 m / 8 ) {\displaystyle \Pr {\big [}\forall h\in H:D(h,C_{m})\leq \varepsilon {\big ]}~~~~>~~~~1-4\cdot \operatorname {Growth} (H,2m)\cdot \exp(-\varepsilon ^{2}\cdot m/8)}

Другими словами: вероятность того, что для всех событий в относительная частота близка к вероятности, ограничена снизу выражением, которое зависит от функции роста . H {\displaystyle H} H {\displaystyle H}

Следствием этого является то, что если функция роста является полиномиальной по (т.е. существует такая , что ), то указанная выше вероятность стремится к 1 при . Т.е. семейство обладает равномерной сходимостью по вероятности . m {\displaystyle m} n {\displaystyle n} Growth ( H , m ) m n + 1 {\displaystyle \operatorname {Growth} (H,m)\leq m^{n}+1} m {\displaystyle m\to \infty } H {\displaystyle H}

Ссылки

  1. ^ abcdefgh Вапник, В. Н.; Червоненкис, А. Я. (1971). "О равномерной сходимости относительных частот событий к их вероятностям". Теория вероятностей и ее приложения . 16 (2): 264. doi :10.1137/1116025.Это английский перевод, сделанный Б. Секлером, русской статьи: "О равномерной сходимости относительных частот событий к их вероятностям". Докл. АН . 181 (4): 781. 1968.Перевод был воспроизведен как: Вапник, В. Н.; Червоненкис, А. Я. (2015). "О равномерной сходимости относительных частот событий к их вероятностям". Меры сложности . стр. 11. doi :10.1007/978-3-319-21852-6_3. ISBN 978-3-319-21851-9.
  2. ^ abcd Mohri, Mehryar ; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Основы машинного обучения . США, Массачусетс: MIT Press. ISBN 9780262018258., особенно раздел 3.2
  3. ^ abcd Шалев-Шварц, Шай; Бен-Дэвид, Шай (2014). Понимание машинного обучения – от теории к алгоритмам . Cambridge University Press. ISBN 9781107057135.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Growth_function&oldid=1246883863"