Вероятностные числа

Научное направление на стыке статистики, машинного обучения и прикладной математики

Вероятностная численность — это активное направление исследований на стыке прикладной математики , статистики и машинного обучения, сосредоточенное на концепции неопределенности в вычислениях . В вероятностной численности задачи численного анализа , такие как поиск численных решений для интегрирования , линейной алгебры , оптимизации и моделирования, а также дифференциальных уравнений, рассматриваются как проблемы статистического, вероятностного или байесовского вывода . [1] [2] [3] [4] [5]

Введение

Численный метод — это алгоритм, который аппроксимирует решение математической задачи (примеры ниже включают решение линейной системы уравнений, значение интеграла, решение дифференциального уравнения, минимум многомерной функции). В вероятностном численном алгоритме этот процесс аппроксимации рассматривается как проблема оценки , вывода или обучения и реализуется в рамках вероятностного вывода (часто, но не всегда, байесовского вывода ). [6]

Формально это означает приведение настройки вычислительной задачи в терминах априорного распределения , формулирование связи между числами, вычисляемыми компьютером (например, умножениями матрицы на вектор в линейной алгебре, градиентами в оптимизации, значениями подынтегрального выражения или векторного поля, определяющего дифференциальное уравнение), и рассматриваемой величиной (решением линейной задачи, минимумом, интегралом, кривой решения) в функции правдоподобия , и возврат апостериорного распределения в качестве выходных данных. В большинстве случаев численные алгоритмы также принимают внутренние адаптивные решения о том, какие числа вычислять, что формирует активную задачу обучения .

Многие из самых популярных классических численных алгоритмов могут быть переосмыслены в вероятностной структуре. Это включает в себя метод сопряженных градиентов , [7] [8] [9] методы Нордсика , квадратурные правила Гаусса , [10] и квазиньютоновские методы . [11] Во всех этих случаях классический метод основан на регуляризованной оценке наименьших квадратов , которая может быть связана с апостериорным средним, возникающим из гауссовского априорного распределения и правдоподобия. В таких случаях дисперсия гауссовского апостериорного распределения затем связана с оценкой наихудшего случая для квадратичной ошибки.

Вероятностные численные методы обещают несколько концептуальных преимуществ по сравнению с классическими методами аппроксимации, основанными на точечной оценке:

  • Они возвращают структурированные оценки ошибок (в частности, возможность возвращать совместные апостериорные выборки, т.е. множественные реалистичные гипотезы для истинного неизвестного решения проблемы)
  • Иерархический байесовский вывод можно использовать для установки и управления внутренними гиперпараметрами в таких методах в общем виде, вместо того, чтобы заново изобретать новые методы для каждого параметра.
  • Поскольку они используют и допускают явное правдоподобие, описывающее связь между вычисленными числами и целевой величиной, вероятностные численные методы могут использовать результаты даже очень неточных, предвзятых и стохастических вычислений. [12] И наоборот, вероятностные численные методы могут также обеспечивать правдоподобие в вычислениях, которые в других местах часто считаются « свободными от правдоподобия » [13]
  • Поскольку все вероятностные численные методы по сути используют один и тот же тип данных – вероятностные меры – для количественной оценки неопределенности как входных, так и выходных данных, их можно объединять вместе для распространения неопределенности на крупномасштабные составные вычисления.
  • Источники из нескольких источников информации (например, алгебраические, механистические знания о форме дифференциального уравнения и наблюдения траектории системы, собранные в физическом мире) могут быть объединены естественным образом и внутри внутреннего цикла алгоритма, удаляя в противном случае необходимые вложенные циклы в вычислениях, например, в обратных задачах . [14]

Эти преимущества по сути эквивалентны аналогичным функциональным преимуществам, которыми обладают байесовские методы по сравнению с точечными оценками в машинном обучении, примененными или перенесенными в вычислительную область.

Числовые задачи

Интеграция

Байесовская квадратура с гауссовым процессом, обусловленным оценками подынтегральной функции (показано черным). Затененные области в левом столбце иллюстрируют предельные стандартные отклонения. Правый рисунок показывает априорное ( ) и апостериорное ( ) гауссовское распределение по значению интеграла, а также истинное решение. н = 0 , 3 ,   и   8 {\displaystyle n=0,3,\ {\text{и}}\ 8} н = 0 {\displaystyle n=0} н = 3 , 8 {\displaystyle n=3,8}

Для задачи численного интегрирования были разработаны вероятностные численные методы , наиболее популярный из которых называется байесовской квадратурой . [15] [16] [17] [18]

При численном интегрировании оценки функции в ряде точек используются для оценки интеграла функции по некоторой мере . Байесовская квадратура состоит из указания априорного распределения по и обуславливания этого априорного распределения для получения апостериорного распределения по , а затем вычисления подразумеваемого апостериорного распределения по . Наиболее распространенным выбором априорного распределения является гауссовский процесс , поскольку он позволяет нам получить замкнутое апостериорное распределение по интегралу, которое является одномерным гауссовым распределением. Байесовская квадратура особенно полезна, когда функция требует больших затрат на оценку, а размерность данных мала или умеренна. ф ( х 1 ) , , ф ( х н ) {\displaystyle f(x_{1}),\ldots ,f(x_{n})} х 1 , , х н {\displaystyle x_{1},\ldots ,x_{n}} ф ( х ) ν ( г х ) {\ displaystyle \ textstyle \ int f (x) \ nu (dx)} ф {\displaystyle f} ν {\displaystyle \nu} ф {\displaystyle f} ф ( х 1 ) , , ф ( х н ) {\displaystyle f(x_{1}),\ldots ,f(x_{n})} ф {\displaystyle f} ф ( х ) ν ( г х ) {\ displaystyle \ textstyle \ int f (x) \ nu (dx)} ф {\displaystyle f}

Оптимизация

Байесовская оптимизация функции (черная) с гауссовыми процессами (фиолетовая). Три функции получения (синие) показаны внизу. [19]

Вероятностные числа также изучались для математической оптимизации , которая заключается в нахождении минимума или максимума некоторой целевой функции по заданным (возможно, зашумленным или косвенным) оценкам этой функции в наборе точек. ф {\displaystyle f}

Возможно, наиболее заметным усилием в этом направлении является байесовская оптимизация [20], общий подход к оптимизации, основанный на байесовском выводе. Алгоритмы байесовской оптимизации работают, поддерживая вероятностное убеждение на протяжении всей процедуры оптимизации; это часто принимает форму гауссовского процесса, априорно обусловленного наблюдениями. Затем это убеждение направляет алгоритм в получении наблюдений, которые, вероятно, продвинут процесс оптимизации. Политики байесовской оптимизации обычно реализуются путем преобразования целевой функции апостериорно в недорогую, дифференцируемую функцию приобретения , которая максимизируется для выбора каждого последующего местоположения наблюдения. Одним из известных подходов является оптимизация моделирования с помощью байесовского последовательного экспериментального дизайна , стремящегося получить последовательность наблюдений, дающую наибольший прогресс оптимизации, оцениваемый соответствующей функцией полезности . Желательным побочным эффектом этого подхода является то, что неопределенность в целевой функции, измеряемая базовым вероятностным убеждением, может направлять политику оптимизации при решении классического компромисса между разведкой и эксплуатацией . ф {\displaystyle f}

Локальная оптимизация

Вероятностные численные методы были разработаны в контексте стохастической оптимизации для глубокого обучения , в частности, для решения основных проблем, таких как настройка скорости обучения и линейный поиск , [21] выбор размера партии, [22] ранняя остановка , [23] обрезка, [24] и направления поиска первого и второго порядка. [25] [26]

В этой настройке целью оптимизации часто является эмпирический риск формы, определяемой набором данных , и потеря , которая количественно определяет, насколько хорошо прогностическая модель, параметризованная с помощью, выполняет прогнозирование цели из соответствующего ей ввода . Эпистемическая неопределенность возникает, когда размер набора данных велик и не может быть обработан сразу, что означает, что локальные величины (при некотором ), такие как сама функция потерь или ее градиент, не могут быть вычислены за разумное время. Следовательно, обычно мини-пакетирование используется для построения оценок этих величин на случайном подмножестве данных. Вероятностные численные методы явно моделируют эту неопределенность и позволяют принимать автоматизированные решения и настраивать параметры. Л ( θ ) = 1 Н н = 1 Н ( у н , ф θ ( х н ) ) {\displaystyle \textstyle L(\theta)={\frac {1}{N}}\sum _{n=1}^{N}\ell (y_{n},f_{\theta }(x_{n })))} Д = { ( х н , у н ) } н = 1 Н {\displaystyle \textstyle {\mathcal {D}}=\{(x_{n},y_{n})\}_{n=1}^{N}} ( у , ф θ ( х ) ) {\displaystyle \ell (y,f_{\theta }(x))} ф θ ( х ) {\displaystyle f_{\theta }(x)} θ {\displaystyle \тета} у {\displaystyle у} х {\displaystyle x} Н {\displaystyle N} θ {\displaystyle \тета} Л ( θ ) {\displaystyle L(\theta)} Л ( θ ) {\ displaystyle \ nabla L (\ theta)}

Линейная алгебра

Вероятностные численные методы линейной алгебры [7] [8] [27] [9] [28] [29] в первую очередь были сосредоточены на решении систем линейных уравнений вида и вычислении определителей . [30] [31] А х = б {\displaystyle Ах=b} | А | {\displaystyle |А|}

Иллюстрация вероятностного линейного решателя на основе матрицы. [9]

Большой класс методов является итеративным по своей природе и собирает информацию о линейной системе, которая должна быть решена посредством повторного умножения матрицы на вектор с матрицей системы с различными векторами . Такие методы можно грубо разделить на решение- [8] [28] и матричную перспективу, [7] [9] в зависимости от того, выражается ли убеждение по решению линейной системы или (псевдо-)обратной матрицы . Обновление убеждения использует то, что выведенный объект связан с умножением матриц или через и . Методы обычно предполагают гауссовское распределение из-за его замкнутости при линейных наблюдениях за задачей. Хотя концептуально они различны, эти два представления вычислительно эквивалентны и по своей сути связаны через правую часть через . [27] в А в {\displaystyle v\mapsto Av} А {\displaystyle А} в {\displaystyle v} х {\displaystyle x} ЧАС = А {\displaystyle H=A^{\dagger}} у = А в {\displaystyle y=Av} з = А в {\displaystyle z=A^{\intercal }v} б з = х в {\displaystyle b^{\intercal }z=x^{\intercal }v} в = А 1 у {\displaystyle v=A^{-1}y} х = А 1 б {\displaystyle x=A^{-1}b}

Вероятностные числовые процедуры линейной алгебры были успешно применены для масштабирования гауссовых процессов в больших наборах данных. [31] [32] В частности, они позволяют точно распространять ошибку аппроксимации на объединенный гауссовский процесс апостериорно, что количественно определяет неопределенность, возникающую как из-за конечного числа наблюдаемых данных , так и из-за конечного объема затраченных вычислений . [32]

Обыкновенные дифференциальные уравнения

Выборки из первого компонента численного решения системы Лоренца, полученные с помощью вероятностного численного интегратора. [33]

Вероятностные численные методы для обыкновенных дифференциальных уравнений были разработаны для начальных и граничных задач. Было предложено много различных вероятностных численных методов, разработанных для обыкновенных дифференциальных уравнений, и их можно в целом сгруппировать в две следующие категории: у ˙ ( т ) = ф ( т , у ( т ) ) {\displaystyle {\dot {y}}(t)=f(t,y(t))}

  • Рандомизированные методы определяются посредством случайных возмущений стандартных детерминированных численных методов для обыкновенных дифференциальных уравнений. Например, это было достигнуто путем добавления гауссовых возмущений к решению одношаговых интеграторов [33] или путем случайного возмущения их временного шага. [34] Это определяет вероятностную меру решения дифференциального уравнения, которая может быть выбрана.
  • Методы регрессии гауссовского процесса основаны на постановке задачи решения дифференциального уравнения как задачи регрессии гауссовского процесса, интерпретируя оценки правой части как данные о производной. [35] Эти методы напоминают байесовскую кубатуру, но используют различные и часто нелинейные модели наблюдения. [36] [37] В младенчестве этот класс методов был основан на наивной регрессии гауссовского процесса . Позднее это было улучшено (с точки зрения эффективных вычислений) в пользу априорных данных Гаусса–Маркова [38] [39], смоделированных стохастическим дифференциальным уравнением , где — -мерный вектор, моделирующий первые производные , и где — -мерное броуновское движение . Таким образом, вывод может быть эффективно реализован с помощью методов, основанных на фильтрации Калмана . г х ( т ) = А х ( т ) г т + Б г в ( т ) {\displaystyle \mathrm {d} x(t)=Ax(t)\,\mathrm {d} t+B\,\mathrm {d} v(t)} х ( т ) {\displaystyle x(t)} ν {\displaystyle \nu} ν {\displaystyle \nu} у ( т ) {\displaystyle y(t)} в ( т ) {\displaystyle v(t)} ν {\displaystyle \nu}

Граница между этими двумя категориями не является резкой, на самом деле был также разработан подход регрессии гауссовского процесса, основанный на рандомизированных данных. [40] Эти методы были применены к задачам вычислительной римановой геометрии, [41] обратным задачам, моделям скрытых сил и дифференциальным уравнениям с геометрической структурой, такой как симплектичность.

Уравнения с частными производными

Для уравнений с частными производными также был предложен ряд вероятностных численных методов . Как и в случае с обыкновенными дифференциальными уравнениями, подходы можно в целом разделить на те, которые основаны на рандомизации, как правило, некоторой базовой сетки конечных элементов [33] [42], и те, которые основаны на регрессии гауссовского процесса. [4] [3] [43] [44]

Обучение решению уравнения с частными производными. Гауссовский процесс, специфичный для конкретной задачи , обусловлен частично известной физикой, заданной неопределенными граничными условиями (BC) и линейным PDE, а также зашумленными физическими измерениями из эксперимента. Граничные условия и правая часть PDE неизвестны, но выведены из небольшого набора измерений, искаженных шумом. Графики сопоставляют убеждение с истинным решением скрытой граничной задачи. [44] ты {\displaystyle u} ты {\displaystyle u\mid \cdots } ты {\displaystyle u^{\star}}

Вероятностные числовые решатели уравнений в частных производных, основанные на регрессии гауссовского процесса, восстанавливают классические методы на линейных уравнениях в частных производных для определенных априорных данных, в частности методы средневзвешенных остатков , которые включают методы Галеркина , методы конечных элементов , а также спектральные методы . [44]

Взаимодействие между численным анализом и вероятностью затрагивается рядом других областей математики, включая анализ среднего случая численных методов, информационную сложность , теорию игр и статистическую теорию принятия решений . Предшественники того, что сейчас называется «вероятностной численностью», могут быть найдены еще в конце 19-го и начале 20-го века.

Истоки вероятностной численной теории можно проследить до обсуждения вероятностных подходов к полиномиальной интерполяции Анри Пуанкаре в его «Исчислении вероятностей» . [45] В современной терминологии Пуанкаре рассмотрел гауссово априорное распределение функции , выраженное в виде формального степенного ряда со случайными коэффициентами, и запросил «вероятные значения» с учетом этого априорного распределения и наблюдений для . ф : Р Р {\displaystyle f\двоеточие \mathbb {R} \to \mathbb {R} } ф ( х ) {\displaystyle f(x)} н Н {\displaystyle n\in \mathbb {N} } ф ( а я ) = Б я {\displaystyle f(a_{i})=B_{i}} я = 1 , , н {\displaystyle i=1,\точки,n}

Более поздний основополагающий вклад во взаимодействие численного анализа и вероятности был сделан Альбертом Сулдином в контексте одномерной квадратуры . [46] Статистическая проблема, рассмотренная Сулдином, представляла собой аппроксимацию определенного интеграла функции при броуновском движении до , имея доступ к поточечной оценке в узлах . Сулдин показал, что для заданных квадратурных узлов квадратурное правило с минимальной среднеквадратической ошибкой является правилом трапеции ; более того, эта минимальная ошибка пропорциональна сумме кубов межузловых расстояний. В результате можно рассматривать правило трапеции с равноотстоящими узлами как статистически оптимальное в некотором смысле — ранний пример анализа среднего случая численного метода. Точка зрения Сулдина была позже расширена Майком Ларкиным. [47] Обратите внимание, что броуновское движение Сулдина до подынтегрального выражения является гауссовой мерой , а операции интегрирования и поточечной оценки являются линейными отображениями . Таким образом, определенный интеграл является действительной гауссовой случайной величиной. В частности, после обработки наблюдаемых точечных значений , он следует нормальному распределению со средним значением, равным правилу трапеций, и дисперсией, равной . Эта точка зрения очень близка к точке зрения байесовской квадратуры , рассматривая вывод квадратурного метода не просто как точечную оценку, но и как распределение вероятностей само по себе. ты ( т ) г т {\displaystyle \textstyle \int u(t)\,\mathrm {d} t} ты : [ а , б ] Р {\displaystyle u\двоеточие [a,b]\to \mathbb {R} } ты {\displaystyle u} ты {\displaystyle u} т 1 , , т н [ а , б ] {\displaystyle t_{1},\dots ,t_{n}\in [a,b]} ты {\displaystyle u} ты {\displaystyle u} ты ( т ) г т {\displaystyle \textstyle \int u(t)\,\mathrm {d} t} ты {\displaystyle u} 1 12 я = 2 н ( т я т я 1 ) 3 {\displaystyle \textstyle {\frac {1}{12}}\sum _{i=2}^{n}(t_{i}-t_{i-1})^{3}}

Как отметили Хоуман Овади и его коллеги, [3] [48] взаимодействие между численным приближением и статистическим выводом можно также проследить до Паласти и Реньи, [49] Сарда, [50] Кимельдорфа и Вахбы [51] (о соответствии между байесовской оценкой и сглаживанием/интерполяцией сплайнов) и Ларкина [47] (о соответствии между регрессией гауссовского процесса и численным приближением). Хотя подход моделирования идеально известной функции как выборки из случайного процесса может показаться нелогичным, естественную основу для его понимания можно найти в сложности на основе информации (IBC), [52] ветви вычислительной сложности, основанной на наблюдении, что численная реализация требует вычислений с частичной информацией и ограниченными ресурсами. В IBC производительность алгоритма, работающего с неполной информацией, можно проанализировать в худшем или среднем случае (рандомизированном) с учетом отсутствующей информации. Более того, как заметил Пакель [53] , настройка среднего случая может быть интерпретирована как смешанная стратегия в состязательной игре, полученной путем подъема (худшего случая) проблемы минимакса до проблемы минимакса над смешанными (рандомизированными) стратегиями. Это наблюдение приводит к естественной связи [54] [3] между численным приближением и теорией принятия решений Вальда , очевидно, на которую повлияла теория игр фон Неймана . Чтобы описать эту связь, рассмотрим настройку оптимального восстановления Миккелли и Ривлина [55] , в которой пытаются аппроксимировать неизвестную функцию из конечного числа линейных измерений этой функции. Интерпретируя эту задачу оптимального восстановления как игру с нулевой суммой, где Игрок I выбирает неизвестную функцию, а Игрок II выбирает ее приближение, и используя относительные ошибки в квадратичной норме для определения потерь, гауссовы априорные вероятности возникают [3] как оптимальные смешанные стратегии для таких игр, а оператор ковариации оптимального гауссова априорного вероятности определяется квадратичной нормой, используемой для определения относительной ошибки восстановления.

Программное обеспечение

  • ProbNum: вероятностные числа на Python.
  • ProbNumDiffEq.jl: Вероятностные численные решатели ОДУ на основе фильтрации, реализованной в Julia.
  • Emukit: адаптируемый набор инструментов Python для принятия решений в условиях неопределенности.
  • BackPACK: Построен на основе PyTorch. Он эффективно вычисляет величины, отличные от градиента.

Смотрите также

Ссылки

  1. ^ Хенниг, П.; Осборн, МА; Керстинг, ХП (2022). Вероятностная численность (PDF) . Cambridge University Press. ISBN 978-1107163447.
  2. ^ Оутс, CJ; Салливан, TJ (2019). «Современная ретроспектива вероятностных чисел». Stat. Comput . 29 (6): 1335–1351. arXiv : 1901.04457 . doi : 10.1007/s11222-019-09902-z. S2CID  67885786.
  3. ^ abcde Owhadi, Houman; Scovel, Clint (2019). Operator-Adapted Wavelets, Fast Solvers, and Numerical Homogenization: From a Game Theoretic Approach to Numerical Approximation and Algorithm Design. Cambridge Monographs on Applied and Computational Mathematics. Cambridge: Cambridge University Press. ISBN 978-1-108-48436-7.
  4. ^ ab Owhadi, Houman (2015). «Байесовская численная гомогенизация». Многомасштабное моделирование и имитация . 13 (3): 812–828. arXiv : 1406.6668 . doi : 10.1137/140974596 . ISSN  1540-3459. S2CID  7245255.
  5. ^ Хенниг, П.; Осборн, МА; Джиролами, М. (2015). «Вероятностные числовые данные и неопределенность в вычислениях». Труды Королевского общества A: Математические, физические и инженерные науки . 471 (2179): 20150142, 17. arXiv : 1506.01326 . Bibcode : 2015RSPSA.47150142H. doi : 10.1098/rspa.2015.0142. PMC 4528661. PMID  26346321 . 
  6. ^ Кокейн, Дж.; Оутс, К.Дж.; Салливан, Т.Дж.; Джиролами, М. (2019). «Байесовские вероятностные численные методы» (PDF) . Обзор SIAM . 61 (4): 756–789. doi :10.1137/17M1139357. S2CID  14696405.
  7. ^ abc Hennig, P. (2015). «Вероятностная интерпретация линейных решателей». SIAM Journal on Optimization . 25 (1): 2347–260. arXiv : 1402.2058 . doi : 10.1137/140955501. S2CID  16121233.
  8. ^ abc Cockayne, J.; Oates, C.; Ipsen, I .; Girolami, M. (2019). «Метод сопряженных градиентов Байеса». Байесовский анализ . 14 (3). Международное общество байесовского анализа: 937–1012. doi : 10.1214/19-BA1145 . S2CID  12460125.
  9. ^ abcd Венгер, Дж.; Хенниг, П. (2020). Вероятностные линейные решатели для машинного обучения . Достижения в области нейронных систем обработки информации (NeurIPS) . Том 33. С. 6731–6742. arXiv : 2010.09691 .
  10. ^ Карвонен, Тони; Сярккя, Симо (2017). Классические квадратурные правила через гауссовские процессы . 2017 IEEE 27-й Международный семинар по машинному обучению для обработки сигналов (MLSP).
  11. ^ Хенниг, Филипп; Кифель, Мартин (2013). «Квазиньютоновские методы: новое направление». Журнал исследований машинного обучения (JMLR) . 14 (1): 843–865. arXiv : 1206.4602 .
  12. ^ Марен Махсеречи; Филипп Хенниг (2015). Вероятностный линейный поиск для стохастической оптимизации . Достижения в области нейронных систем обработки информации (NeurIPS).
  13. ^ Ганс Керстинг; Николас Кремер; Мартин Шигг; Кристиан Дэниел; Майкл Тиманн; Филипп Хенниг (2020). Дифференцируемые правдоподобия для быстрой инверсии «безправдоподобных» динамических систем . Международная конференция по машинному обучению (ICML).
  14. ^ Шмидт, Джонатан; Кремер, Питер Николас; Хенниг, Филипп (2021). Вероятностная модель пространства состояний для совместного вывода из дифференциальных уравнений и данных . Достижения в области нейронных систем обработки информации (NeurIPS).
  15. ^ Диаконис, П. (1988). «Байесовский числовой анализ». Статистическая теория принятия решений и смежные темы IV : 163–175. doi :10.1007/978-1-4613-8768-8_20 (неактивен 1 ноября 2024 г.). ISBN 978-1-4613-8770-1.{{cite journal}}: CS1 maint: DOI неактивен по состоянию на ноябрь 2024 г. ( ссылка )
  16. ^ О'Хаган, А. (1991). «Квадратура Байеса–Эрмита». Журнал статистического планирования и вывода . 29 (3): 245–260. doi :10.1016/0378-3758(91)90002-V.
  17. ^ Расмуссен, К.; Гахрамани, З. (2002). «Байесовский Монте-Карло» (PDF) . Нейронные системы обработки информации : 489–496.
  18. ^ Briol, F.-X.; Oates, CJ; Girolami, M.; Osborne, MA; Sejdinovic, D. (2019). «Вероятностная интеграция: роль в статистических вычислениях? (с обсуждением и ответом)». Statistical Science . 34 (1): 1–22. arXiv : 1512.00933 . doi :10.1214/18-STS660. S2CID  13932715.
  19. ^ Уилсон, Сэмюэл (2019-11-22), Пакет ParBayesianOptimization R , получено 2019-12-12
  20. ^ Гарнетт, Роман (2021). Байесовская оптимизация. Кембридж: Издательство Кембриджского университета.
  21. ^ Махсеречи, М.; Хенниг, П. (2017). «Вероятностный линейный поиск для стохастической оптимизации». Журнал исследований машинного обучения . 18 (119): 1–59.
  22. ^ Баллес, Л.; Ромеро, Дж.; Хенниг, Х. (2017). «Связь адаптивных размеров партий с темпами обучения» (PDF) . Труды 33-й конференции по неопределенности в искусственном интеллекте (UAI) . arXiv : 1612.05086 .
  23. ^ Махсеречи, М.; Баллес, Л.; Ласснер, К.; Хенниг, Х. (2021). «Ранняя остановка без набора проверки». arXiv : 1703.09580 [cs.LG].
  24. ^ Siems JN; Klein A.; Archambeau C.; Mahsereci, M. (2021). «Динамическое сокращение нейронной сети с помощью градиентного отношения сигнал-шум». 8-й семинар ICML по автоматизированному машинному обучению (AutoML) .
  25. ^ Mahsereci, Maren (2018). "Глава 8: Фильтр первого порядка для градиентов; глава 9: Фильтр второго порядка для элементов Гессе". Вероятностные подходы к стохастической оптимизации (диссертация). Universität Tübingen. doi :10.15496/publikation-26116.
  26. ^ Баллес, Л.; Хенниг, Х. (2018). «Рассечение Адама: знак, величина и дисперсия стохастических градиентов». Труды 35-й Международной конференции по машинному обучению : 404–413. arXiv : 1705.07774 .
  27. ^ ab Бартельс, С.; Кокейн, Дж.; Ипсен, И.; Хенниг, П. (2019). «Вероятностные линейные решатели: унифицирующий взгляд». Статистика и вычисления . 29 (6). Springer: 1249–1263. arXiv : 1810.03398 . doi : 10.1007/s11222-019-09897-7 . S2CID  53571618.
  28. ^ ab Cockayne, J.; Ipsen, I .; Oates, C.; Reid, T. (2021). «Вероятностные итерационные методы для линейных систем» (PDF) . Журнал исследований машинного обучения . 22 (232): 1–34. arXiv : 2012.12615 .
  29. ^ Шефер, Флориан; Кацфусс, Маттиас; Овади, Хоуман (2021). «Разреженная факторизация Холецкого с помощью минимизации Кульбака–Лейблера». Журнал SIAM по научным вычислениям . 43 (3): A2019–A2046. arXiv : 2004.14455 . Bibcode : 2021SJSC...43A2019S. doi : 10.1137/20M1336254. ISSN  1064-8275. S2CID  216914317.
  30. ^ Бартельс, Саймон (2020). «Оценка вероятностного ядра-матрицы детерминанта». Вероятностная линейная алгебра (диссертация). doi :10.15496/publikation-56119.
  31. ^ ab Wenger, J.; Pleiss, G.; Hennig, P.; Cunningham, JP; Gardner, JR (2022). Предварительная подготовка для оптимизации гиперпараметров масштабируемых гауссовых процессов . Международная конференция по машинному обучению (ICML) . arXiv : 2107.00243 .
  32. ^ ab Wenger, J.; Pförtner, M.; Hennig, P.; Cunningham, JP (2022). Апостериорная и вычислительная неопределенность в гауссовских процессах . Достижения в области нейронных систем обработки информации (NeurIPS) . arXiv : 2205.15449 .
  33. ^ abc Conrad, PR; Girolami, M.; Särkkä, S.; Stuart, AM; Zygalakis, K. (2017). «Статистический анализ дифференциальных уравнений: введение вероятностных мер в численные решения». Stat. Comput . 27 (4): 1065–1082. doi :10.1007/s11222-016-9671-0. PMC 7089645. PMID  32226237 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  34. ^ Абдулле, А.; Гарегнани, Г. (2020). «Вероятностные методы со случайным временным шагом для количественной оценки неопределенности в хаотическом и геометрическом численном интегрировании». Stat. Comput . 30 (4): 907–932. arXiv : 1801.01340 . doi : 10.1007/s11222-020-09926-w. S2CID  42880142.{{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  35. ^ Скиллинг, Дж. (1992). Байесовское решение обыкновенных дифференциальных уравнений . Максимальная энтропия и байесовские методы . С. 23–37.
  36. ^ Tronarp, F.; Kersting, H.; Särkkä, S.; Hennig, P (2019). «Вероятностные решения обыкновенных дифференциальных уравнений как нелинейная байесовская фильтрация: новая перспектива». Статистика и вычисления . 29 (6): 1297–1315. arXiv : 1810.03440 . doi : 10.1007/s11222-019-09900-1 . S2CID  88517317.
  37. ^ Tronarp, F.; Särkkä, S.; Hennig, P. (2021). «Байесовские решатели ОДУ: максимальная апостериорная оценка». Статистика и вычисления . 31 (3): 1–18. arXiv : 2004.00623 . doi : 10.1007/s11222-021-09993-7 . S2CID  214774980.
  38. ^ Керстинг, Х.; Хенниг, П. (2016). Активная калибровка неопределенности в байесовских решателях ОДУ . Неопределенность в искусственном интеллекте . С. 309–318.
  39. ^ Schober, M.; Särkkä, S.; Hennig, P (2019). «Вероятностная модель для численного решения задач с начальными значениями». Статистика и вычисления . 29 (1): 99–122. arXiv : 1610.05261 . doi : 10.1007/s11222-017-9798-7 . S2CID  14299420.
  40. ^ Чкребти, О.; Кэмпбелл, Д.А.; Колдерхед, Б.; Джиролами, МА (2016). «Квантификация неопределенности байесовского решения для дифференциальных уравнений». Bayesian Analysis . 11 (4): 1239–1267. arXiv : 1306.2365 . doi : 10.1214/16-BA1017 . S2CID  14077995.
  41. ^ Хенниг, П.; Хауберг, С. (2014). Вероятностные решения дифференциальных уравнений и их применение к римановой статистике . Искусственный интеллект и статистика . С. 347–355.
  42. ^ Абдулле, А.; Гарегнани, Г. (2021). «Вероятностный метод конечных элементов на основе случайных сеток: апостериорные оценки ошибок и байесовские обратные задачи». Comput. Methods Appl. Mech. Engrg . 384 : 113961. arXiv : 2103.06204 . Bibcode : 2021CMAME.384k3961A. doi : 10.1016/j.cma.2021.113961. S2CID  232170649.{{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  43. ^ Чкребтий, Оксана А.; Кэмпбелл, Дэвид А.; Колдерхед, Бен; Джиролами, Марк А. (2016). «Байесовская квантификация неопределенности решения для дифференциальных уравнений». Bayesian Analysis . 11 (4): 1239–1267. arXiv : 1306.2365 . doi : 10.1214/16-BA1017 . ISSN  1936-0975. S2CID  14077995.
  44. ^ abc Пфёртнер, М.; Штайнварт, И.; Хенниг, П.; Венгер, Дж. (2022). «Физически-информированная регрессия гауссовского процесса обобщает линейные решатели уравнений в частных производных». arXiv : 2212.12474 [cs.LG].
  45. ^ Пуанкаре, Анри (1912). Calcul des Probabilités (второе изд.). Готье-Виллар.
  46. ^ Сульдин, А. В. (1959). «Мера Винера и ее приложения к методам аппроксимации. I». Изв. Высш. Учебн. Зав. Математика . 6 (13): 145–158.
  47. ^ ab Larkin, FM (1972). «Гауссова мера в гильбертовом пространстве и ее применение в численном анализе». Rocky Mountain J. Math . 2 (3): 379–421. doi : 10.1216/RMJ-1972-2-3-379 .
  48. ^ Овади, Хоуман; Сковел, Клинт; Шефер, Флориан (2019). «Статистическая численная аппроксимация». Notices of the American Mathematical Society . 66 (10): 1608–1617. doi : 10.1090/noti1963 . S2CID  204830421.
  49. ^ Паласти, И.; Реньи, А. (1956). «О теории интерполяции и теории игр». MTA Mat. Kat. Int. Kozl . 1 : 529–540.
  50. ^ Сард, А. (1963). Линейная аппроксимация . Математические обзоры и монографии. Том 9. Американское математическое общество. doi :10.1090/surv/009. ISBN 9780821815090.
  51. ^ Кимельдорф, Джордж С.; Вахба, Грейс (1970). «Соответствие между байесовской оценкой стохастических процессов и сглаживанием сплайнами». Ann. Math. Statist . 41 (2): 495–502. doi : 10.1214/aoms/1177697089 .
  52. ^ Трауб, Дж. Ф.; Васильковски, Г. В.; Возняковски, Х. (1988). Сложность, основанная на информации . Компьютерные науки и научные вычисления. Бостон, Массачусетс: Academic Press, Inc. ISBN 0-12-697545-0.{{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка ) CS1 maint: числовые имена: список авторов ( ссылка )
  53. ^ Пакель, Эдвард В. (1987). «Проектировщик алгоритмов против природы: игровой теоретико-подход к информационной сложности». J. Complexity . 3 (3): 244–257. doi : 10.1016/0885-064X(87)90014-8 .
  54. ^ Овади, Х. (2017). «Многосеточная с грубыми коэффициентами и многоразрешающая операторная декомпозиция из иерархических информационных игр». Обзор SIAM . 59 (1): 99–149. arXiv : 1503.03467 . doi : 10.1137/15M1013894 . S2CID  5877877.
  55. ^ Микелли, CA; Ривлин, TJ (1977). "Обзор оптимального восстановления". Оптимальная оценка в теории приближения (Proc. Internat. Sympos., Freudenstadt, 1976. pp. 1–54. doi :10.1007/978-1-4684-2388-4_1. ISBN 978-1-4684-2390-7.
Взято с "https://en.wikipedia.org/w/index.php?title=Вероятностные_числа&oldid=1254956742"