Генеративная модель на основе потока

Статистическая модель, используемая в машинном обучении

Генеративная модель на основе потока — это генеративная модель , используемая в машинном обучении , которая явно моделирует распределение вероятностей , используя нормализующий поток [1] ​​[2] [3], который представляет собой статистический метод, использующий закон изменения переменной вероятностей для преобразования простого распределения в сложное.

Прямое моделирование правдоподобия дает много преимуществ. Например, отрицательная логарифмическая функция правдоподобия может быть напрямую вычислена и минимизирована как функция потерь . Кроме того, новые выборки могут быть получены путем выборки из начального распределения и применения преобразования потока.

Напротив, многие альтернативные методы генеративного моделирования, такие как вариационный автоэнкодер (VAE) и генеративно-состязательная сеть, явно не представляют функцию правдоподобия.

Метод

Схема нормализации потоков

Пусть будет (возможно, многомерной) случайной величиной с распределением . z 0 {\displaystyle z_{0}} p 0 ( z 0 ) {\displaystyle p_{0}(z_{0})}

Для пусть будет последовательностью случайных величин, преобразованных из . Функции должны быть обратимыми, т.е. обратная функция существует. Окончательный вывод моделирует целевое распределение. i = 1 , . . . , K {\displaystyle i=1,...,K} z i = f i ( z i 1 ) {\displaystyle z_{i}=f_{i}(z_{i-1})} z 0 {\displaystyle z_{0}} f 1 , . . . , f K {\displaystyle f_{1},...,f_{K}} f i 1 {\displaystyle f_{i}^{-1}} z K {\displaystyle z_{K}}

Логарифм правдоподобия равен (см. вывод): z K {\displaystyle z_{K}}

log p K ( z K ) = log p 0 ( z 0 ) i = 1 K log | det d f i ( z i 1 ) d z i 1 | {\displaystyle \log p_{K}(z_{K})=\log p_{0}(z_{0})-\sum _{i=1}^{K}\log \left|\det {\frac {df_{i}(z_{i-1})}{dz_{i-1}}}\right|}

Для эффективного вычисления логарифмического правдоподобия функции должны быть 1. простыми для инвертирования и 2. простыми для вычисления определителя ее якобиана. На практике функции моделируются с использованием глубоких нейронных сетей и обучаются для минимизации отрицательного логарифмического правдоподобия выборок данных из целевого распределения. Эти архитектуры обычно проектируются таким образом, что требуется только прямой проход нейронной сети как в обратном вычислении, так и в вычислении определителя якобиана. Примерами таких архитектур являются NICE, [4] RealNVP, [5] и Glow. [6] f 1 , . . . , f K {\displaystyle f_{1},...,f_{K}} f 1 , . . . , f K {\displaystyle f_{1},...,f_{K}}

Вывод логарифмического правдоподобия

Рассмотрим и . Обратите внимание, что . z 1 {\displaystyle z_{1}} z 0 {\displaystyle z_{0}} z 0 = f 1 1 ( z 1 ) {\displaystyle z_{0}=f_{1}^{-1}(z_{1})}

По формуле замены переменной распределение имеет вид: z 1 {\displaystyle z_{1}}

p 1 ( z 1 ) = p 0 ( z 0 ) | det d f 1 1 ( z 1 ) d z 1 | {\displaystyle p_{1}(z_{1})=p_{0}(z_{0})\left|\det {\frac {df_{1}^{-1}(z_{1})}{dz_{1}}}\right|}

Где — определитель матрицы Якоби . ​ det d f 1 1 ( z 1 ) d z 1 {\displaystyle \det {\frac {df_{1}^{-1}(z_{1})}{dz_{1}}}} f 1 1 {\displaystyle f_{1}^{-1}}

По теореме об обратной функции :

p 1 ( z 1 ) = p 0 ( z 0 ) | det ( d f 1 ( z 0 ) d z 0 ) 1 | {\displaystyle p_{1}(z_{1})=p_{0}(z_{0})\left|\det \left({\frac {df_{1}(z_{0})}{dz_{0}}}\right)^{-1}\right|}

По тождеству (где — обратимая матрица ) имеем: det ( A 1 ) = det ( A ) 1 {\displaystyle \det(A^{-1})=\det(A)^{-1}} A {\displaystyle A}

p 1 ( z 1 ) = p 0 ( z 0 ) | det d f 1 ( z 0 ) d z 0 | 1 {\displaystyle p_{1}(z_{1})=p_{0}(z_{0})\left|\det {\frac {df_{1}(z_{0})}{dz_{0}}}\right|^{-1}}

Логарифм правдоподобия, таким образом, равен:

log p 1 ( z 1 ) = log p 0 ( z 0 ) log | det d f 1 ( z 0 ) d z 0 | {\displaystyle \log p_{1}(z_{1})=\log p_{0}(z_{0})-\log \left|\det {\frac {df_{1}(z_{0})}{dz_{0}}}\right|}

В общем случае вышесказанное применимо к любому и . Поскольку равно вычтенному нерекурсивному члену, мы можем вывести по индукции , что: z i {\displaystyle z_{i}} z i 1 {\displaystyle z_{i-1}} log p i ( z i ) {\displaystyle \log p_{i}(z_{i})} log p i 1 ( z i 1 ) {\displaystyle \log p_{i-1}(z_{i-1})}

log p K ( z K ) = log p 0 ( z 0 ) i = 1 K log | det d f i ( z i 1 ) d z i 1 | {\displaystyle \log p_{K}(z_{K})=\log p_{0}(z_{0})-\sum _{i=1}^{K}\log \left|\det {\frac {df_{i}(z_{i-1})}{dz_{i-1}}}\right|}

Метод обучения

Как это обычно делается при обучении модели глубокого обучения, цель нормализации потоков состоит в том, чтобы минимизировать расхождение Кульбака–Лейблера между правдоподобием модели и целевым распределением, которое должно быть оценено. Обозначая правдоподобие модели и целевое распределение для обучения, (прямое) KL-расхождение равно: p θ {\displaystyle p_{\theta }} p {\displaystyle p^{*}}

D K L [ p ( x ) | | p θ ( x ) ] = E p ( x ) [ log ( p θ ( x ) ) ] + E p ( x ) [ log ( p ( x ) ) ] {\displaystyle D_{KL}[p^{*}(x)||p_{\theta }(x)]=-\mathbb {E} _{p^{*}(x)}[\log(p_{\theta }(x))]+\mathbb {E} _{p^{*}(x)}[\log(p^{*}(x))]}

Второй член в правой части уравнения соответствует энтропии целевого распределения и не зависит от параметра, который мы хотим, чтобы модель изучила, что оставляет только ожидание отрицательного логарифмического правдоподобия для минимизации при целевом распределении. Этот трудноразрешимый член может быть аппроксимирован методом Монте-Карло с помощью выборки по важности . Действительно, если у нас есть набор данных образцов, каждый из которых независимо взят из целевого распределения , то этот член можно оценить как: θ {\displaystyle \theta } { x i } i = 1 : N {\displaystyle \{x_{i}\}_{i=1:N}} p ( x ) {\displaystyle p^{*}(x)}

E ^ p ( x ) [ log ( p θ ( x ) ) ] = 1 N i = 0 N log ( p θ ( x i ) ) {\displaystyle -{\hat {\mathbb {E} }}_{p^{*}(x)}[\log(p_{\theta }(x))]=-{\frac {1}{N}}\sum _{i=0}^{N}\log(p_{\theta }(x_{i}))}

Поэтому цель обучения

a r g m i n θ   D K L [ p ( x ) | | p θ ( x ) ] {\displaystyle {\underset {\theta }{\operatorname {arg\,min} }}\ D_{KL}[p^{*}(x)||p_{\theta }(x)]}

заменяется на

a r g m a x θ   i = 0 N log ( p θ ( x i ) ) {\displaystyle {\underset {\theta }{\operatorname {arg\,max} }}\ \sum _{i=0}^{N}\log(p_{\theta }(x_{i}))}

Другими словами, минимизация расхождения Кульбака–Лейблера между правдоподобием модели и целевым распределением эквивалентна максимизации правдоподобия модели при наблюдаемых выборках целевого распределения. [7]

Псевдокод для обучения нормализующих потоков выглядит следующим образом: [8]

  • ВХОД. набор данных , нормализирующая модель потока . x 1 : n {\displaystyle x_{1:n}} f θ ( ) , p 0 {\displaystyle f_{\theta }(\cdot ),p_{0}}
  • РЕШИТЬ методом градиентного спуска max θ j ln p θ ( x j ) {\displaystyle \max _{\theta }\sum _{j}\ln p_{\theta }(x_{j})}
  • ВОЗВРАЩАТЬСЯ. θ ^ {\displaystyle {\hat {\theta }}}

Варианты

Плоский поток

Самый ранний пример. [9] Зафиксируем некоторую функцию активации и пусть с соответствующими размерностями, тогда Обратное уравнение не имеет замкнутого решения в общем случае. h {\displaystyle h} θ = ( u , w , b ) {\displaystyle \theta =(u,w,b)} x = f θ ( z ) = z + u h ( w , z + b ) {\displaystyle x=f_{\theta }(z)=z+uh(\langle w,z\rangle +b)} f θ 1 {\displaystyle f_{\theta }^{-1}}

Якобиан — это . | det ( I + h ( w , z + b ) u w T ) | = | 1 + h ( w , z + b ) u , w | {\displaystyle |\det(I+h'(\langle w,z\rangle +b)uw^{T})|=|1+h'(\langle w,z\rangle +b)\langle u,w\rangle |}

Чтобы он был обратимым везде, он должен быть ненулевым везде. Например, и удовлетворяет требованию. h = tanh {\displaystyle h=\tanh } u , w > 1 {\displaystyle \langle u,w\rangle >-1}

Нелинейная независимая оценка компонентов (NICE)

Пусть будет четномерным, и разделим их посередине. [4] Тогда нормализующие функции потока будут такими, где — любая нейронная сеть с весами . x , z R 2 n {\displaystyle x,z\in \mathbb {R} ^{2n}} x = [ x 1 x 2 ] = f θ ( z ) = [ z 1 z 2 ] + [ 0 m θ ( z 1 ) ] {\displaystyle x={\begin{bmatrix}x_{1}\\x_{2}\end{bmatrix}}=f_{\theta }(z)={\begin{bmatrix}z_{1}\\z_{2}\end{bmatrix}}+{\begin{bmatrix}0\\m_{\theta }(z_{1})\end{bmatrix}}} m θ {\displaystyle m_{\theta }} θ {\displaystyle \theta }

f θ 1 {\displaystyle f_{\theta }^{-1}} равен всего лишь , а якобиан равен всего лишь 1, то есть поток сохраняет объем. z 1 = x 1 , z 2 = x 2 m θ ( x 1 ) {\displaystyle z_{1}=x_{1},z_{2}=x_{2}-m_{\theta }(x_{1})}

Когда , это рассматривается как криволинейный сдвиг вдоль направления. n = 1 {\displaystyle n=1} x 2 {\displaystyle x_{2}}

Реальный не сохраняющий объем (реальный NVP)

Реальная модель без сохранения объема обобщает модель NICE следующим образом: [5] x = [ x 1 x 2 ] = f θ ( z ) = [ z 1 e s θ ( z 1 ) z 2 ] + [ 0 m θ ( z 1 ) ] {\displaystyle x={\begin{bmatrix}x_{1}\\x_{2}\end{bmatrix}}=f_{\theta }(z)={\begin{bmatrix}z_{1}\\e^{s_{\theta }(z_{1})}\odot z_{2}\end{bmatrix}}+{\begin{bmatrix}0\\m_{\theta }(z_{1})\end{bmatrix}}}

Его обратный — , а его якобиан — . Модель NICE восстанавливается путем установки . Поскольку карта Real NVP разделяет первую и вторую половины вектора , обычно требуется добавлять перестановку после каждого слоя Real NVP. z 1 = x 1 , z 2 = e s θ ( x 1 ) ( x 2 m θ ( x 1 ) ) {\displaystyle z_{1}=x_{1},z_{2}=e^{-s_{\theta }(x_{1})}\odot (x_{2}-m_{\theta }(x_{1}))} i = 1 n e s θ ( z 1 , ) {\displaystyle \prod _{i=1}^{n}e^{s_{\theta }(z_{1,})}} s θ = 0 {\displaystyle s_{\theta }=0} x {\displaystyle x} ( x 1 , x 2 ) ( x 2 , x 1 ) {\displaystyle (x_{1},x_{2})\mapsto (x_{2},x_{1})}

Генеративный поток (Свечение)

В модели генеративного потока [6] каждый слой состоит из 3 частей:

  • Аффинное преобразование по каналам с якобианом . y c i j = s c ( x c i j + b c ) {\displaystyle y_{cij}=s_{c}(x_{cij}+b_{c})} c s c H W {\displaystyle \prod _{c}s_{c}^{HW}}
  • обратимая свертка 1x1 с якобианом . Вот любая обратимая матрица. z c i j = c K c c y c i j {\displaystyle z_{cij}=\sum _{c'}K_{cc'}y_{cij}} det ( K ) H W {\displaystyle \det(K)^{HW}} K {\displaystyle K}
  • Действительный NVP с якобианом, описанным в Real NVP.

Идея использования обратимой свертки 1x1 заключается в перестановке всех слоев в целом, а не просто в перестановке первой и второй половины, как в Real NVP.

Маскированный авторегрессионный поток (MAF)

Авторегрессионная модель распределения определяется как следующий стохастический процесс: [10] R n {\displaystyle \mathbb {R} ^{n}}

x 1 N ( μ 1 , σ 1 2 ) x 2 N ( μ 2 ( x 1 ) , σ 2 ( x 1 ) 2 ) x n N ( μ n ( x 1 : n 1 ) , σ n ( x 1 : n 1 ) 2 ) {\displaystyle {\begin{aligned}x_{1}\sim &N(\mu _{1},\sigma _{1}^{2})\\x_{2}\sim &N(\mu _{2}(x_{1}),\sigma _{2}(x_{1})^{2})\\&\cdots \\x_{n}\sim &N(\mu _{n}(x_{1:n-1}),\sigma _{n}(x_{1:n-1})^{2})\\\end{aligned}}} где и — фиксированные функции, определяющие модель авторегрессии. μ i : R i 1 R {\displaystyle \mu _{i}:\mathbb {R} ^{i-1}\to \mathbb {R} } σ i : R i 1 ( 0 , ) {\displaystyle \sigma _{i}:\mathbb {R} ^{i-1}\to (0,\infty )}

С помощью приема репараметризации авторегрессионная модель обобщается до нормализующего потока: Авторегрессионная модель восстанавливается путем установки . x 1 = μ 1 + σ 1 z 1 x 2 = μ 2 ( x 1 ) + σ 2 ( x 1 ) z 2 x n = μ n ( x 1 : n 1 ) + σ n ( x 1 : n 1 ) z n {\displaystyle {\begin{aligned}x_{1}=&\mu _{1}+\sigma _{1}z_{1}\\x_{2}=&\mu _{2}(x_{1})+\sigma _{2}(x_{1})z_{2}\\&\cdots \\x_{n}=&\mu _{n}(x_{1:n-1})+\sigma _{n}(x_{1:n-1})z_{n}\\\end{aligned}}} z N ( 0 , I n ) {\displaystyle z\sim N(0,I_{n})}

Прямое отображение выполняется медленно (потому что оно последовательное), а обратное отображение выполняется быстро (потому что оно параллельное).

Матрица Якоби имеет нижнюю диагональ, поэтому якобиан равен . σ 1 σ 2 ( x 1 ) σ n ( x 1 : n 1 ) {\displaystyle \sigma _{1}\sigma _{2}(x_{1})\cdots \sigma _{n}(x_{1:n-1})}

Обратное преобразование двух отображений и MAF приводит к обратному авторегрессионному потоку (IAF), который имеет быстрое прямое отображение и медленное обратное отображение. [11] f θ {\displaystyle f_{\theta }} f θ 1 {\displaystyle f_{\theta }^{-1}}

Непрерывный нормализующий поток (CNF)

Вместо построения потока с помощью композиции функций, другой подход заключается в формулировании потока как непрерывной динамики времени. [12] [13] Пусть будет скрытой переменной с распределением . Сопоставьте эту скрытую переменную с пространством данных с помощью следующей функции потока: z 0 {\displaystyle z_{0}} p ( z 0 ) {\displaystyle p(z_{0})}

x = F ( z 0 ) = z T = z 0 + 0 T f ( z t , t ) d t {\displaystyle x=F(z_{0})=z_{T}=z_{0}+\int _{0}^{T}f(z_{t},t)dt}

где — произвольная функция, которую можно смоделировать, например, с помощью нейронных сетей. f {\displaystyle f}

Обратная функция тогда, естественно, имеет вид: [12]

z 0 = F 1 ( x ) = z T + T 0 f ( z t , t ) d t = z T 0 T f ( z t , t ) d t {\displaystyle z_{0}=F^{-1}(x)=z_{T}+\int _{T}^{0}f(z_{t},t)dt=z_{T}-\int _{0}^{T}f(z_{t},t)dt}

А логарифм правдоподобия можно найти как: [12] x {\displaystyle x}

log ( p ( x ) ) = log ( p ( z 0 ) ) 0 T Tr [ f z t ] d t {\displaystyle \log(p(x))=\log(p(z_{0}))-\int _{0}^{T}{\text{Tr}}\left[{\frac {\partial f}{\partial z_{t}}}\right]dt}

Поскольку след зависит только от диагонали якобиана , это допускает якобиан «свободной формы». [14] Здесь «свободная форма» означает, что нет ограничений на форму якобиана. Это контрастирует с предыдущими дискретными моделями нормализации потока, где якобиан тщательно проектировался так, чтобы быть только верхне- или нижнедиагональным, так что якобиан можно было эффективно оценить. z t f {\displaystyle \partial _{z_{t}}f}

След можно оценить с помощью «трюка Хатчинсона»: [15] [16]

Учитывая любую матрицу и любые случайные числа с , мы имеем . (Доказательство: непосредственно разложить математическое ожидание.) W R n × n {\displaystyle W\in \mathbb {R} ^{n\times n}} u R n {\displaystyle u\in \mathbb {R} ^{n}} E [ u u T ] = I {\displaystyle E[uu^{T}]=I} E [ u T W u ] = t r ( W ) {\displaystyle E[u^{T}Wu]=tr(W)}

Обычно случайный вектор выбирается из (нормального распределения) или ( распределения Радамахера ). N ( 0 , I ) {\displaystyle N(0,I)} { ± n 1 / 2 } n {\displaystyle \{\pm n^{-1/2}\}^{n}}

При реализации в виде нейронной сети понадобятся методы нейронного ОДУ [17] . Действительно, CNF был впервые предложен в той же статье, в которой был предложен нейронный ОДУ. f {\displaystyle f}

У КНФ есть два основных недостатка: один из них заключается в том, что непрерывный поток должен быть гомеоморфизмом , то есть сохранять ориентацию и изотопию окружающей среды (например, невозможно перевернуть левую сторону на правую путем непрерывной деформации пространства, невозможно вывернуть сферу наизнанку или развязать узел), а другой заключается в том, что обученный поток может вести себя некорректно из-за вырожденности (то есть существует бесконечное число возможных решений одной и той же задачи). f {\displaystyle f} f {\displaystyle f}

Добавляя дополнительные измерения, КНФ получает достаточно свободы, чтобы изменить ориентацию и выйти за рамки окружающей изотопии (точно так же, как можно взять многоугольник со стола и перевернуть его в 3-мерном пространстве или развязать узел в 4-мерном пространстве), что приводит к «расширенному нейронному ОДУ». [18]

Любой гомеоморфизм может быть аппроксимирован нейронным ОДУ, действующим на , что доказано путем объединения теоремы вложения Уитни для многообразий и универсальной теоремы аппроксимации для нейронных сетей. [19] R n {\displaystyle \mathbb {R} ^{n}} R 2 n + 1 {\displaystyle \mathbb {R} ^{2n+1}}

Чтобы регуляризировать поток , можно ввести потери регуляризации. В статье [15] предложены следующие потери регуляризации, основанные на оптимальной теории переноса : где — гиперпараметры. Первый член наказывает модель за осцилляции поля потока во времени, а второй член наказывает ее за осцилляции поля потока в пространстве. Оба члена вместе направляют модель в поток, который является гладким (не «неровным») в пространстве и времени. f {\displaystyle f} λ K 0 T f ( z t , t ) 2 d t + λ J 0 T z f ( z t , t ) F 2 d t {\displaystyle \lambda _{K}\int _{0}^{T}\left\|f(z_{t},t)\right\|^{2}dt+\lambda _{J}\int _{0}^{T}\left\|\nabla _{z}f(z_{t},t)\right\|_{F}^{2}dt} λ K , λ J > 0 {\displaystyle \lambda _{K},\lambda _{J}>0}

Недостатки

Несмотря на успех нормализации потоков в оценке многомерных плотностей, в их конструкциях все еще существуют некоторые недостатки. Прежде всего, их скрытое пространство, куда проецируются входные данные, не является пространством с меньшей размерностью, и поэтому модели на основе потоков не позволяют сжимать данные по умолчанию и требуют большого объема вычислений. Однако с их помощью все еще возможно выполнять сжатие изображений. [20]

Модели на основе потоков также печально известны своей неспособностью оценить вероятность выборок вне распределения (т. е. выборок, которые не были взяты из того же распределения, что и обучающий набор). [21] Для объяснения этого явления были сформулированы некоторые гипотезы, среди которых гипотеза о типичном наборе, [22] проблемы оценки при обучении моделей, [23] или фундаментальные проблемы из-за энтропии распределений данных. [24]

Одним из самых интересных свойств нормализации потоков является обратимость их изученного биективного отображения. Это свойство задается ограничениями в конструкции моделей (ср.: RealNVP, Glow), которые гарантируют теоретическую обратимость. Целостность обратного важна для обеспечения применимости теоремы о замене переменной , вычисления якобиана отображения , а также выборки с моделью. Однако на практике эта обратимость нарушается, и обратное отображение взрывается из-за численной неточности. [25]

Приложения

Генеративные модели на основе потоков применяются для решения различных задач моделирования, включая:

  • Генерация звука [26]
  • Генерация изображения [6]
  • Генерация молекулярного графа [27]
  • Моделирование облака точек [28]
  • Генерация видео [29]
  • Сжатие изображений с потерями [20]
  • Обнаружение аномалий [30]

Ссылки

  1. ^ Табак, Эстебан Г.; Ванден-Эйнден, Эрик (2010). «Оценка плотности методом двойного восхождения логарифмического правдоподобия». Сообщения по математическим наукам . 8 (1): 217–233. doi :10.4310/CMS.2010.v8.n1.a11.
  2. ^ Табак, Эстебан Г.; Тернер, Кристина В. (2012). «Семейство непараметрических алгоритмов оценки плотности». Сообщения по чистой и прикладной математике . 66 (2): 145–164. doi :10.1002/cpa.21423. hdl : 11336/8930 . S2CID  17820269.
  3. ^ Папамакариос, Джордж; Налисник, Эрик; Хименес Резенде, Данило; Мохамед, Шакир; Бакшминараянан, Баладжи (2021). «Нормализация потоков для вероятностного моделирования и вывода». Журнал исследований машинного обучения . 22 (1): 2617–2680. arXiv : 1912.02762 .
  4. ^ ab Динь, Лоран; Крюгер, Дэвид; Бенджио, Йошуа (2014). "NICE: Нелинейная независимая оценка компонентов". arXiv : 1410.8516 [cs.LG].
  5. ^ Аб Динь, Лоран; Золь-Дикштейн, Яша; Бенджио, Сами (2016). «Оценка плотности с использованием реального NVP». arXiv : 1605.08803 [cs.LG].
  6. ^ abc Kingma, Diederik P.; Dhariwal, Prafulla (2018). «Glow: Генеративный поток с обратимыми свертками 1x1». arXiv : 1807.03039 [stat.ML].
  7. ^ Папамакариос, Джордж; Налисник, Эрик; Резенде, Данило Хименес; Шакир, Мохамед; Баладжи, Лакшминараянан (март 2021 г.). «Нормализация потоков для вероятностного моделирования и вывода». Журнал исследований машинного обучения . 22 (57): 1–64. arXiv : 1912.02762 .
  8. ^ Кобызев, Иван; Принс, Саймон Дж. Д.; Брубейкер, Маркус А. (ноябрь 2021 г.). «Нормализация потоков: введение и обзор современных методов». Труды IEEE по анализу шаблонов и машинному интеллекту . 43 (11): 3964–3979. arXiv : 1908.09257 . doi : 10.1109/TPAMI.2020.2992934. ISSN  1939-3539. PMID  32396070. S2CID  208910764.
  9. ^ Данило Хименес Резенде; Мохамед, Шакир (2015). «Вариационный вывод с нормализацией потоков». arXiv : 1505.05770 [stat.ML].
  10. ^ Папамакариос, Джордж; Павлаку, Тео; Мюррей, Иэн (2017). «Маскированный авторегрессионный поток для оценки плотности». Достижения в области нейронных систем обработки информации . 30. Curran Associates, Inc. arXiv : 1705.07057 .
  11. ^ Кингма, Дюрк П.; Салиманс, Тим; Юзефович, Рафал; Чэнь, Си; Суцкевер, Илья; Веллинг, Макс (2016). «Улучшенный вариационный вывод с обратным авторегрессионным потоком». Достижения в области нейронных систем обработки информации . 29. Curran Associates, Inc. arXiv : 1606.04934 .
  12. ^ abc Grathwohl, Will; Chen, Ricky TQ; Bettencourt, Jesse; Sutskever, Ilya; Duvenaud, David (2018). "FFJORD: Свободная непрерывная динамика для масштабируемых обратимых генеративных моделей". arXiv : 1810.01367 [cs.LG].
  13. ^ Липман, Ярон; Чен, Рики TQ; Бен-Хаму, Хели; Никель, Максимилиан; Ле, Мэтт (2022-10-01). «Соответствие потоков для генеративного моделирования». arXiv : 2210.02747 [cs.LG].
  14. ^ Гратволь, Уилл; Чен, Рики Т.К.; Беттанкур, Джесси; Суцкевер, Илья; Дювено, Дэвид (2018-10-22). "FFJORD: Свободная непрерывная динамика для масштабируемых обратимых генеративных моделей". arXiv : 1810.01367 [cs.LG].
  15. ^ ab Финлей, Крис; Якобсен, Йорн-Хенрик; Нурбекян, Левон; Оберман, Адам (2020-11-21). «Как обучить нейронный ОДУ: мир якобианской и кинетической регуляризации». Международная конференция по машинному обучению . PMLR: 3154–3164. arXiv : 2002.02798 .
  16. ^ Хатчинсон, МФ (январь 1989). «Стохастическая оценка следа матрицы влияния для сглаживающих сплайнов Лапласа». Communications in Statistics - Simulation and Computation . 18 (3): 1059–1076. doi :10.1080/03610918908812806. ISSN  0361-0918.
  17. ^ Чен, Рики Т. К.; Рубанова, Юлия; Беттанкур, Джесси; Дювено, Дэвид К. (2018). "Нейронные обыкновенные дифференциальные уравнения" (PDF) . В Bengio, S.; Wallach, H.; Larochelle, H.; Grauman, K.; Cesa-Bianchi, N.; Garnett, R. (ред.). Достижения в области нейронных систем обработки информации . Том 31. Curran Associates, Inc. arXiv : 1806.07366 .
  18. ^ Дюпон, Эмильен; Дусе, Арно; Те, Йи Уай (2019). «Расширенные нейронные ОДУ». Достижения в области нейронных систем обработки информации . 32. Curran Associates, Inc.
  19. ^ Чжан, Хань; Гао, Си; Унтерман, Якоб; Ародз, Том (2019-07-30). «Возможности аппроксимации нейронных ОДУ и обратимых остаточных сетей». arXiv : 1907.12998 [cs.LG].
  20. ^ аб Хельмингер, Леонард; Джелоуа, Абдельазиз; Гросс, Маркус; Шроерс, Кристофер (2020). «Сжатие изображения с потерями с нормализацией потоков». arXiv : 2008.10486 [cs.CV].
  21. ^ Налисник, Эрик; Мацукава, Те; Чжао, Йи Уай; Сонг, Чжао (2018). «Знают ли глубокие генеративные модели то, чего они не знают?». arXiv : 1810.09136v3 [stat.ML].
  22. ^ Налисник, Эрик; Мацукава, Те; Чжао, Йи Уай; Сонг, Чжао (2019). «Обнаружение нераспределенных входов в глубокие генеративные модели с использованием типичности». arXiv : 1906.02994 [stat.ML].
  23. ^ Чжан, Лили; Голдштейн, Марк; Ранганат, Раджеш (2021). «Понимание сбоев в обнаружении вне распределения с помощью глубоких генеративных моделей». Труды исследований машинного обучения . 139 : 12427–12436. PMC 9295254. PMID  35860036 . 
  24. ^ Катерини, Энтони Л.; Лоаиза-Ганем, Габриэль (2022). «Энтропийные проблемы в обнаружении OOD на основе вероятности». С. 21–26. arXiv : 2109.10794 [stat.ML].
  25. ^ Берманн, Йенс; Викол, Пол; Ван, Куан-Чье; Гросс, Роджер; Якобсен, Йорн-Хенрик (2020). «Понимание и смягчение взрывающихся инверсий в обратимых нейронных сетях». arXiv : 2006.09347 [cs.LG].
  26. ^ Пин, Вэй; Пэн, Кайнан; Горур, Дилан; Лакшминараянан, Баладжи (2019). «WaveFlow: компактная модель для необработанного звука на основе потока». arXiv : 1912.01219 [cs.SD].
  27. ^ Ши, Ченс; Сюй, Минкай; Чжу, Чжаочэн; Чжан, Вэйнань; Чжан, Мин; Тан, Цзянь (2020). «GraphAF: модель авторегрессии на основе потока для создания молекулярных графов». arXiv : 2001.09382 [cs.LG].
  28. ^ Ян, Гуандао; Хуан, Сюнь; Хао, Цзэкунь; Лю, Мин-Ю; Белонжи, Серж; Харихаран, Бхарат (2019). «PointFlow: генерация трехмерного облака точек с непрерывными нормализующими потоками». arXiv : 1906.12320 [cs.CV].
  29. ^ Кумар, Манодж; Бабаизаде, Мохаммад; Эрхан, Думитру; Финн, Челси; Левин, Сергей; Динь, Лоран; Кингма, Дюрк (2019). «VideoFlow: модель на основе условного потока для стохастической генерации видео». arXiv : 1903.01434 [cs.CV].
  30. ^ Рудольф, Марко; Вандт, Бастиан; Розенхан, Бодо (2021). «То же самое, но DifferNet: полуконтролируемое обнаружение дефектов с нормализующими потоками». arXiv : 2008.12577 [cs.CV].
  • Глубокие генеративные модели на основе потока
  • Нормализация моделей потока
Retrieved from "https://en.wikipedia.org/w/index.php?title=Flow-based_generative_model&oldid=1247160120"