Ограниченная машина Больцмана ( RBM ) (также называемая ограниченной моделью Шеррингтона–Киркпатрика с внешним полем или ограниченной стохастической моделью Изинга–Ленца–Литтла ) представляет собой генеративную стохастическую искусственную нейронную сеть , которая может обучаться распределению вероятностей по своему набору входных данных. [1]
пара узлов из каждой из двух групп единиц (обычно называемых «видимыми» и «скрытыми» единицами соответственно) может иметь симметричное соединение между собой; и
между узлами внутри группы нет связей.
Напротив, «неограниченные» машины Больцмана могут иметь связи между скрытыми единицами . Это ограничение допускает более эффективные алгоритмы обучения , чем те, которые доступны для общего класса машин Больцмана, в частности, алгоритм контрастной дивергенции на основе градиента . [12]
Стандартный тип RBM имеет двоично-значные ( булевые ) скрытые и видимые блоки и состоит из матрицы весов размера . Каждый элемент веса матрицы связан со связью между видимым (входным) блоком и скрытым блоком . Кроме того, существуют веса смещения (смещения) для и для . Учитывая веса и смещения, энергия конфигурации (пары булевых векторов) ( v , h ) определяется как
или, в матричной записи,
Эта энергетическая функция аналогична функции сети Хопфилда . Как и в случае с общими машинами Больцмана, совместное распределение вероятностей для видимых и скрытых векторов определяется в терминах энергетической функции следующим образом: [14]
где — это функция распределения, определяемая как сумма всех возможных конфигураций, которую можно интерпретировать как нормализующую константу , гарантирующую, что сумма вероятностей равна 1. Предельная вероятность видимого вектора — это сумма всех возможных конфигураций скрытого слоя, [14]
,
и наоборот. Поскольку базовая структура графа RBM является двудольной (что означает отсутствие внутрислойных связей), активации скрытых единиц взаимно независимы при наличии активаций видимых единиц. И наоборот, активации видимых единиц взаимно независимы при наличии активаций скрытых единиц. [12] То есть для m видимых единиц и n скрытых единиц условная вероятность конфигурации видимых единиц v при наличии конфигурации скрытых единиц h равна
.
Наоборот, условная вероятность h при заданном v равна
.
Вероятности индивидуальной активации определяются как
Ограниченные машины Больцмана обучаются максимизировать произведение вероятностей, назначенных некоторому обучающему набору (матрице, каждая строка которой рассматривается как видимый вектор ),
Алгоритм, наиболее часто используемый для обучения RBM, то есть для оптимизации матрицы весов , — это алгоритм контрастной дивергенции (CD), разработанный Хинтоном , изначально разработанный для обучения моделей PoE ( продукт экспертов ). [18] [19]
Алгоритм выполняет выборку Гиббса и используется внутри процедуры градиентного спуска (аналогично тому, как обратное распространение используется внутри такой процедуры при обучении нейронных сетей прямого распространения) для вычисления обновления веса.
Базовую одношаговую процедуру контрастивной дивергенции (CD-1) для одного образца можно обобщить следующим образом:
Возьмите обучающую выборку v , вычислите вероятности скрытых единиц и выберите скрытый вектор активации h из этого распределения вероятностей.
Разница между Stacked Restricted Boltzmann Machines и RBM заключается в том, что RBM имеет боковые связи внутри слоя, которые запрещены для того, чтобы сделать анализ послушным. С другой стороны, Stacked Boltzmann состоит из комбинации неконтролируемой трехслойной сети с симметричными весами и контролируемого тонко настроенного верхнего слоя для распознавания трех классов.
Использование Stacked Boltzmann заключается в понимании естественных языков , извлечении документов , генерации изображений и классификации. Эти функции обучаются с помощью неконтролируемой предварительной подготовки и/или контролируемой тонкой настройки. В отличие от ненаправленного симметричного верхнего слоя, с двухсторонним несимметричным слоем для связи для RBM. Ограниченная связь Больцмана состоит из трех слоев с асимметричными весами, и две сети объединены в одну.
Stacked Boltzmann действительно имеет сходство с RBM, нейрон для Stacked Boltzmann является стохастическим бинарным нейроном Хопфилда, который такой же, как и в Restricted Boltzmann Machine. Энергия как Restricted Boltzmann, так и RBM задается вероятностной мерой Гиббса: . Процесс обучения Restricted Boltzmann похож на RBM. Restricted Boltzmann обучает один слой за раз и приближает состояние равновесия с помощью 3-сегментного прохода, не выполняя обратное распространение. Restricted Boltzmann использует как контролируемый, так и неконтролируемый режим на разных RBM для предварительной подготовки для классификации и распознавания. Обучение использует контрастную дивергенцию с выборкой Гиббса: Δw ij = e*(p ij - p' ij )
Ограниченная сила Больцмана в том, что он выполняет нелинейное преобразование, поэтому его легко расширить, и он может дать иерархический слой признаков. Слабость в том, что он имеет сложные вычисления целочисленных и вещественных нейронов. Он не следует градиенту какой-либо функции, поэтому приближение контрастной дивергенции к максимальному правдоподобию импровизировано. [14]
Литература
Фишер, Ася; Игель, Кристиан (2012), «Введение в ограниченные машины Больцмана», Прогресс в распознавании образов, анализе изображений, компьютерном зрении и приложениях , Lecture Notes in Computer Science, т. 7441, Берлин, Гейдельберг: Springer Berlin Heidelberg, стр. 14–36 , doi : 10.1007/978-3-642-33275-3_2 , ISBN978-3-642-33274-6
^ Хинтон, GE; Салахутдинов, RR (2006). «Уменьшение размерности данных с помощью нейронных сетей» (PDF) . Science . 313 (5786): 504– 507. Bibcode :2006Sci...313..504H. doi :10.1126/science.1127647. PMID 16873662. S2CID 1658773. Архивировано из оригинала (PDF) 23.12.2015 . Получено 02.12.2015 .
^ Ларошель, Х.; Бенжио, И. (2008). Классификация с использованием дискриминантных ограниченных машин Больцмана (PDF) . Труды 25-й международной конференции по машинному обучению - ICML '08. стр. 536. doi :10.1145/1390156.1390224. ISBN978-1-60558-205-4.
^ ab Салахутдинов, Р.; Мних, А.; Хинтон, Г. (2007). Ограниченные машины Больцмана для совместной фильтрации . Труды 24-й международной конференции по машинному обучению - ICML '07. стр. 791. doi :10.1145/1273496.1273596. ISBN978-1-59593-793-3.
^ Коутс, Адам; Ли, Хонглак; Нг, Эндрю Й. (2011). Анализ однослойных сетей в неконтролируемом обучении признаков (PDF) . Международная конференция по искусственному интеллекту и статистике (AISTATS). Архивировано из оригинала (PDF) 2014-12-20 . Получено 19-12-2014 .
^ Брави, Барбара; Ди Джоаккино, Андреа; Фернандес-де-Коссио-Диас, Хорхе; Вальчак, Александра М; Мора, Тьерри; Кокко, Симона; Монассон, Реми (2023-09-08). Битбол, Энн-Флоренс; Эйзен, Майкл Б (ред.). «Подход с переносом обучения для прогнозирования иммуногенности антигена и специфичности рецептора Т-клеток». eLife . 12 : e85126. doi : 10.7554/eLife.85126 . ISSN 2050-084X. PMC 10522340 . PMID 37681658.
^ Карлео, Джузеппе; Тройер, Маттиас (2017-02-10). «Решение квантовой проблемы многих тел с помощью искусственных нейронных сетей». Science . 355 (6325): 602– 606. arXiv : 1606.02318 . Bibcode :2017Sci...355..602C. doi :10.1126/science.aag2302. ISSN 0036-8075. PMID 28183973. S2CID 206651104.
^ Мелько, Роджер Г.; Карлео, Джузеппе; Карраскилья, Хуан; Сирак, Х. Игнасио (сентябрь 2019 г.). «Ограниченные машины Больцмана в квантовой физике». Nature Physics . 15 (9): 887– 892. Bibcode :2019NatPh..15..887M. doi :10.1038/s41567-019-0545-1. ISSN 1745-2481. S2CID 256704838.
^ Пан, Руижи; Кларк, Чарльз В. (2024). «Эффективность представлений состояний нейронных сетей одномерных квантовых спиновых систем». Physical Review Research . 6 : 023193. arXiv : 2302.00173 . doi : 10.1103/PhysRevResearch.6.023193.
^ аб Мигель А. Каррейра-Перпиньян и Джеффри Хинтон (2005). О контрастном дивергентном обучении. Искусственный интеллект и статистика .
^ Хинтон, Г. (2009). «Сети глубоких убеждений». Scholarpedia . 4 (5): 5947. Bibcode : 2009SchpJ...4.5947H. doi : 10.4249/scholarpedia.5947 .
^ abcd Джеффри Хинтон (2010). Практическое руководство по обучению ограниченных машин Больцмана . UTML TR 2010–003, Университет Торонто.
^ ab Sutskever, Ilya; Tieleman, Tijmen (2010). "О свойствах конвергенции контрастивной дивергенции" (PDF) . Proc. 13th Int'l Conf. On AI and Statistics (AISTATS) . Архивировано из оригинала (PDF) 2015-06-10.
^ ab Ася Фишер и Кристиан Игель. Обучение ограниченных машин Больцмана: Введение Архивировано 2015-06-10 в Wayback Machine . Распознавание образов 47, стр. 25-39, 2014
^ Мария Анхелика Куэто; Джейсон Мортон; Бернд Штурмфельс (2010). «Геометрия ограниченной машины Больцмана». Алгебраические методы в статистике и теории вероятностей . 516. Американское математическое общество. arXiv : 0908.4425 . Bibcode : 2009arXiv0908.4425A.