Обучающийся автомат

Обучающийся автомат — это один из типов алгоритмов машинного обучения , изучаемых с 1970-х годов. Обучающиеся автоматы выбирают свое текущее действие на основе прошлого опыта из окружающей среды. Он попадет в диапазон обучения с подкреплением, если окружающая среда является стохастической и используется процесс принятия решений Маркова (MDP).

История

Исследования в области обучающихся автоматов можно проследить до работ Михаила Львовича Цетлина в начале 1960-х годов в Советском Союзе. Вместе с некоторыми коллегами он опубликовал сборник статей о том, как использовать матрицы для описания функций автоматов. Кроме того, Цетлин работал над разумным и коллективным поведением автоматов и над играми автоматов . Обучающиеся автоматы также изучались исследователями в Соединенных Штатах в 1960-х годах. Однако термин обучающийся автомат не использовался, пока Нарендра и Тхатхачар не ввели его в обзорной статье в 1974 году.

Определение

Обучающийся автомат — это адаптивный блок принятия решений, расположенный в случайной среде, который изучает оптимальное действие посредством повторяющихся взаимодействий со своей средой. Действия выбираются в соответствии с определенным распределением вероятностей, которое обновляется на основе реакции среды, которую автомат получает, выполняя определенное действие.

В области обучения с подкреплением обучающиеся автоматы характеризуются как итераторы политики . В отличие от других обучающихся с подкреплением итераторы политики напрямую манипулируют политикой π. Другим примером итераторов политики являются эволюционные алгоритмы .

Формально Нарендра и Татхачар определяют стохастический автомат как состоящий из:

  • набор X возможных входов,
  • множество Φ = { Φ 1 , ..., Φ s } возможных внутренних состояний,
  • набор α = { α 1 , ..., α r } возможных выходов или действий, где rs ,
  • начальный вектор вероятности состояния p(0) = ≪ p 1 (0), ..., p s (0) ≫,
  • вычислимая функция A , которая после каждого временного шага t генерирует p ( t +1) из p ( t ), текущего входа и текущего состояния, и
  • функция G : Φ → α, которая генерирует выходной сигнал на каждом временном шаге.

В своей статье они исследуют только стохастические автоматы с r = s и G , являющимися биективными , что позволяет им путать действия и состояния. Состояния такого автомата соответствуют состояниям «дискретно-параметрического марковского процесса ». [1] На каждом временном шаге t = 0,1,2,3,... автомат считывает входные данные из своей среды, обновляет p ( t ) до p ( t +1) с помощью A , случайным образом выбирает последующее состояние в соответствии с вероятностями p ( t +1) и выводит соответствующее действие. Среда автомата, в свою очередь, считывает действие и отправляет следующие входные данные автомату. Часто используется набор входных данных X = { 0,1 }, где 0 и 1 соответствуют нештрафному и штрафному ответу среды соответственно; в этом случае автомат должен научиться минимизировать количество штрафных ответов, а обратная связь автомата и среды называется «P-моделью». В более общем смысле, «Q-модель» допускает произвольный конечный набор входных данных X , а «S-модель» использует интервал [0,1] действительных чисел в качестве X. [2]

Визуализированная демонстрационная версия [3] [4] / Художественное произведение одного обучающегося автомата была разработана исследовательской группой μSystems (microSystems) в Университете Ньюкасла.

Автоматы обучения с конечным набором действий

Обучающиеся автоматы с конечным набором действий (FALA) — это класс обучающихся автоматов, для которых число возможных действий конечно или, выражаясь более математическими терминами, для которых размер набора действий конечен. [5]

Смотрите также

Литература

  • Филип Аранзулла и Джон Меллор (Домашняя страница):
    • Меллор Дж. и Аранзулла П. (2000): «Использование среды реагирования S-модели с обучающимися схемами маршрутизации на основе автоматов для сетей IP», Труды Восьмого семинара IFIP по моделированию и оценке производительности сетей ATM и IP, стр. 56/1-56/12, Илкли, Великобритания.
    • Аранзулла П. и Меллор Дж. (1997): «Сравнение двух алгоритмов маршрутизации, требующих сокращенного объема сигнализации при применении в сетях ATM», Труды Четырнадцатого британского симпозиума по телетрафику по проектированию производительности в информационных системах, стр. 20/1-20/4, UMIST, Манчестер, Великобритания.
  • Narendra K.; Thathachar MAL (июль 1974 г.). «Обучающиеся автоматы – обзор» (PDF) . IEEE Transactions on Systems, Man, and Cybernetics . SMC-4 (4): 323–334. CiteSeerX  10.1.1.295.2280 . doi :10.1109/tsmc.1974.5408453.
  • Цетлин М. Л. Теория автоматики и моделирование биологических систем. Academic Press; 1973. [ постоянная мертвая ссылка ]

Ссылки

  1. ^ (Нарендра, Татачар, 1974) стр.325 слева
  2. ^ (Нарендра, Татачар, 1974) стр.325 справа
  3. ^ JieGH (2019-11-11), JieGH/The-Ruler-of-Tsetlin-Automaton , получено 2020-07-22
  4. ^ "Правитель-Цетлин-Автоматона". www.youtube.com . Получено 2020-07-22 .
  5. ^ Thathachar, MAL; Sastry, PS (декабрь 2002 г.). «Разновидности обучающихся автоматов: обзор» (PDF) . IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics . 32 (6): 711–722. doi :10.1109/TSMCB.2002.1049606. PMID  18244878.
Взято с "https://en.wikipedia.org/w/index.php?title=Learning_automaton&oldid=1224019288"