Принудительное обучение — это алгоритм для обучения весов рекуррентных нейронных сетей (RNN). [1] Он включает в себя подачу наблюдаемых значений последовательности (т. е. образцов истинности) обратно в RNN после каждого шага, тем самым заставляя RNN оставаться близкой к последовательности истинности. [2]
Термин «принуждение учителя» можно мотивировать, сравнивая RNN с человеком-студентом, сдающим многочастный экзамен, где ответ на каждую часть (например, математический расчет) зависит от ответа на предыдущую часть. В этой аналогии, вместо того, чтобы оценивать каждый ответ в конце, с риском того, что студент провалит каждую отдельную часть, даже если он допустил ошибку только в первой, учитель записывает оценку за каждую отдельную часть, а затем сообщает студенту правильный ответ, который будет использоваться в следующей части. [3]
Использование внешнего сигнала учителя отличается от рекуррентного обучения в реальном времени (RTRL). [4] Сигналы учителя известны из сетей осцилляторов . [5] Обещание заключается в том, что принуждение учителя помогает сократить время обучения. [6]
Термин «принуждение учителя» был введен в 1989 году Рональдом Дж. Уильямсом и Дэвидом Зипсером, которые сообщили, что этот метод уже «часто использовался в динамических контролируемых учебных задачах» примерно в то время. [7] [2]
В статье NeurIPS 2016 был представлен связанный метод «профессорского форсинга». [2]