В машинном обучении гроккинг или отложенное обобщение — это переход к обобщению , который происходит через много итераций обучения после порога интерполяции , после многих итераций, казалось бы, небольшого прогресса, в отличие от обычного процесса, где обобщение происходит медленно и постепенно после достижения порога интерполяции. [2] [3] [4]
Grokking был представлен в январе 2022 года исследователями OpenAI , изучающими, как нейронные сети выполняют вычисления. Он происходит от слова grok, придуманного Робертом Хайнлайном в его романе Stranger in a Strange Land . [1]
Гроккинг можно понимать как фазовый переход в процессе обучения. [5] Хотя гроккинг считался в основном явлением относительно поверхностных моделей, гроккинг наблюдался в глубоких нейронных сетях и не-нейронных моделях и является предметом активных исследований. [6] [7] [8] [9]
Одно из возможных объяснений заключается в том, что спад веса (компонент функции потерь, который штрафует более высокие значения параметров нейронной сети, также называемый регуляризацией) немного благоприятствует общему решению, которое включает более низкие значения веса, но его также сложнее найти. По словам Нила Нанды, процесс обучения общему решению может быть постепенным, хотя переход к общему решению происходит более внезапно позже. [1]
Ссылки
^ abc Ananthaswamy, Anil (2024-04-12). «Как машины „Grok“ данные?». Журнал Quanta . Получено 2025-01-21 .
^ Минегиси, Гоки; Ивасава, Юсукэ; Мацуо, Ютака (2024-05-09). «Соединяя лотерейный билет и грокинг: достаточно ли нормы веса для объяснения отложенного обобщения?». arXiv : 2310.19470 [cs.LG].
^ Лю, Зиминг; Китуни, Уайл; Нолте, Никлас; Мишо, Эрик Дж.; Тегмарк, Макс; Уильямс, Майк (2022). «К пониманию гроккинга: эффективная теория обучения репрезентации». В Koyejo, Sanmi; Mohamed, S.; Agarwal, A.; Belgrave, Danielle; Cho, K.; Oh, A. (ред.). Достижения в области нейронных систем обработки информации 35: Ежегодная конференция по нейронным системам обработки информации 2022, NeurIPS 2022, Новый Орлеан, Луизиана, США, 28 ноября – 9 декабря 2022 г. arXiv : 2205.10343 .
^ Фан, Симин; Паскану, Разван; Джагги, Мартин (29.05.2024). «Глубокий гроккинг: будут ли глубокие нейронные сети лучше обобщать?». arXiv : 2405.19454 [cs.LG].
^ Миллер, Джек; О'Нил, Чарльз; Буй, Тан (31.03.2024). «Grokking Beyond Neural Networks: An Empirical Exploration with Model Complexity». arXiv : 2310.17247 [cs.LG].
^ Самотракис, Спиридон; Матран-Фернандес, Ана; Абдуллахи, Умар И.; Фэрбэнк, Майкл; Фасли, Мария (2022). «Эффекты, подобные гроккингу, в контрфактуальном выводе». Международная совместная конференция по нейронным сетям, IJCNN 2022, Падуя, Италия, 18–23 июля 2022 г. IEEE. стр. 1–8 . doi :10.1109/IJCNN55064.2022.9891910. ISBN978-1-7281-8671-9.