Эта статья написана как личное размышление, личное эссе или аргументативное эссе , в котором излагаются личные чувства редактора Википедии или представлен оригинальный аргумент по теме. ( Декабрь 2012 ) |
Архитектура Пандемониума — это теория в когнитивной науке , описывающая, как мозг обрабатывает визуальные образы. Она имеет приложения в искусственном интеллекте и распознавании образов . Теория была разработана пионером искусственного интеллекта Оливером Селфриджем в 1959 году. Она описывает процесс распознавания объектов как обмен сигналами в иерархической системе обнаружения и ассоциации, элементы которой Селфридж метафорически назвал «демонами». Эта модель в настоящее время признана основой визуального восприятия в когнитивной науке.
Архитектура Пандемониума возникла в ответ на неспособность теорий сопоставления шаблонов предложить биологически правдоподобное объяснение феномена постоянства изображения . Современные [ когда? ] исследователи хвалят эту архитектуру за ее элегантность и креативность; что идея наличия нескольких независимых систем (например, детекторов признаков ), работающих параллельно для решения феномена постоянства изображения распознавания образов, является мощной, но простой. Основная идея архитектуры Пандемониума заключается в том, что образ сначала воспринимается по частям, а затем «целым». [1]
Архитектура Pandemonium была одной из первых вычислительных моделей в распознавании образов. Хотя архитектура Pandemonium не была идеальной, она повлияла на развитие современных моделей коннекционизма , искусственного интеллекта и распознавания слов . [2]
Большинство исследований восприятия были сосредоточены на зрительной системе, изучая механизмы того, как мы видим и понимаем объекты. Критической функцией нашей зрительной системы является ее способность распознавать образы, но механизм, посредством которого это достигается, неясен. [3]
Самая ранняя теория, которая пыталась объяснить, как мы распознаем шаблоны, — это модель сопоставления шаблонов. Согласно этой модели, мы сравниваем все внешние стимулы с внутренним ментальным представлением. Если между воспринимаемым стимулом и внутренним представлением есть «достаточное» совпадение, мы «распознаем» стимул. Хотя некоторые машины следуют модели сопоставления шаблонов (например, банковские автоматы, проверяющие подписи и бухгалтерские номера), теория имеет критический изъян в объяснении феномена постоянства изображения: мы можем легко распознать стимул независимо от изменений в форме его представления (например, T и T оба легко распознаются как буква T). Крайне маловероятно, что у нас есть сохраненный шаблон для всех вариаций каждого отдельного шаблона. [4]
В результате критики биологической правдоподобности модели сопоставления шаблонов начали появляться модели обнаружения признаков. В модели обнаружения признаков изображение сначала воспринимается в своих основных индивидуальных элементах, прежде чем оно распознается как целый объект. Например, когда нам показывают букву A, мы сначала видим короткую горизонтальную линию и две наклонные длинные диагональные линии. Затем мы объединяем признаки, чтобы завершить восприятие A. Каждый уникальный узор состоит из различной комбинации признаков, что означает, что те, которые сформированы с теми же признаками, будут генерировать одинаковое распознавание. То есть, независимо от того, как мы вращаем букву A, она все равно воспринимается как буква A. Для такого рода архитектуры легко учесть явления постоянства изображения, потому что вам нужно только «соответствовать» на базовом уровне признаков, который, как предполагается, ограничен и конечен, поэтому биологически правдоподобен. Самая известная модель обнаружения признаков называется архитектурой пандемониума. [4]
Архитектура пандемониума была первоначально разработана Оливером Селфриджем в конце 1950-х годов. Архитектура состоит из различных групп «демонов», работающих независимо друг от друга для обработки визуального стимула. Каждая группа демонов назначается на определенную стадию распознавания, и внутри каждой группы демоны работают параллельно. В оригинальной архитектуре есть четыре основные группы демонов. [3]
Этап | Имя демона | Функция |
---|---|---|
1 | Демон изображения | Регистрирует изображение, полученное сетчаткой глаза. |
2 | Демоны функций | Существует множество демонов признаков, каждый из которых представляет определенный признак. Например, есть демон признаков для коротких прямых линий, другой для изогнутых линий и так далее. Задача каждого демона признаков — «кричать», если он обнаруживает признак, которому он соответствует. Обратите внимание, что демоны признаков не предназначены для представления каких-либо конкретных нейронов , а представляют группу нейронов, имеющих схожие функции. Например, демон признаков вертикальных линий используется для представления нейронов, которые реагируют на вертикальные линии на сетчаточном изображении. |
3 | Когнитивные демоны | Посмотрите на «крики» демонов признаков. Каждый когнитивный демон отвечает за определенный шаблон (например, букву в алфавите). «Крики» когнитивных демонов основаны на том, какая часть их шаблона была обнаружена демонами признаков. Чем больше демоны признаков находят соответствующих их шаблону признаков, тем громче они «кричат». Например, если демоны признаков изогнутых, длинных прямых и коротких угловых линий кричат очень громко, когнитивный демон буквы R может сильно возбудиться, а когнитивный демон буквы P также может быть несколько возбужден; но когнитивный демон буквы Z, скорее всего, будет молчать. |
4 | Демон принятия решений | Представляет собой конечную стадию обработки. Он слушает «крики», производимые когнитивными демонами. Он выбирает самого громкого когнитивного демона. Выбранный демон становится нашим сознательным восприятием. Продолжая наш предыдущий пример, когнитивный демон R будет самым громким, за ним следует P; поэтому мы воспримем R, но если мы допустим ошибку из-за плохих условий отображения (например, буквы быстро мелькают или имеют закрытые части), это, скорее всего, будет P. Обратите внимание, что «пандемониум» просто представляет собой кумулятивный «крик», производимый системой. |
Концепция демонов признаков, то есть наличие определенных нейронов, предназначенных для выполнения специализированной обработки, подтверждается исследованиями в области нейронауки. Хьюбел и Визель обнаружили, что в мозге кошки есть определенные клетки , которые реагируют на определенную длину и ориентацию линии. Аналогичные результаты были обнаружены у лягушек , осьминогов и множества других животных. Было обнаружено, что осьминоги чувствительны только к вертикальности линий, тогда как лягушки демонстрируют более широкий диапазон чувствительности. Эти эксперименты на животных показывают, что детекторы признаков, по-видимому, являются очень примитивным развитием. То есть, они не являются результатом более высокого когнитивного развития людей. Неудивительно, что есть также доказательства того, что человеческий мозг также обладает этими элементарными детекторами признаков. [5] [6] [7]
Более того, эта архитектура способна к обучению, подобно нейронной сети в стиле обратного распространения . Вес между когнитивными и признаками демонов может быть скорректирован пропорционально разнице между правильным шаблоном и активацией от когнитивных демонов. Продолжая наш предыдущий пример, когда мы впервые узнали букву R, мы знали, что она состоит из изогнутой, длинной прямой и короткой угловой линии. Таким образом, когда мы воспринимаем эти черты, мы воспринимаем R. Однако буква P состоит из очень похожих черт, поэтому на начальных этапах обучения эта архитектура, вероятно, ошибочно идентифицирует R как P. Но посредством постоянного подтверждения черт R, которые идентифицируются как R, веса черт R по отношению к P корректируются, так что реакция P становится подавленной (например, обучение подавлению реакции P при обнаружении короткой угловой линии). В принципе, архитектура пандемониума может распознавать любой шаблон. [8]
Как упоминалось ранее, эта архитектура делает прогнозы ошибок на основе количества перекрывающихся признаков. Например, наиболее вероятной ошибкой для R должна быть P. Таким образом, чтобы показать, что эта архитектура представляет собой систему распознавания образов человека, мы должны проверить эти прогнозы. Исследователи построили сценарии, в которых различные буквы представлены в ситуациях, которые затрудняют их идентификацию; затем были обнаружены типы ошибок, которые использовались для создания матриц путаницы: где все ошибки для каждой буквы записаны. Как правило, результаты этих экспериментов совпадали с прогнозами ошибок из архитектуры пандемониума. Также в результате этих экспериментов некоторые исследователи предложили модели, которые пытались перечислить все основные признаки в латинском алфавите . [9] [10] [11] [12]
Основная критика архитектуры пандемониума заключается в том, что она принимает полностью обработку снизу вверх: распознавание полностью обусловлено физическими характеристиками целевого стимула. Это означает, что она не способна учитывать какие-либо эффекты обработки сверху вниз, такие как эффекты контекста ( например , парейдолия ), где контекстные подсказки могут способствовать (например, эффект превосходства слова: относительно легче идентифицировать букву, когда она является частью слова, чем изолированно) обработке. Однако это не фатальная критика для общей архитектуры, потому что относительно легко добавить группу контекстных демонов для работы вместе с когнитивными демонами для учета этих эффектов контекста. [13]
Хотя архитектура пандемониума построена на том факте, что она может учитывать явления постоянства изображения, некоторые исследователи утверждали обратное; и указывали, что архитектура пандемониума может иметь те же недостатки, что и модели сопоставления шаблонов. Например, буква H состоит из 2 длинных вертикальных линий и короткой горизонтальной линии; но если мы повернем H на 90 градусов в любом направлении, она теперь будет состоять из 2 длинных горизонтальных линий и короткой вертикальной линии. Чтобы распознать повернутую H как H, нам понадобится повернутый когнитивный демон H. Таким образом, мы можем получить систему, которая требует большого количества когнитивных демонов для точного распознавания, что приведет к той же критике биологического правдоподобия моделей сопоставления шаблонов. Однако довольно сложно судить о справедливости этой критики, поскольку архитектура пандемониума не определяет, как и какие признаки извлекаются из входящей сенсорной информации, она просто описывает возможные этапы распознавания образов. Но, конечно, это поднимает свои собственные вопросы, на которые практически невозможно критиковать такую модель, если она не включает определенные параметры. Кроме того, теория представляется неполной без определения того, как и какие признаки извлекаются, что оказывается особенно проблематичным в случае сложных шаблонов (например, извлечение веса и признаков собаки). [3] [14]
Некоторые исследователи также отметили, что доказательства, подтверждающие архитектуру пандемониума, были очень узкими по своей методологии. Большинство исследований, которые поддерживают эту архитектуру, часто ссылались на ее способность распознавать простые схематические рисунки, выбранные из небольшого конечного набора (например, буквы латинского алфавита). Доказательства из этих типов экспериментов могут привести к чрезмерно обобщенным и вводящим в заблуждение выводам, поскольку процесс распознавания сложных трехмерных узоров может сильно отличаться от простых схем. Кроме того, некоторые критиковали методологию, используемую при создании матрицы путаницы, поскольку она смешивает перцептивную путаницу (ошибку в идентификации, вызванную перекрытием признаков между ошибкой и правильным ответом) с постперцептивным угадыванием (люди случайным образом угадывают, потому что они не могут быть уверены в том, что они увидели). Однако эта критика была несколько устранена, когда аналогичные результаты были воспроизведены с другими парадигмами (например, «годен/не годен» и «то же самое-разное»), поддерживая утверждение о том, что у людей действительно есть элементарные детекторы признаков. Эти новые парадигмы опирались на время реакции как на зависимую переменную, что также позволяло избежать проблемы пустых ячеек, присущей матрице путаницы (статистический анализ трудно проводить и интерпретировать, когда данные имеют пустые ячейки). [7]
Кроме того, некоторые исследователи указали, что теории накопления признаков, такие как архитектура пандемониума, имеют этапы обработки распознавания образов почти в обратном порядке. Эта критика в основном использовалась сторонниками теории «от глобального к локальному», которые утверждали и предоставляли доказательства того, что восприятие начинается с размытого представления целого, которое со временем уточняется, подразумевая, что извлечение признаков не происходит на ранних стадиях распознавания. [15] Однако нет ничего, что могло бы помешать демону распознавать глобальный образец параллельно с другими демонами, распознающими локальные образцы внутри глобального образца.
Архитектура пандемониума была применена для решения нескольких реальных задач, таких как перевод отправленных вручную кодов Морзе и идентификация рукописных букв. Общая точность моделей на основе пандемониума впечатляет, даже когда системе давали короткий период обучения. Например, Дойл построил систему на основе пандемониума с более чем 30 сложными анализаторами признаков. Затем он скормил своей системе несколько сотен букв для обучения. На этом этапе система анализировала введенную букву и генерировала свой собственный вывод (то, как система идентифицирует букву). Вывод системы сравнивался с правильной идентификацией, которая отправляет сигнал об ошибке обратно в систему для соответствующей корректировки весов между анализаторами признаков. На этапе тестирования были представлены незнакомые буквы (другой стиль и размер букв, чем те, которые были представлены на этапе обучения), и система смогла достичь почти 90% точности. Из-за его впечатляющей способности распознавать слова все современные теории о том, как люди читают и распознают слова, следуют этой иерархической структуре: распознавание слов начинается с извлечения признаков букв, которые затем активируют детекторы букв [16] (например, SOLAR, [17] SERIOL, [18] IA, [19] DRC [20] ).
Основываясь на оригинальной архитектуре пандемониума, Джон Джексон расширил теорию, чтобы объяснить явления за пределами восприятия. Джексон предложил аналогию арены для объяснения « сознания ». Его арена состояла из трибуны, игрового поля и субарены. Арена была населена множеством демонов. Демоны, которые были обозначены на игровых полях, были активными демонами, поскольку они представляют собой активные элементы человеческого сознания. Демоны на трибунах должны наблюдать за теми, кто находится на игровом поле, пока что-то не возбудит их; каждый демон возбуждается разными вещами. Чем больше возбуждаются демоны, тем громче они кричат. Если крик демона превышает установленный порог, он присоединяется к другим демонам на игровом поле и выполняет свою функцию, что затем может возбудить других демонов, и этот цикл продолжается. Субарена в аналогии функционирует как механизм обучения и обратной связи системы. Система обучения здесь похожа на любые другие нейронные сети, которые работают посредством изменения силы связи между демонами; другими словами, как демоны реагируют на крики друг друга. Этот многоагентный подход к обработке человеческой информации стал предположением для многих современных систем искусственного интеллекта. [21] [22]
Хотя архитектура пандемониума возникла как ответ на серьезную критику теорий сопоставления шаблонов, на самом деле они довольно похожи в некотором смысле: есть процесс, в котором определенный набор признаков для элементов сопоставляется с неким ментальным представлением. Критическое различие между ними заключается в том, что изображение напрямую сравнивается с внутренним представлением в теориях сопоставления шаблонов, тогда как в архитектуре пандемониума изображение сначала рассеивается и обрабатывается на уровне признаков. Это предоставило архитектурам пандемониума огромную силу, поскольку они способны распознавать стимул, несмотря на его изменения в размере, стиле и другие преобразования; без предположения о неограниченной памяти шаблонов. Также маловероятно, что теории сопоставления шаблонов будут правильно функционировать при столкновении с реалистичными визуальными входами, где объекты представлены в трех измерениях и часто закрыты другими объектами (например, половина книги закрыта листом бумаги, но мы все равно можем распознать ее как книгу с относительной легкостью). Тем не менее, некоторые исследователи провели эксперименты, сравнивающие две теории. Неудивительно, что результаты часто благоприятствовали иерархической модели построения объектов, подобной архитектуре пандемониума. [23] [24] [25]
Модель Хебба во многих аспектах напоминает теории, ориентированные на признаки, такие как архитектура пандемониума. Первый уровень обработки в модели Хебба называется клеточным ассоциатом, который имеет очень похожие функции с демонами признаков. Однако клеточные ассоциаты более ограничены, чем демоны признаков, потому что они могут извлекать только линии, углы и контуры. Клеточные ассоциаты объединяются для формирования фазовых последовательностей, что очень похоже на функцию когнитивных демонов. В некотором смысле многие считают модель Хебба кроссовером между теориями шаблона и сопоставления признаков, поскольку признаки, извлеченные из моделей Хебба, можно рассматривать как базовые шаблоны. [8]
Neisser, Ulric.