Теория масштабного пространства — это структура для многомасштабного представления сигнала , разработанная сообществами компьютерного зрения , обработки изображений и обработки сигналов с дополнительными мотивами из физики и биологического зрения . Это формальная теория для обработки структур изображения в разных масштабах , путем представления изображения как однопараметрического семейства сглаженных изображений, представления масштабного пространства , параметризованного размером сглаживающего ядра, используемого для подавления мелкомасштабных структур. [1] [2] [3] [4] [5] [6] [7] [8] Параметр в этом семействе называется параметром масштаба , с интерпретацией того, что структуры изображения пространственного размера, меньшего примерно, в значительной степени сглажены на уровне масштабного пространства в масштабе .
Основным типом масштабного пространства является линейное (гауссово) масштабное пространство , которое имеет широкую применимость, а также привлекательное свойство быть выведенным из небольшого набора аксиом масштабного пространства . Соответствующая структура масштабного пространства охватывает теорию для гауссовых производных операторов, которая может быть использована в качестве основы для выражения большого класса визуальных операций для компьютеризированных систем, которые обрабатывают визуальную информацию. Эта структура также позволяет сделать визуальные операции масштабно-инвариантными , что необходимо для работы с изменениями размеров, которые могут возникнуть в данных изображения, поскольку объекты реального мира могут иметь разные размеры, и, кроме того, расстояние между объектом и камерой может быть неизвестно и может меняться в зависимости от обстоятельств. [9] [10]
Понятие масштабного пространства применяется к сигналам произвольного числа переменных. Наиболее распространенный случай в литературе применяется к двумерным изображениям, что и представлено здесь. Для заданного изображения его линейное (гауссово) масштабное пространственное представление представляет собой семейство производных сигналов, определяемых сверткой с двумерным гауссовым ядром
такой что
где точка с запятой в аргументе подразумевает, что свертка выполняется только над переменными , тогда как параметр масштаба после точки с запятой просто указывает, какой уровень масштаба определяется. Это определение работает для континуума масштабов , но обычно фактически рассматривается только конечный дискретный набор уровней в представлении масштабного пространства.
Параметр масштаба является дисперсией гауссовского фильтра и в качестве предела для фильтра становится импульсной функцией , так что представление масштабного пространства на уровне масштаба является самим изображением . По мере увеличения является результатом сглаживания с помощью все большего и большего фильтра, тем самым удаляя все больше и больше деталей, которые содержит изображение. Поскольку стандартное отклонение фильтра равно , детали, которые значительно меньше этого значения, в значительной степени удаляются из изображения при параметре масштаба , см. следующий рисунок и [11] для графических иллюстраций.
Столкнувшись с задачей генерации многомасштабного представления, можно спросить: может ли любой фильтр g низкочастотного типа с параметром t , определяющим его ширину, использоваться для генерации масштабного пространства? Ответ — нет, поскольку крайне важно, чтобы сглаживающий фильтр не вносил новые ложные структуры в грубых масштабах, которые не соответствуют упрощениям соответствующих структур в более мелких масштабах. В литературе по масштабному пространству было выражено несколько различных способов сформулировать этот критерий в точных математических терминах.
Вывод из нескольких различных аксиоматических выводов, которые были представлены, заключается в том, что гауссово масштабное пространство представляет собой канонический способ генерации линейного масштабного пространства, основанный на существенном требовании, что новые структуры не должны создаваться при переходе от мелкого масштаба к любому более грубому масштабу. [1] [3] [4] [6] [9] [12] [ 13 ] [14] [ 15] [ 16] [17] [18] [19] Условия, называемые аксиомами масштабного пространства , которые использовались для вывода уникальности гауссова ядра, включают линейность , инвариантность сдвига , полугрупповую структуру, неусиление локальных экстремумов , масштабную инвариантность и вращательную инвариантность . В работах [15] [20] [21] уникальность, заявленная в аргументах, основанных на масштабной инвариантности, была подвергнута критике, и были предложены альтернативные самоподобные ядра масштабного пространства. Однако гауссовское ядро является уникальным выбором в соответствии с аксиоматикой масштабного пространства, основанной на причинности [3] или неусилении локальных экстремумов. [16] [18]
Эквивалентно , семейство масштабного пространства может быть определено как решение уравнения диффузии (например, в терминах уравнения теплопроводности ),
с начальным условием . Эта формулировка масштабно-пространственного представления L означает, что можно интерпретировать значения интенсивности изображения f как «распределение температуры» в плоскости изображения и что процесс, который генерирует масштабно-пространственное представление как функцию t, соответствует диффузии тепла в плоскости изображения с течением времени t (предполагая, что теплопроводность материала равна произвольно выбранной константе 1/2 ). Хотя эта связь может показаться поверхностной для читателя, не знакомого с дифференциальными уравнениями , на самом деле основная формулировка масштабного пространства в терминах неусиления локальных экстремумов выражается в терминах знакового условия для частных производных в 2+1-мерном объеме, генерируемом масштабным пространством, таким образом, в рамках частных дифференциальных уравнений . Более того, подробный анализ дискретного случая показывает, что уравнение диффузии обеспечивает объединяющую связь между непрерывными и дискретными масштабными пространствами, которая также обобщается на нелинейные масштабные пространства, например, с использованием анизотропной диффузии . Следовательно, можно сказать, что основным способом генерации масштабного пространства является уравнение диффузии, и что гауссово ядро возникает как функция Грина этого конкретного частного дифференциального уравнения.
Мотивация создания масштабно-пространственного представления заданного набора данных исходит из базового наблюдения, что объекты реального мира состоят из различных структур в различных масштабах . Это подразумевает, что объекты реального мира, в отличие от идеализированных математических сущностей, таких как точки или линии , могут выглядеть по-разному в зависимости от масштаба наблюдения. Например, концепция «дерева» уместна в масштабе метров, в то время как такие концепции, как листья и молекулы, более уместны в более мелких масштабах. Для системы компьютерного зрения, анализирующей неизвестную сцену, нет способа узнать априори, какие масштабы подходят для описания интересных структур в данных изображения. Следовательно, единственный разумный подход — рассматривать описания в нескольких масштабах, чтобы иметь возможность фиксировать неизвестные изменения масштаба, которые могут возникнуть. Доведенное до предела, масштабно-пространственное представление рассматривает представления во всех масштабах. [9]
Другая мотивация концепции масштабного пространства исходит из процесса выполнения физического измерения на реальных данных. Чтобы извлечь какую-либо информацию из процесса измерения, необходимо применить к данным операторы не бесконечно малого размера . Во многих разделах компьютерной науки и прикладной математики размер оператора измерения игнорируется при теоретическом моделировании проблемы. С другой стороны, теория масштабного пространства явно включает необходимость в не бесконечно малом размере операторов изображения как неотъемлемой части любого измерения, а также любой другой операции, которая зависит от реального измерения. [5]
Тесная связь между теорией масштабного пространства и биологическим зрением. Многие операции масштабного пространства показывают высокую степень сходства с рецептивными профилями полей, зарегистрированными с сетчатки млекопитающих и первых стадий в зрительной коре. В этом отношении структура масштабного пространства может рассматриваться как теоретически обоснованная парадигма для раннего зрения, которая, кроме того, была тщательно проверена алгоритмами и экспериментами. [4] [9]
В любом масштабе в масштабном пространстве мы можем применить локальные производные операторы к представлению масштабного пространства:
Из-за коммутативного свойства между оператором производной и оператором сглаживания Гаусса такие производные масштабного пространства могут быть эквивалентно вычислены путем свертки исходного изображения с операторами производной Гаусса. По этой причине их часто также называют производными Гаусса :
Уникальность гауссовых производных операторов как локальных операций, полученных из представления масштабного пространства, может быть получена с помощью аналогичных аксиоматических выводов, которые используются для вывода уникальности гауссова ядра для сглаживания масштабного пространства. [4] [22]
Эти операторы производных Гаусса, в свою очередь, могут быть объединены линейными или нелинейными операторами в большее разнообразие различных типов детекторов признаков, которые во многих случаях могут быть хорошо смоделированы дифференциальной геометрией . В частности, инвариантность (или, что более правильно, ковариантность ) к локальным геометрическим преобразованиям, таким как вращения или локальные аффинные преобразования, может быть получена путем рассмотрения дифференциальных инвариантов в соответствующем классе преобразований или, в качестве альтернативы, путем нормализации операторов производных Гаусса к локально определенной системе координат, определяемой, например, из предпочтительной ориентации в области изображения, или путем применения предпочтительного локального аффинного преобразования к локальному фрагменту изображения (см. статью об аффинной адаптации формы для получения дополнительных сведений).
Когда операторы производной Гаусса и дифференциальные инварианты используются таким образом в качестве базовых детекторов признаков в нескольких масштабах, незафиксированные первые этапы визуальной обработки часто называют визуальным фронт-эндом . Эта общая структура была применена к большому количеству проблем в компьютерном зрении, включая обнаружение признаков , классификацию признаков , сегментацию изображений , сопоставление изображений , оценку движения , вычисление признаков формы и распознавание объектов . Набор операторов производной Гаусса до определенного порядка часто называют N-струей и составляют базовый тип признаков в рамках масштабно-пространственной структуры.
Следуя идее выражения визуальных операций в терминах дифференциальных инвариантов, вычисляемых в нескольких масштабах с использованием операторов производной Гаусса, мы можем выразить детектор краев из набора точек, которые удовлетворяют требованию, что величина градиента
следует предполагать локальный максимум в направлении градиента
Разрабатывая дифференциальную геометрию, можно показать [4] , что этот дифференциальный детектор края может быть эквивалентно выражен из нулевых пересечений дифференциального инварианта второго порядка
которые удовлетворяют следующему условию знака на дифференциальном инварианте третьего порядка:
Аналогично, многомасштабные детекторы пятен в любом заданном фиксированном масштабе [23] [9] могут быть получены из локальных максимумов и локальных минимумов оператора Лапласа (также называемого Лапласианом Гаусса )
или определитель матрицы Гессе
Аналогичным образом, детекторы углов и детекторы гребней и долин могут быть выражены как локальные максимумы, минимумы или нулевые пересечения многомасштабных дифференциальных инвариантов, определенных из гауссовых производных. Алгебраические выражения для операторов обнаружения углов и гребней, однако, несколько сложнее, и читатель отсылается к статьям об обнаружении углов и обнаружении гребней для получения более подробной информации.
Операции масштабного пространства также часто использовались для выражения методов «от грубого к точному», в частности, для таких задач, как сопоставление изображений и многомасштабная сегментация изображений .
Представленная до сих пор теория описывает хорошо обоснованную структуру для представления структур изображения в нескольких масштабах. Во многих случаях, однако, также необходимо выбрать локально подходящие масштабы для дальнейшего анализа. Эта необходимость в выборе масштаба возникает по двум основным причинам: (i) объекты реального мира могут иметь разный размер, и этот размер может быть неизвестен системе зрения, и (ii) расстояние между объектом и камерой может меняться, и эта информация о расстоянии также может быть неизвестна априори . Очень полезным свойством представления масштабного пространства является то, что представления изображений могут быть сделаны инвариантными к масштабам, выполняя автоматический локальный выбор масштаба [9] [10] [23] [24] [25] [26] [27] [28] на основе локальных максимумов (или минимумов ) по масштабам нормализованных по масштабу производных
где - параметр, связанный с размерностью признака изображения. Это алгебраическое выражение для нормализованных по масштабу гауссовых производных операторов происходит от введения -нормализованных производных согласно
Теоретически можно показать, что модуль выбора масштаба, работающий по этому принципу, будет удовлетворять следующему свойству масштабной ковариации : если для определенного типа характеристики изображения предполагается локальный максимум на определенном изображении в определенном масштабе , то при изменении масштаба изображения на коэффициент масштабирования локальный максимум по масштабам в измененном масштабе будет преобразован в уровень масштаба . [23]
Следуя этому подходу гамма-нормализованных производных, можно показать, что различные типы масштабно-адаптивных и масштабно-инвариантных детекторов признаков [9] [10] [23] [24] [25] [29] [30] [27] могут быть выражены для таких задач, как обнаружение пятен , обнаружение углов , обнаружение хребтов , обнаружение краев и обнаружение пространственно-временных точек интереса (см. специальные статьи по этим темам для подробного описания того, как формулируются эти масштабно-инвариантные детекторы признаков). Кроме того, уровни масштаба, полученные из автоматического выбора масштаба, могут использоваться для определения областей интереса для последующей аффинной адаптации формы [31] для получения аффинно-инвариантных точек интереса [32] [33] или для определения уровней масштаба для вычисления связанных дескрипторов изображений , таких как локально-масштабно адаптированные N-струи .
Недавние исследования показали, что более сложные операции, такие как масштабно-инвариантное распознавание объектов , могут быть выполнены таким образом, путем вычисления локальных дескрипторов изображений (N-струй или локальных гистограмм направлений градиента) в масштабно-адаптированных точках интереса, полученных из масштабно-пространственных экстремумов нормализованного оператора Лапласа (см. также масштабно-инвариантное преобразование признаков [34] ) или определителя гессиана (см. также SURF ); [35] см. также статью в Scholarpedia о масштабно-инвариантном преобразовании признаков [36] для более общего взгляда на подходы распознавания объектов, основанные на реакциях рецептивного поля [19] [37] [38] [39] в терминах гауссовых производных операторов или их приближений.
Пирамида изображения — это дискретное представление, в котором масштабное пространство дискретизируется как в пространстве, так и в масштабе. Для масштабной инвариантности масштабные факторы должны дискретизироваться экспоненциально, например, как целые степени 2 или √ 2 . При правильном построении отношение частот дискретизации в пространстве и масштабе поддерживается постоянным, так что импульсный отклик одинаков на всех уровнях пирамиды. [40] [41] [42] [43] Существуют быстрые, O(N), алгоритмы для вычисления масштабно-инвариантной пирамиды изображения, в которой изображение или сигнал многократно сглаживаются, а затем подвергаются субдискретизации. Значения для масштабного пространства между образцами пирамиды можно легко оценить с помощью интерполяции внутри и между шкалами и допуска оценки масштаба и положения с точностью субразрешения. [43]
В представлении масштабного пространства существование непрерывного параметра масштаба позволяет отслеживать нулевые пересечения по масштабам, приводящие к так называемой глубокой структуре . Для признаков, определенных как нулевые пересечения дифференциальных инвариантов , теорема о неявной функции напрямую определяет траектории по масштабам, [4] [44] и в тех масштабах, где происходят бифуркации, локальное поведение может быть смоделировано теорией сингулярности . [4] [44] [45] [46] [47]
Расширения теории линейного масштабного пространства касаются формулировки нелинейных концепций масштабного пространства, более привязанных к конкретным целям. [48] [49] Эти нелинейные масштабные пространства часто начинаются с эквивалентной диффузионной формулировки концепции масштабного пространства, которая впоследствии расширяется нелинейным образом. Большое количество уравнений эволюции было сформулировано таким образом, мотивированное различными конкретными требованиями (см. вышеупомянутые ссылки на книги для получения дополнительной информации). Следует отметить, однако, что не все эти нелинейные масштабные пространства удовлетворяют таким же «хорошим» теоретическим требованиям, как и концепция линейного гауссова масштабного пространства. Следовательно, иногда могут возникать неожиданные артефакты, и следует быть очень осторожным, чтобы не использовать термин «масштабное пространство» для любого типа однопараметрического семейства изображений.
Расширение первого порядка изотропного гауссовского масштабного пространства обеспечивается аффинным (гауссовым) масштабным пространством . [4] Одна из мотиваций для этого расширения исходит из общей потребности в вычислении дескрипторов изображений, подлежащих для объектов реального мира, которые просматриваются в перспективной модели камеры. Чтобы обрабатывать такие нелинейные деформации локально, частичная инвариантность (или, правильнее сказать, ковариантность ) к локальным аффинным деформациям может быть достигнута путем рассмотрения аффинных гауссовых ядер с их формами, определяемыми локальной структурой изображения, [31] см. статью об аффинной адаптации формы для теории и алгоритмов. Действительно, это аффинное масштабное пространство также может быть выражено из неизотропного расширения линейного (изотропного) уравнения диффузии, при этом все еще находясь в классе линейных уравнений с частными производными .
Существует более общее расширение гауссовой модели масштабного пространства на аффинные и пространственно-временные масштабные пространства. [4] [31] [18] [19] [50] В дополнение к изменчивости по масштабу, для обработки которой была разработана исходная теория масштабного пространства, эта обобщенная теория масштабного пространства [19] также включает другие типы изменчивости, вызванные геометрическими преобразованиями в процессе формирования изображения, включая изменения в направлении просмотра, аппроксимированные локальными аффинными преобразованиями, и относительные движения между объектами в мире и наблюдателем, аппроксимированные локальными преобразованиями Галилея . Эта обобщенная теория масштабного пространства приводит к предсказаниям о профилях рецептивного поля в хорошем качественном согласии с профилями рецептивного поля, измеренными с помощью записей клеток в биологическом зрении. [51] [52] [50] [53]
Между теорией масштабного пространства и теорией вейвлетов существуют прочные связи , хотя эти два понятия многомасштабного представления были разработаны из несколько разных предпосылок. Также велась работа над другими многомасштабными подходами , такими как пирамиды и множество других ядер, которые не используют или не требуют тех же требований, что и истинные описания масштабного пространства.
Существуют интересные связи между масштабно-пространственным представлением и биологическим зрением и слухом. Нейрофизиологические исследования биологического зрения показали, что существуют рецептивные профили полей в сетчатке млекопитающих и зрительной коре , которые могут быть хорошо смоделированы линейными гауссовыми производными операторами, в некоторых случаях также дополненными неизотропной аффинной масштабно-пространственной моделью, пространственно-временной масштабно-пространственной моделью и/или нелинейными комбинациями таких линейных операторов. [18] [51] [52] [50] [53] [54] [55] [56] [57]
Что касается биологического слуха, то существуют рецептивные профили полей в нижнем холмике и первичной слуховой коре , которые можно хорошо смоделировать с помощью спектрально-временных рецептивных полей, которые можно хорошо смоделировать с помощью гауссовых производных по логарифмическим частотам и оконных преобразований Фурье по времени, причем оконные функции являются ядрами временного масштаба-пространства. [58] [59]
В области классического компьютерного зрения теория масштабного пространства зарекомендовала себя как теоретическая основа для раннего зрения, при этом гауссовские производные составляют каноническую модель для первого слоя рецептивных полей. С введением глубокого обучения также проводилась работа по использованию гауссовых производных или гауссовых ядер в качестве общей основы для рецептивных полей в глубоких сетях. [60] [61] [62] [63] [64] Используя свойства преобразования гауссовых производных и гауссовых ядер при масштабных преобразованиях, таким образом можно получить масштабную ковариацию/эквивариантность и масштабную инвариантность глубокой сети для обработки структур изображений в разных масштабах теоретически обоснованным образом. [62] [63] Также были разработаны подходы для получения масштабной ковариации/эквивариантности и масштабной инвариантности с помощью обученных фильтров в сочетании с несколькими масштабными каналами. [65] [66] [67] [68] [69] [70] В частности, используя понятия масштабной ковариантности/эквивариантности и масштабной инвариантности, можно заставить глубокие сети работать надежно в масштабах, не охваченных обучающими данными, тем самым обеспечивая масштабное обобщение. [62] [63] [67] [69]
Для обработки предварительно записанных временных сигналов или видео гауссовское ядро также может использоваться для сглаживания и подавления мелкомасштабных структур во временной области, поскольку данные предварительно записаны и доступны во всех направлениях. Однако при обработке временных сигналов или видео в ситуациях реального времени гауссово ядро не может использоваться для временного сглаживания, поскольку оно будет получать доступ к данным из будущего, которые, очевидно, не могут быть доступны. Для временного сглаживания в ситуациях реального времени можно вместо этого использовать временное ядро, называемое ядром предела причинно-следственной связи [71] , которое обладает аналогичными свойствами в причинно-следственной ситуации (несоздание новых структур в направлении увеличения масштаба и временной масштабной ковариации), как гауссово ядро подчиняется в некаузальном случае. Ядро временного причинно-следственного предела соответствует свертке с бесконечным числом усеченных экспоненциальных ядер, соединенных каскадом, со специально выбранными временными константами для получения временной масштабной ковариации. Для дискретных данных это ядро часто может быть численно хорошо аппроксимировано небольшим набором рекурсивных фильтров первого порядка, соединенных каскадом, см. [71] для получения дополнительных подробностей.
Для более раннего подхода к обработке временных шкал причинно-следственным способом, выполняя гауссово сглаживание по логарифмически преобразованной временной оси, однако не имея какой-либо известной эффективной по памяти рекурсивной реализации времени, как у причинно-следственного предельного ядра, см. [72]
При реализации сглаживания масштабного пространства на практике существует ряд различных подходов, которые могут быть приняты в терминах непрерывного или дискретного гауссовского сглаживания, реализации в области Фурье, в терминах пирамид на основе биномиальных фильтров, которые аппроксимируют гауссову или с использованием рекурсивных фильтров. Более подробно об этом дано в отдельной статье о реализации масштабного пространства .
{{cite book}}
: |journal=
проигнорировано ( помощь ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь )