Эта статья может быть слишком технической для понимания большинства читателей . ( Сентябрь 2009 ) |
Обнаружение особенностей |
---|
Обнаружение краев |
Обнаружение угла |
Обнаружение пятен |
|
Обнаружение хребта |
преобразование Хафа |
Структурный тензор |
Аффинно-инвариантное обнаружение признаков |
Описание функции |
Масштаб пространства |
В компьютерном зрении методы обнаружения пятен направлены на обнаружение областей на цифровом изображении , которые отличаются по свойствам, таким как яркость или цвет, по сравнению с окружающими областями. Неформально, пятно — это область изображения, в которой некоторые свойства постоянны или приблизительно постоянны; все точки в пятне можно считать в некотором смысле похожими друг на друга. Наиболее распространенным методом обнаружения пятен является использование свертки .
Учитывая некоторое свойство интереса, выраженное как функция положения на изображении, существует два основных класса детекторов пятен: (i) дифференциальные методы , которые основаны на производных функции относительно положения, и (ii) методы, основанные на локальных экстремумах , которые основаны на нахождении локальных максимумов и минимумов функции. С более новой терминологией, используемой в этой области, эти детекторы также могут называться операторами точек интереса или, альтернативно, операторами областей интереса (см. также обнаружение точек интереса и обнаружение углов ).
Существует несколько мотивов для изучения и разработки детекторов пятен. Одна из главных причин — предоставление дополнительной информации о регионах, которая не может быть получена от детекторов краев или угловых детекторов . В ранних работах в этой области обнаружение пятен использовалось для получения интересующих регионов для дальнейшей обработки. Эти регионы могут сигнализировать о наличии объектов или частей объектов в области изображения с применением к распознаванию объектов и/или отслеживанию объектов . В других областях, таких как анализ гистограмм , дескрипторы пятен также могут использоваться для обнаружения пиков с применением к сегментации . Другое распространенное использование дескрипторов пятен — в качестве основных примитивов для анализа текстур и распознавания текстур. В более поздних работах дескрипторы пятен нашли все более популярное применение в качестве точек интереса для сопоставления стерео с широкой базовой линией и для сигнализации о наличии информативных признаков изображения для распознавания объектов на основе внешнего вида на основе локальной статистики изображения. Существует также связанное понятие обнаружения хребта для сигнализации о наличии удлиненных объектов.
Один из первых и наиболее распространенных детекторов пятен основан на Лапласиане Гаусса ( LoG ). При наличии входного изображения это изображение сворачивается с помощью ядра Гаусса
в определенном масштабе, чтобы дать представление масштабного пространства . Затем, результат применения оператора Лапласа
вычисляется, что обычно приводит к сильным положительным откликам для темных пятен радиуса (для двумерного изображения, для -мерного изображения) и сильным отрицательным откликам для ярких пятен аналогичного размера. Однако основная проблема при применении этого оператора в одном масштабе заключается в том, что отклик оператора сильно зависит от соотношения между размером структур пятен в области изображения и размером гауссовского ядра, используемого для предварительного сглаживания. Для автоматического захвата пятен разного (неизвестного) размера в области изображения необходим многомасштабный подход.
Простой способ получить многомасштабный детектор пятен с автоматическим выбором масштаба — рассмотреть нормализованный по масштабу оператор Лапласа
и для обнаружения масштабно-пространственных максимумов/минимумов , которые являются точками, которые одновременно являются локальными максимумами/минимумами по отношению как к пространству, так и к масштабу (Lindeberg 1994, 1998). Таким образом, учитывая дискретное двумерное входное изображение, вычисляется трехмерный дискретный масштабно-пространственный объем , и точка рассматривается как яркое (темное) пятно, если значение в этой точке больше (меньше), чем значение во всех ее 26 соседях. Таким образом, одновременный выбор точек интереса и масштабов выполняется в соответствии с
Обратите внимание, что это понятие блоба дает краткое и математически точное рабочее определение понятия «блоба», что напрямую приводит к эффективному и надежному алгоритму обнаружения блоба. Некоторые основные свойства блоба, определяемые из масштабно-пространственных максимумов нормализованного оператора Лапласа, заключаются в том, что отклики ковариантны с переносами, поворотами и изменениями масштаба в области изображения. Таким образом, если в точке предполагается масштабно-пространственный максимум, то при изменении масштаба изображения на масштабный коэффициент будет наблюдаться масштабно-пространственный максимум в в измененном масштабе изображения (Lindeberg 1998). Это на практике весьма полезное свойство подразумевает, что помимо специфической темы обнаружения пятен Лапласа, локальные максимумы/минимумы масштабно-нормализованного Лапласа также используются для выбора масштаба в других контекстах , например, при обнаружении углов , масштабно-адаптивном отслеживании признаков (Bretzner и Lindeberg, 1998), в масштабно-инвариантном преобразовании признаков (Lowe, 2004), а также в других дескрипторах изображений для сопоставления изображений и распознавания объектов .
Свойства выбора масштаба оператора Лапласа и других детекторов точек интереса в близком масштабном пространстве подробно анализируются в (Lindeberg 2013a). [1] В (Lindeberg 2013b, 2015) [2] [3] показано, что существуют другие детекторы точек интереса в масштабном пространстве, такие как определитель оператора Гессе, которые работают лучше, чем оператор Лапласа или его аппроксимация разностью гауссианов для сопоставления на основе изображений с использованием локальных дескрипторов изображений, подобных SIFT.
Из того факта, что представление масштабного пространства удовлетворяет уравнению диффузии
отсюда следует, что Лапласиан гауссовского оператора также может быть вычислен как предельный случай разности между двумя гауссовыми сглаженными изображениями ( представления масштабного пространства )
В литературе по компьютерному зрению этот подход называется подходом разности гауссианов (DoG). Однако, помимо незначительных технических деталей, этот оператор по сути похож на лапласиан и может рассматриваться как приближение оператора Лапласа. Аналогично детектору пятен Лапласа, пятна могут быть обнаружены из масштабно-пространственных экстремумов разностей гауссианов — см. (Lindeberg 2012, 2015) [3] [4] для явной связи между оператором разности гауссиан и масштабно-нормализованным оператором Лапласа. Этот подход, например, используется в алгоритме масштабно-инвариантного преобразования признаков (SIFT) — см. Lowe (2004).
Рассматривая нормализованный по масштабу определитель гессиана, также называемый оператором Монжа-Ампера ,
где обозначает матрицу Гессе масштабно-пространственного представления , а затем, обнаруживая масштабно-пространственные максимумы этого оператора, получаем еще один простой дифференциальный детектор пятен с автоматическим выбором масштаба, который также реагирует на седла (Линдеберг 1994, 1998)
Точки и масштабы пятен также определяются из операционных дифференциальных геометрических определений, что приводит к дескрипторам пятен, которые ковариантны с переносами, поворотами и изменениями масштаба в области изображения. С точки зрения выбора масштаба, пятна, определенные из экстремумов масштабного пространства определителя гессиана (DoH), также имеют немного лучшие свойства выбора масштаба при неевклидовых аффинных преобразованиях, чем более часто используемый оператор Лапласа (Lindeberg 1994, 1998, 2015). [3] В упрощенной форме нормализованный по масштабу определитель гессиана, вычисленный из вейвлетов Хаара, используется в качестве базового оператора точки интереса в дескрипторе SURF (Bay et al. 2006) для сопоставления изображений и распознавания объектов.
Подробный анализ свойств выбора определителя оператора Гессе и других детекторов точек интереса в близком масштабном пространстве приведен в (Lindeberg 2013a) [1], показывающий, что определитель оператора Гессе имеет лучшие свойства выбора масштаба при аффинных преобразованиях изображений, чем оператор Лапласа. В (Lindeberg 2013b, 2015) [2] [3] показано, что определитель оператора Гессе работает значительно лучше, чем оператор Лапласа или его аппроксимация разностью гауссианов, а также лучше, чем операторы Харриса или Харриса-Лапласа, для сопоставления на основе изображений с использованием локальных дескрипторов изображений типа SIFT или SURF, что приводит к более высоким значениям эффективности и более низким оценкам точности 1.
Также был предложен гибридный оператор между лапласианом и определителем гессианских детекторов пятен, где пространственный выбор выполняется определителем гессиана, а выбор масштаба выполняется с помощью масштабно-нормализованного лапласиана (Миколайчик и Шмид, 2004):
Этот оператор использовался для сопоставления изображений, распознавания объектов, а также анализа текстур.
Дескрипторы пятен, полученные из этих детекторов пятен с автоматическим выбором масштаба, инвариантны к перемещениям, поворотам и равномерному масштабированию в пространственной области. Однако изображения, которые составляют входные данные для системы компьютерного зрения, также подвержены искажениям перспективы. Чтобы получить дескрипторы пятен, которые более устойчивы к преобразованиям перспективы, естественным подходом является разработка детектора пятен, который инвариантен к аффинным преобразованиям . На практике аффинно-инвариантные точки интереса могут быть получены путем применения аффинной адаптации формы к дескриптору пятна, где форма сглаживающего ядра итеративно деформируется для соответствия локальной структуре изображения вокруг пятна, или, что эквивалентно, локальный участок изображения итеративно деформируется, в то время как форма сглаживающего ядра остается вращательно-симметричной (Lindeberg and Garding 1997; Baumberg 2000; Mikolajczyk and Schmid 2004, Lindeberg 2008). Таким образом, мы можем определить аффинно-адаптированные версии оператора Лапласа/разности Гаусса, определителя гессиана и оператора Гессе-Лапласа (см. также Харрисово-аффинный и Гессено-аффинный ).
Определитель оператора Гессе был расширен на совместное пространство-время Виллемсом и др. [5] и Линдебергом [6], что привело к следующему масштабно-нормализованному дифференциальному выражению:
В работе Виллемса и др. [5] было использовано более простое выражение, соответствующее и . В работе Линдеберга [6] было показано, что и подразумевает лучшие свойства выбора масштаба в том смысле, что выбранные уровни масштаба, полученные из пространственно-временного гауссовского пятна с пространственной протяженностью и временной протяженностью, будут идеально соответствовать пространственной протяженности и временной продолжительности пятна, при этом выбор масштаба выполняется путем обнаружения пространственно-временных экстремумов масштабного пространства дифференциального выражения.
Оператор Лапласа был расширен на пространственно-временные видеоданные Линдебергом [6], что привело к следующим двум пространственно-временным операторам, которые также представляют собой модели рецептивных полей не запаздывающих и запаздывающих нейронов в LGN:
Для первого оператора свойства выбора шкалы требуют использования и , если мы хотим, чтобы этот оператор принял свое максимальное значение по пространственно-временным шкалам на уровне пространственно-временного масштаба, отражающем пространственную протяженность и временную длительность мигающего гауссова пятна. Для второго оператора свойства выбора шкалы требуют использования и , если мы хотим, чтобы этот оператор принял свое максимальное значение по пространственно-временным шкалам на уровне пространственно-временного масштаба, отражающем пространственную протяженность и временную длительность мигающего гауссова пятна.
Естественный подход к обнаружению пятен заключается в том, чтобы связать яркое (темное) пятно с каждым локальным максимумом (минимумом) в ландшафте интенсивности. Однако основная проблема такого подхода заключается в том, что локальные экстремумы очень чувствительны к шуму. Чтобы решить эту проблему, Линдеберг (1993, 1994) изучил проблему обнаружения локальных максимумов с протяженностью в нескольких масштабах в масштабном пространстве . Регион с пространственной протяженностью, определенной по аналогии с водоразделом, был связан с каждым локальным максимумом, а также локальным контрастом, определенным по так называемой ограничивающей седловой точке. Локальный экстремум с протяженностью, определенной таким образом, назывался серым пятном . Более того, продолжая аналогию с водоразделом за пределами ограничивающей седловой точки, было определено дерево серых пятен для захвата вложенной топологической структуры множеств уровней в ландшафте интенсивности способом, который инвариантен к аффинным деформациям в области изображения и монотонным преобразованиям интенсивности. Изучая, как эти структуры развиваются с увеличением масштабов, было введено понятие пятен масштабного пространства . Помимо локального контраста и протяженности, эти пятна масштабного пространства также измеряли, насколько стабильны структуры изображения в масштабном пространстве, измеряя их время жизни в масштабном пространстве .
Было предложено, что области интереса и дескрипторы масштаба, полученные таким образом, с соответствующими уровнями масштаба, определенными из масштабов, на которых нормализованные меры силы пятна предполагали свои максимумы по масштабам, могут использоваться для руководства другими ранними визуальными процессами. Был разработан ранний прототип упрощенных систем зрения, где такие области интереса и дескрипторы масштаба использовались для направления фокуса внимания активной системы зрения. Хотя конкретная техника, которая использовалась в этих прототипах, может быть существенно улучшена с помощью современных знаний в области компьютерного зрения, общий подход все еще остается в силе, например, в том, как локальные экстремумы по масштабам нормализованного по масштабу оператора Лапласа в настоящее время используются для предоставления масштабной информации другим визуальным процессам.
Для обнаружения серых пятен (локальных экстремумов с протяженностью) по аналогии с водоразделом Линдеберг разработал алгоритм, основанный на предварительной сортировке пикселей, альтернативно связанных регионов с одинаковой интенсивностью, в порядке убывания значений интенсивности. Затем были сделаны сравнения между ближайшими соседями пикселей или связанных регионов.
Для простоты рассмотрим случай обнаружения ярких серых пятен и обозначим "более высокий сосед" как "соседний пиксель, имеющий более высокое значение серого". Тогда на любом этапе алгоритма (выполняемого в порядке убывания значений интенсивности) будут использоваться следующие правила классификации:
По сравнению с другими методами водораздела, затопление в этом алгоритме прекращается, как только уровень интенсивности падает ниже значения интенсивности так называемой ограничивающей седловой точки, связанной с локальным максимумом. Однако довольно просто распространить этот подход на другие типы конструкций водораздела. Например, пройдя за пределы первой ограничивающей седловой точки, можно построить «дерево пятен серого уровня». Более того, метод обнаружения пятен серого уровня был встроен в представление масштабного пространства и выполнялся на всех уровнях масштаба, в результате чего было получено представление, называемое первичным эскизом масштабного пространства .
Этот алгоритм с его приложениями в компьютерном зрении более подробно описан в диссертации Линдеберга [7] , а также в монографии по теории масштабного пространства [8], частично основанной на этой работе. Более ранние презентации этого алгоритма можно также найти в . [9] [10] Более подробные описания приложений обнаружения пятен серого уровня и первичного эскиза масштабного пространства для компьютерного зрения и анализа медицинских изображений приведены в . [11] [12] [13]
Матас и др. (2002) интересовались определением дескрипторов изображений, которые являются устойчивыми при перспективных преобразованиях . Они изучали наборы уровней в ландшафте интенсивности и измеряли, насколько они были стабильны вдоль измерения интенсивности. Основываясь на этой идее, они определили понятие максимально устойчивых экстремальных областей и показали, как эти дескрипторы изображений могут использоваться в качестве характеристик изображений для стереосопоставления .
Между этим понятием и вышеупомянутым понятием серого дерева блоба существуют тесные связи. Максимально устойчивые экстремальные области можно рассматривать как создание определенного подмножества серого дерева блоба, явного для дальнейшей обработки.