Детектор аффинной области Харриса

В области компьютерного зрения и анализа изображений детектор аффинных областей Харриса относится к категории обнаружения признаков . Обнаружение признаков — это этап предварительной обработки нескольких алгоритмов, которые полагаются на идентификацию характерных точек или точек интереса для установления соответствий между изображениями, распознавания текстур, категоризации объектов или построения панорам.

Обзор

Аффинный детектор Харриса может определять схожие области между изображениями, которые связаны посредством аффинных преобразований и имеют разное освещение. Эти аффинно-инвариантные детекторы должны быть способны определять схожие области на изображениях, снятых с разных точек зрения, которые связаны посредством простого геометрического преобразования: масштабирования, поворота и сдвига. Эти обнаруженные области называются как инвариантными , так и ковариантными . С одной стороны, области обнаруживаются инвариантно относительно преобразования изображения, но области ковариантно изменяются с преобразованием изображения. ^[1] Не стоит слишком подробно останавливаться на этих двух соглашениях об именовании; важно понимать, что конструкция этих точек интереса сделает их совместимыми между изображениями, снятыми с разных точек зрения. Другие детекторы, которые являются аффинно-инвариантными, включают детектор аффинных областей Гессе , максимально стабильные экстремальные области , детектор заметности Кадира–Брейди , области на основе ребер (EBR) и области на основе экстремумов интенсивности (IBR).

Миколайчик и Шмид (2002) впервые описали аффинный детектор Харриса в том виде, в котором он используется сегодня, в работе An Affine Invariant Interest Point Detector. ^[2] Более ранние работы в этом направлении включают использование аффинной адаптации формы Линдебергом и Гардингом для вычисления аффинно-инвариантных дескрипторов изображения и, таким образом, уменьшения влияния перспективных деформаций изображения, ^[3] использование аффинно-адаптированных характерных точек для широкого сопоставления базовой линии Баумбергом ^[4] и первое использование масштабно-инвариантных характерных точек Линдебергом; ^[5]^[6]^[7] для обзора теоретической основы. Аффинный детектор Харриса опирается на комбинацию угловых точек, обнаруженных с помощью обнаружения углов Харриса , многомасштабного анализа с помощью гауссова масштабного пространства и аффинной нормализации с использованием итеративного алгоритма аффинной адаптации формы . Рекурсивный и итеративный алгоритм следует итеративному подходу к обнаружению этих областей:

Определите начальные точки области с помощью масштабно-инвариантного детектора Харриса-Лапласа .
Для каждой начальной точки нормализуем область, сделав ее аффинно-инвариантной, используя аффинную адаптацию формы .
Итеративно оценить аффинную область: выбрать правильную шкалу интегрирования, шкалу дифференциации и пространственно локализовать интересующие точки.
Обновите аффинную область, используя эти масштабы и пространственные локализации.
Повторите шаг 3, если критерий остановки не выполнен.

Описание алгоритма

Детектор Харриса-Лапласа (начальные точки области)

Аффинный детектор Харриса в значительной степени опирается как на меру Харриса, так и на представление гауссова масштабного пространства . Поэтому краткое рассмотрение обоих следует ниже. Для более исчерпывающих выводов см. обнаружение углов и гауссово масштабное пространство или связанные с ними статьи. ^[6]^[8]

Угловая мера Харриса

Алгоритм детектора углов Харриса основан на центральном принципе: в углу интенсивность изображения будет значительно меняться в нескольких направлениях. Это можно сформулировать альтернативно, изучив изменения интенсивности из-за сдвигов в локальном окне. Вокруг угловой точки интенсивность изображения будет значительно меняться, когда окно сдвигается в произвольном направлении. Следуя этой интуиции и посредством умного разложения, детектор Харриса использует матрицу второго момента в качестве основы своих решений по углам. (См. обнаружение углов для более полного вывода). Матрица также называется матрицей автокорреляции и имеет значения, тесно связанные с производными интенсивности изображения . $A$

A(\mathbf {x} )=\sum _{p,q}w(p,q){\begin{bmatrix}I_{x}^{2}(p,q)&I_{x}I_{y}(p,q)\\I_{x}I_{y}(p,q)&I_{y}^{2}(p,q)\\\end{bmatrix}}

где и — соответствующие производные (интенсивности пикселя) в направлении и в точке ( , ); и — параметры положения весовой функции w. Недиагональные элементы являются произведением и , тогда как диагональные элементы являются квадратами соответствующих производных . Весовая функция может быть однородной, но чаще всего является изотропной круговой гауссовой, $I_{x}$ $I_{y}$ $x$ $y$ $p$ $q$ $p$ $q$ $I_{x}$ $I_{y}$ $w(x,y)$

w(x,y)=g(x,y,\sigma )={\frac {1}{2\pi \sigma ^{2}}}e^{\left(-{\frac {x^{2}+y^{2}}{2\sigma ^{2}}}\right)}

который усредняет данные в локальном регионе, при этом значения вблизи центра взвешиваются сильнее.

Как оказалось, эта матрица описывает форму меры автокорреляции как следствие сдвигов в расположении окна. Таким образом, если мы позволим и быть собственными значениями , то эти значения дадут количественное описание того, как мера автокорреляции изменяется в пространстве: ее главные кривизны. Как указывают Харрис и Стивенс (1988), матрица, центрированная на угловых точках, будет иметь два больших положительных собственных значения. ^[8] Вместо того, чтобы извлекать эти собственные значения с помощью таких методов, как разложение по сингулярным значениям, используется мера Харриса, основанная на следе и определителе: $A$ $\lambda _{1}$ $\lambda _{2}$ $A$ $A$

R=\det(A)-\alpha \operatorname {trace} ^{2}(A)=\lambda _{1}\lambda _{2}-\alpha (\lambda _{1}+\lambda _{2})^{2}

где — константа. Угловые точки имеют большие положительные собственные значения и, таким образом, будут иметь большую меру Харриса. Таким образом, угловые точки определяются как локальные максимумы меры Харриса, которые превышают указанный порог. $\alpha$

{\begin{aligned}\{x_{c}\}={\big \{}x_{c}\mid R(x_{c})>R(x_{i}),\forall x_{i}\in W(x_{c}){\big \}},\\R(x_{c})>t_{\text{threshold}}\end{aligned}}

где — множество всех угловых точек, — мера Харриса, вычисленная при , — набор из 8 соседей, центрированный на , — заданный порог. $\{x_{c}\}$ $R(x)$ $x$ $W(x_{c})$ $x_{c}$ $t_{\text{threshold}}$

Гауссово масштабное пространство

Представление изображения в масштабном пространстве Гаусса — это набор изображений, которые получаются в результате свертки гауссовского ядра различных размеров с исходным изображением. В общем случае представление можно сформулировать следующим образом:

L(\mathbf {x} ,s)=G(s)\otimes I(\mathbf {x} )

где — изотропное, круговое гауссово ядро, как определено выше. Свертка с гауссовым ядром сглаживает изображение, используя окно размером с ядро. Больший масштаб, , соответствует более гладкому результирующему изображению. Миколайчик и Шмид (2001) отмечают, что производные и другие измерения должны быть нормализованы по масштабам. ^[9] Производная порядка , , должна быть нормализована с помощью фактора следующим образом: $G(s)$ $s$ $m$ $D_{i_{1},...i_{m}}$ $s^{m}$

D_{i_{1},\dots ,i_{m}}(\mathbf {x} ,s)=s^{m}L_{i_{1},\dots ,i_{m}}(\mathbf {x} ,s)

Эти производные или любая произвольная мера могут быть адаптированы к представлению масштабного пространства путем вычисления этой меры с использованием набора масштабов рекурсивно, где масштаб th равен . См. масштабное пространство для более полного описания. $n$ $s_{n}=k^{n}s_{0}$

Объединение детектора Харриса в гауссовском масштабном пространстве

Детектор Харриса–Лапласа объединяет традиционный 2D детектор углов Харриса с идеей представления гауссовского масштабного пространства для создания масштабно-инвариантного детектора. Точки углов Харриса являются хорошими отправными точками, поскольку, как было показано, они обладают хорошей инвариантностью вращения и освещения в дополнение к идентификации интересных точек изображения. ^[10] Однако точки не являются масштабно-инвариантными, и, таким образом, матрица второго момента должна быть изменена для отражения масштабно-инвариантного свойства. Обозначим как масштабно-адаптированную матрицу второго момента, используемую в детекторе Харриса–Лапласа. $M=\mu (\mathbf {x} ,\sigma _{\mathit {I}},\sigma _{\mathit {D}})$

M=\mu (\mathbf {x} ,\sigma _{\mathit {I}},\sigma _{\mathit {D}})=\sigma _{D}^{2}g(\sigma _{I})\otimes {\begin{bmatrix}L_{x}^{2}(\mathbf {x} ,\sigma _{D})&L_{x}L_{y}(\mathbf {x} ,\sigma _{D})\\L_{x}L_{y}(\mathbf {x} ,\sigma _{D})&L_{y}^{2}(\mathbf {x} ,\sigma _{D})\end{bmatrix}}

^[11]

где — гауссово ядро масштаба и . Подобно пространству гауссовых масштабов, — гауссово сглаженное изображение. Оператор обозначает свертку. и — производные в соответствующем направлении, примененные к сглаженному изображению и вычисленные с использованием гауссова ядра с масштабом . В терминах нашей структуры гауссовского масштабного пространства параметр определяет текущий масштаб, в котором обнаруживаются угловые точки Харриса. $g(\sigma _{I})$ $\sigma _{I}$ $\mathbf {x} =(x,y)$ $L(\mathbf {x} )$ $\mathbf {\otimes }$ $L_{x}(\mathbf {x} ,\sigma _{D})$ $L_{y}(\mathbf {x} ,\sigma _{D})$ $\sigma _{D}$ $\sigma _{I}$

Детектор Харриса-Лапласа , основанный на этой адаптированной к масштабу матрице второго момента, представляет собой двойной процесс: применение углового детектора Харриса в нескольких масштабах и автоматический выбор характерного масштаба .

Многомасштабные угловые точки Харриса

Алгоритм ищет по фиксированному числу предопределенных шкал. Этот набор шкал определяется как:

{\sigma _{1}\dots \sigma _{n}}={k^{1}\sigma _{0}\dots k^{n}\sigma _{0}}

Миколайчик и Шмид (2004) используют . Для каждой шкалы интеграции, , выбранной из этого набора, выбирается соответствующая шкала дифференциации, которая является постоянным множителем шкалы интеграции: . Миколайчик и Шмид (2004) использовали . ^[11] Используя эти шкалы, точки интереса обнаруживаются с помощью меры Харриса на матрице. Угловость, как и типичная мера Харриса, определяется как: $k=1.4$ $\sigma _{I}$ $\sigma _{D}=s\sigma _{I}$ $s=0.7$ $\mu (\mathbf {x} ,\sigma _{\mathit {I}},\sigma _{\mathit {D}})$

{\mathit {cornerness}}=\det(\mu (\mathbf {x} ,\sigma _{\mathit {I}},\sigma _{\mathit {D}}))-\alpha \operatorname {trace} ^{2}(\mu (\mathbf {x} ,\sigma _{\mathit {I}},\sigma _{\mathit {D}}))

Как и в традиционном детекторе Харриса, угловые точки — это локальные (в районе 8 точек) максимумы угловатости , которые превышают заданный порог.

Характерная идентификация масштаба

Итеративный алгоритм, основанный на Линдеберге (1998), как пространственно локализует угловые точки, так и выбирает характерный масштаб . ^[6] Итеративный поиск состоит из трех ключевых шагов, которые выполняются для каждой точки , которая была первоначально обнаружена в масштабе многомасштабным детектором Харриса ( указывает итерацию): $\mathbf {x}$ $\sigma _{I}$ $k$ $kth$

Выберите масштаб , который максимизирует Лапласиан Гауссовых функций (LoG) в предопределенном диапазоне соседних масштабов. $\sigma _{I}^{(k+1)}$ Соседние масштабы обычно выбираются из диапазона, который находится в пределах двухмасштабной окрестностей. То есть, если исходные точки были обнаружены с использованием масштабного коэффициента между последовательными масштабами, двухмасштабная окрестность — это диапазон . Таким образом, рассматриваемые гауссовы масштабы: . Измерение LoG определяется как: $1.4$ $t\in [0.7,\dots ,1.4]$ $\sigma _{I}^{(k+1)}=t\sigma _{I}^{k}$

|\operatorname {LoG} (\mathbf {x} ,\sigma _{I})|=\sigma _{I}^{2}\left|L_{xx}(\mathbf {x} ,\sigma _{I})+L_{yy}(\mathbf {x} ,\sigma _{I})\right|

где и — вторые производные в соответствующих направлениях. ^[12] Фактор (как обсуждалось выше в гауссовом масштабном пространстве) используется для нормализации LoG по масштабам и делает эти меры сопоставимыми, тем самым делая максимум релевантным. Миколайчик и Шмид (2001) демонстрируют, что мера LoG достигает самого высокого процента правильно обнаруженных угловых точек по сравнению с другими мерами выбора масштаба. ^[9] Масштаб, который максимизирует эту меру LoG в двух масштабных пространственных окрестностях, считается характерным масштабом , , и используется в последующих итерациях. Если экстремумы или максимумы LoG не найдены, эта точка отбрасывается из будущих поисков.

L_{xx}

L_{yy}

\sigma _{I}^{2}

\sigma _{I}^{(k+1)}

Используя характеристическую шкалу, точки пространственно локализуются. То есть, точка выбирается таким образом, чтобы она максимизировала угловую меру Харриса ( угловость, как определено выше) в пределах локальной окрестности 8×8. $\mathbf {x} ^{(k+1)}$
Критерий остановки : и . $\sigma _{I}^{(k+1)}==\sigma _{I}^{(k)}$ $\mathbf {x} ^{(k+1)}==\mathbf {x} ^{(k)}$

Если критерий остановки не выполняется, то алгоритм повторяется с шага 1, используя новые точки и масштаб. Когда критерий остановки выполняется, найденные точки представляют собой те, которые максимизируют LoG по масштабам (выбор масштаба) и максимизируют меру угла Харриса в локальной окрестности (пространственный выбор). $k+1$

Аффинно-инвариантные точки

Математическая теория

Точки, обнаруженные Харрисом–Лапласом, масштабно инвариантны и хорошо работают для изотропных областей, которые просматриваются с одного и того же угла зрения. Чтобы быть инвариантными к произвольным аффинным преобразованиям (и точкам зрения), математическая структура должна быть пересмотрена. Матрица второго момента определяется более обобщенно для анизотропных областей: $\mathbf {\mu }$

\mu (\mathbf {x} ,\Sigma _{I},\Sigma _{D})=\det(\Sigma _{D})g(\Sigma _{I})*(\nabla L(\mathbf {x} ,\Sigma _{D})\nabla L(\mathbf {x} ,\Sigma _{D})^{T})

где и — матрицы ковариации, определяющие масштабы дифференциации и интегрирования гауссовского ядра. Хотя это может выглядеть существенно отличающимся от матрицы второго момента в детекторе Харриса–Лапласа, на самом деле это идентично. Более ранняя матрица была 2D-изотропной версией, в которой матрицы ковариации и были единичными матрицами 2x2, умноженными на множители и , соответственно. В новой формулировке можно рассматривать гауссовы ядра как многомерные гауссовские распределения в отличие от равномерного гауссова ядра. Равномерное гауссово ядро можно рассматривать как изотропную круговую область. Аналогично, более общее гауссово ядро определяет эллипсоид. Фактически, собственные векторы и собственные значения ковариационной матрицы определяют поворот и размер эллипсоида. Таким образом, мы можем легко увидеть, что это представление позволяет нам полностью определить произвольную эллиптическую аффинную область, по которой мы хотим интегрировать или дифференцировать. $\Sigma _{I}$ $\Sigma _{D}$ $\mu$ $\Sigma _{I}$ $\Sigma _{D}$ $\sigma _{I}$ $\sigma _{D}$

Целью аффинного инвариантного детектора является идентификация областей на изображениях, которые связаны посредством аффинных преобразований. Таким образом, мы рассматриваем точку и преобразованную точку , где A — аффинное преобразование. В случае изображений и и находятся в пространстве. Матрицы второго момента связаны следующим образом: ^[3] $\mathbf {x} _{L}$ $\mathbf {x} _{R}=A\mathbf {x} _{L}$ $\mathbf {x} _{R}$ $\mathbf {x} _{L}$ $R^{2}$

{\begin{aligned}\mu (\mathbf {x} _{L},\Sigma _{I,L},\Sigma _{D,L})&{}=A^{T}\mu (\mathbf {x} _{R},\Sigma _{I,R},\Sigma _{D,R})A\\M_{L}&{}=\mu (\mathbf {x} _{L},\Sigma _{I,L},\Sigma _{D,L})\\M_{R}&{}=\mu (\mathbf {x} _{R},\Sigma _{I,R},\Sigma _{D,R})\\M_{L}&{}=A^{T}M_{R}A\\\Sigma _{I,R}&{}=A\Sigma _{I,L}A^{T}{\text{ and }}\Sigma _{D,R}=A\Sigma _{D,L}A^{T}\end{aligned}}

где и — матрицы ковариации для системы отсчета. Если мы продолжим эту формулировку и убедимся, что $\Sigma _{I,b}$ $\Sigma _{D,b}$ $b$

{\begin{aligned}\Sigma _{I,L}=\sigma _{I}M_{L}^{-1}\\\Sigma _{D,L}=\sigma _{D}M_{L}^{-1}\end{aligned}}

где и являются скалярными множителями, можно показать, что ковариационные матрицы для связанной точки связаны аналогичным образом: $\sigma _{I}$ $\sigma _{D}$

{\begin{aligned}\Sigma _{I,R}=\sigma _{I}M_{R}^{-1}\\\Sigma _{D,R}=\sigma _{D}M_{R}^{-1}\end{aligned}}

Требуя, чтобы матрицы ковариации удовлетворяли этим условиям, возникает несколько хороших свойств. Одно из этих свойств заключается в том, что квадратный корень матрицы второго момента преобразует исходную анизотропную область в изотропные области, которые связаны просто через матрицу чистого вращения . Эти новые изотропные области можно рассматривать как нормализованную систему отсчета. Следующие уравнения формулируют связь между нормализованными точками и : $M^{\tfrac {1}{2}}$ $R$ $x_{R}^{'}$ $x_{L}^{'}$

{\begin{aligned}A=M_{R}^{-{\tfrac {1}{2}}}RM_{L}^{\tfrac {1}{2}}\\x_{R}^{'}=M_{R}^{\tfrac {1}{2}}x_{R}\\x_{L}^{'}=M_{L}^{\tfrac {1}{2}}x_{L}\\x_{L}^{'}=Rx_{R}^{'}\\\end{aligned}}

Матрицу вращения можно восстановить с помощью градиентных методов, подобных тем, что используются в дескрипторе SIFT . Как обсуждалось с детектором Харриса, собственные значения и собственные векторы матрицы второго момента характеризуют кривизну и форму интенсивности пикселей. То есть собственный вектор, связанный с наибольшим собственным значением, указывает направление наибольшего изменения, а собственный вектор, связанный с наименьшим собственным значением, определяет направление наименьшего изменения. В двумерном случае собственные векторы и собственные значения определяют эллипс. Для изотропной области область должна иметь круглую форму, а не эллиптическую. Это тот случай, когда собственные значения имеют одинаковую величину. Таким образом, мера изотропии вокруг локальной области определяется следующим образом: $M=\mu (\mathbf {x} ,\Sigma _{I},\Sigma _{D})$

{\mathcal {Q}}={\frac {\lambda _{\min }(M)}{\lambda _{\max }(M)}}

где обозначают собственные значения. Эта мера имеет диапазон . Значение соответствует идеальной изотропии. $\lambda$ $[0\dots 1]$ $1$

Итеративный алгоритм

Используя эту математическую структуру, алгоритм аффинного детектора Харриса итеративно обнаруживает матрицу второго момента, которая преобразует анизотропную область в нормализованную область, в которой изотропная мера достаточно близка к единице. Алгоритм использует эту матрицу адаптации формы , , для преобразования изображения в нормализованную систему отсчета. В этом нормализованном пространстве параметры точек интереса (пространственное положение, масштаб интегрирования и масштаб дифференциации) уточняются с использованием методов, аналогичных детектору Харриса–Лапласа. Матрица второго момента вычисляется в этой нормализованной системе отсчета и должна иметь изотропную меру, близкую к единице на последней итерации. На каждой итерации каждая область интереса определяется несколькими параметрами, которые должен обнаружить алгоритм: матрица, положение , масштаб интегрирования и масштаб дифференциации . Поскольку детектор вычисляет матрицу второго момента в преобразованной области, удобно обозначить это преобразованное положение как , где . $U$ $k$ $U^{(k)}$ $\mathbf {x} ^{(k)}$ $\sigma _{I}^{(k)}$ $\sigma _{D}^{(k)}$ $\mathbf {x} _{w}^{(k)}$ $U^{(k)}\mathbf {x} _{w}^{(k)}=\mathbf {x^{(k)}}$

Детектор инициализирует пространство поиска точками, обнаруженными детектором Харриса-Лапласа.
$U^{(0)}={\mathit {identity}}$ и , , и являются данными детектора Харриса-Лапласа. $\mathbf {x} ^{(0)}$ $\sigma _{D}^{(0)}$ $\sigma _{I}^{(0)}$
Применяем матрицу адаптации формы предыдущей итерации , чтобы сгенерировать нормализованную систему отсчета, . Для первой итерации вы применяете . $U^{(k-1)}$ $U^{(k-1)}\mathbf {x} _{w}^{(k-1)}=\mathbf {x} ^{(k-1)}$ $U^{(0)}$
Выберите масштаб интегрирования , , используя метод, аналогичный детектору Харриса–Лапласа. Масштаб выбирается как масштаб, который максимизирует Лапласиан Гаусса (LoG). Пространство поиска масштабов находится в пределах двух масштабных пространств масштаба предыдущих итераций. $\sigma _{I}^{(k)}$
$\sigma _{I}^{(k)}={\underset {\sigma _{I}=t\sigma _{I}^{(k-1)} \atop t\in [0.7,\dots ,1.4]}{\operatorname {argmax} }}\,\sigma _{I}^{2}\det(L_{xx}(\mathbf {x} ,\sigma _{I})+L_{yy}(\mathbf {x} ,\sigma _{I}))$
Важно отметить, что масштаб интегрирования в пространстве существенно отличается от ненормализованного пространства. Поэтому необходимо искать масштаб интегрирования, а не использовать масштаб в ненормализованном пространстве. $U-normalized$
Выберите масштаб дифференциации , . Чтобы уменьшить пространство поиска и степени свободы, масштаб дифференциации принимается связанным со шкалой интегрирования через постоянный множитель: . По понятным причинам постоянный множитель меньше единицы. Миколайчик и Шмид (2001) отмечают, что слишком малый множитель сделает сглаживание (интеграцию) слишком значительным по сравнению с дифференциацией, а слишком большой множитель не позволит интеграции усреднить ковариационную матрицу. ^[9] Обычно выбирают . Из этого набора выбранный масштаб максимизирует изотропную меру . $\sigma _{D}^{(k)}$ $\sigma _{D}^{k}=s\sigma _{I}^{k}$ $s\in [0.5,0.75]$ ${\mathcal {Q}}={\frac {\lambda _{min}(\mu )}{\lambda _{max}(\mu )}}$
$\sigma _{D}^{(k)}={\underset {\sigma _{D}=s\sigma _{I}^{(k)},\;s\in [0.5,\dots ,0.75]}{\operatorname {argmax} }}\,{\frac {\lambda _{\min }(\mu (\mathbf {x} _{w}^{(k)},\sigma _{I}^{k},\sigma _{D}))}{\lambda _{\max }(\mu (\mathbf {x} _{w}^{(k)},\sigma _{I}^{k},\sigma _{D}))}}$
где — матрица второго момента, оцененная в нормализованной системе отсчета. Этот процесс максимизации приводит к тому, что собственные значения сходятся к одному и тому же значению. $\mu (\mathbf {x} _{w}^{(k)},\sigma _{I}^{k},\sigma _{D})$
Пространственная локализация: выберите точку , которая максимизирует меру угла Харриса ( ) в пределах 8-точечной окрестности вокруг предыдущей точки. $\mathbf {x} _{w}^{(k)}$ ${\mathit {cornerness}}$ $\mathbf {x} _{w}^{(k-1)}$
$\mathbf {x} _{w}^{(k)}={\underset {\mathbf {x} _{w}\in W(\mathbf {x} _{w}^{(k-1)})}{\operatorname {argmax} }}\,\det(\mu (\mathbf {x} _{w},\sigma _{I}^{k},\sigma _{D}^{(k)}))-\alpha \operatorname {trace} ^{2}(\mu (\mathbf {x} _{w},\sigma _{I}^{k},\sigma _{D}^{(k)}))$
где — матрица второго момента, как определено выше. Окно — это набор из 8 ближайших соседей точки предыдущей итерации в нормализованной системе отсчета. Поскольку наша пространственная локализация была выполнена в -нормализованной системе отсчета, вновь выбранная точка должна быть преобразована обратно в исходную систему отсчета. Это достигается путем преобразования вектора смещения и добавления его к предыдущей точке: $\mu$ $W(\mathbf {x} _{w}^{(k-1)})$ $U$
$\mathbf {x} ^{(k)}=\mathbf {x} ^{(k-1)}+U^{(k-1)}\cdot (\mathbf {x} _{w}^{(k)}-\mathbf {x} _{w}^{(k-1)})$
Как упоминалось выше, квадратный корень матрицы второго момента определяет матрицу преобразования, которая генерирует нормализованную систему отсчета. Таким образом, нам нужно сохранить эту матрицу: . Матрица преобразования обновляется: . Чтобы гарантировать, что изображение будет выбрано правильно, и мы расширяем изображение в направлении наименьшего изменения (наименьшего собственного значения), мы фиксируем максимальное собственное значение: . Используя этот метод обновления, можно легко увидеть, что окончательная матрица принимает следующий вид: $\mu _{i}^{(k)}=\mu ^{-{\tfrac {1}{2}}}(\mathbf {x} _{w}^{(k)},\sigma _{I}^{(k)},\sigma _{D}^{(k)})$ $U$ $U^{(k)}=\mu _{i}^{(k)}\cdot U^{(k-1)}$ $\lambda _{max}(U^{(k)})=1$ $U$
$U=\prod _{k}\mu _{i}^{(k)}\cdot U^{(0)}=\prod _{k}(\mu ^{-{\tfrac {1}{2}}})^{(k)}\cdot U^{(0)}$
Если критерий остановки не выполняется, переходим к следующей итерации на шаге 2. Поскольку алгоритм итеративно решает матрицу , преобразующую анизотропную область в изотропную, имеет смысл остановиться, когда изотропная мера, , достаточно близка к своему максимальному значению 1. Достаточно близко подразумевает следующее условие остановки : $U-normalization$ ${\mathcal {Q}}={\frac {\lambda _{\min }(\mu )}{\lambda _{\max }(\mu )}}$
$1-{\frac {\lambda _{\min }(\mu _{i}^{(k)})}{\lambda _{\max }(\mu _{i}^{(k)})}}<\varepsilon _{C}$
Миколайчик и Шмид (2004) добились большого успеха с . $\epsilon _{C}=0.05$

Расчет и реализация

Вычислительная сложность аффинного детектора Харриса делится на две части: начальное обнаружение точки и аффинная нормализация области. Алгоритм начального обнаружения точки, Харриса–Лапласа, имеет сложность , где — количество пикселей в изображении. Алгоритм аффинной нормализации области автоматически определяет масштаб и оценивает матрицу адаптации формы , . Этот процесс имеет сложность , где — количество начальных точек, — размер пространства поиска для автоматического выбора масштаба, — количество итераций, необходимых для вычисления матрицы. ^[11] ${\mathcal {O}}(n)$ $n$ $U$ ${\mathcal {O}}((m+k)p)$ $p$ $m$ $k$ $U$

Существуют некоторые методы, позволяющие уменьшить сложность алгоритма за счет точности. Один из методов заключается в исключении поиска на шаге дифференцирующей шкалы. Вместо того чтобы выбирать фактор из набора факторов, ускоренный алгоритм выбирает шкалу, которая будет постоянной для всех итераций и точек: . Хотя это сокращение пространства поиска может уменьшить сложность, это изменение может серьезно повлиять на сходимость матрицы . $s$ $\sigma _{D}=s\sigma _{I},\;s=constant$ $U$

Анализ

Конвергенция

Можно представить, что этот алгоритм может идентифицировать дублирующиеся точки интереса в нескольких масштабах. Поскольку аффинный алгоритм Харриса рассматривает каждую начальную точку, заданную детектором Харриса–Лапласа, независимо, нет никакой дискриминации между идентичными точками. На практике было показано, что эти точки в конечном итоге все сойдутся в одну и ту же точку интереса. После завершения идентификации всех точек интереса алгоритм учитывает дубликаты, сравнивая пространственные координаты ( ), шкалу интегрирования , изотропную меру и перекос. ^[11] Если эти параметры точек интереса схожи в пределах указанного порогового значения, то они помечаются как дубликаты. Алгоритм отбрасывает все эти дубликаты точек, за исключением точки интереса, которая ближе всего к среднему значению дубликатов. Обычно 30% аффинных точек Харриса являются различными и достаточно непохожими, чтобы их не отбрасывать. ^[11] $\mathbf {x}$ $\sigma _{I}$ ${\tfrac {\lambda _{\min }(U)}{\lambda _{\max }(U)}}$

Миколайчик и Шмид (2004) показали, что часто начальные точки (40%) не сходятся. Алгоритм обнаруживает это расхождение, останавливая итерационный алгоритм, если обратная величина изотропной меры больше заданного порога: . Миколайчик и Шмид (2004) используют . Из тех, которые сходились, типичное число требуемых итераций составляло 10. ^[2] ${\tfrac {\lambda _{\max }(U)}{\lambda _{\min }(U)}}>t_{\text{diverge}}$ $t_{diverge}=6$

Количественная мера

Количественный анализ детекторов аффинных областей учитывает как точность определения местоположения точек, так и перекрытие областей на двух изображениях. Mioklajcyzk и Schmid (2004) расширяют меру повторяемости Schmid и др. (1998) как отношение соответствий точек к минимально обнаруженным точкам двух изображений. ^[11]^[13]

R_{\text{score}}={\frac {C(A,B)}{\min(n_{A},n_{B})}}

где — количество соответствующих точек на изображениях и . и — количество обнаруженных точек на соответствующих изображениях. Поскольку каждое изображение представляет собой трехмерное пространство, может случиться так, что одно изображение содержит объекты, которых нет на втором изображении, и, таким образом, точки интереса которых не имеют шансов соответствовать. Чтобы сделать меру повторяемости действительной, нужно удалить эти точки и учитывать только точки, которые лежат на обоих изображениях; и подсчитывать только те точки, которые . Для пары из двух изображений, связанных посредством матрицы гомографии , две точки и считаются соответствующими, если: $C(A,B)$ $A$ $B$ $n_{B}$ $n_{A}$ $n_{A}$ $n_{B}$ $x_{A}=H\cdot x_{B}$ $H$ $\mathbf {x_{a}}$ $\mathbf {x_{b}}$

Ошибка в расположении пикселей менее 1,5 пикселей: $\|\mathbf {x_{a}} -H\cdot \mathbf {x_{b}} \|<1.5$
Ошибка перекрытия двух аффинных точек ( ) должна быть меньше указанного порогового значения (обычно 40%). ^[1] Для аффинных областей эта ошибка перекрытия следующая: $\epsilon _{S}$
$\epsilon _{S}=1-{\frac {\mu _{a}\cap (H^{T}\mu _{b}H)}{\mu _{a}\cup (H^{T}\mu _{b}H)}}$
где и — восстановленные эллиптические области, точки которых удовлетворяют: . По сути, эта мера берет отношение площадей: площадь перекрытия (пересечения) и общая площадь (объединения). Идеальное перекрытие будет иметь отношение, равное единице, и иметь . Различные масштабы влияют на область перекрытия и, таким образом, должны учитываться путем нормализации площади каждой интересующей области. Области с ошибкой перекрытия до 50% являются жизнеспособными детекторами для сопоставления с хорошим дескриптором. ^[1] $\mu _{a}$ $\mu _{b}$ $\mu ^{T}\mathbf {x} \mu =1$ $\epsilon _{S}=0$
Вторая мера, оценка соответствия , более практично оценивает способность детектора идентифицировать совпадающие точки между изображениями. Миколайчик и Шмид (2005) используют дескриптор SIFT для идентификации совпадающих точек. Помимо того, что они являются ближайшими точками в пространстве SIFT, две совпадающие точки должны также иметь достаточно малую ошибку перекрытия (как определено в мере повторяемости). Оценка соответствия представляет собой отношение количества совпавших точек к минимуму из общего числа обнаруженных точек на каждом изображении:
$M_{score}={\frac {M(A,B)}{\min(n_{A},n_{B})}}$ , ^[1]
где — количество совпадающих точек, а — количество обнаруженных областей на соответствующих изображениях. $M(A,B)$ $n_{B}$ $n_{A}$

Устойчивость к аффинным и другим преобразованиям

Миколайчик и др. (2005) провели тщательный анализ нескольких современных детекторов аффинных областей: детекторов Харриса, аффинных по Гессену , MSER , ^[14] IBR и EBR ^[15] и детекторов выдающихся ^[16] . ^[1] Миколайчик и др. проанализировали как структурированные, так и текстурированные изображения в своей оценке. Двоичные файлы детекторов для Linux и их тестовые изображения свободно доступны на их веб-странице. Краткое изложение результатов Миколайчика и др. (2005) приведено ниже; см. Сравнение детекторов аффинных областей для более количественного анализа.

Изменение угла обзора: Аффинный детектор Харриса имеет разумную (среднюю) устойчивость к этим типам изменений. Детектор поддерживает показатель повторяемости выше 50% до угла обзора выше 40 градусов. Детектор имеет тенденцию обнаруживать большое количество повторяющихся и сопоставляемых областей даже при большом изменении точки обзора.
Изменение масштаба: Аффинный детектор Харриса остается очень стабильным при изменении масштаба. Хотя количество точек значительно уменьшается при больших изменениях масштаба (выше 2,8), повторяемость (50–60%) и оценки соответствия (25–30%) остаются очень постоянными, особенно для текстурированных изображений. Это согласуется с высокой производительностью итеративного алгоритма автоматического выбора масштаба.
Размытые изображения: Аффинный детектор Харриса остается очень стабильным при размытии изображения. Поскольку детектор не полагается на сегментацию изображения или границы областей, показатели повторяемости и соответствия остаются постоянными.
Артефакты JPEG: Аффинный детектор Харриса ухудшается так же, как и другие аффинные детекторы: показатели повторяемости и соответствия значительно падают при сжатии выше 80%.
Изменения освещенности: Аффинный детектор Харриса, как и другие аффинные детекторы, очень устойчив к изменениям освещенности: повторяемость и оценки соответствия остаются постоянными при уменьшении освещенности. Этого следовало ожидать, поскольку детекторы в значительной степени полагаются на относительные интенсивности (производные), а не на абсолютные интенсивности.

Общие тенденции

Точки аффинной области Харриса, как правило, малы и многочисленны. Как детектор аффинной области Харриса, так и детектор аффинной области Гессе последовательно идентифицируют вдвое больше повторяющихся точек, чем другие аффинные детекторы: ~1000 областей для изображения 800x640. ^[1] Малые области с меньшей вероятностью будут перекрыты, но имеют меньшую вероятность перекрытия соседних областей.
Аффинный детектор Харриса хорошо реагирует на текстурированные сцены, в которых много угловатых деталей. Однако для некоторых структурированных сцен, таких как здания, аффинный детектор Харриса работает очень хорошо. Это дополняет MSER, который, как правило, лучше справляется с хорошо структурированными (сегментируемыми) сценами.
В целом аффинный детектор Харриса работает очень хорошо, но все еще уступает MSER и аффинному детектору Гессе во всех случаях, за исключением размытых изображений.
Детекторы Харриса-аффинного и Гессиан-аффинного типов менее точны, чем другие: их показатель повторяемости увеличивается с увеличением порога перекрытия.
Обнаруженные аффинно-инвариантные регионы могут по-прежнему отличаться по вращению и освещению. Любой дескриптор, использующий эти регионы, должен учитывать инвариантность при использовании регионов для сопоставления или других сравнений.

Приложения

Поиск изображений на основе контента ^[17]^[18]
Распознавание на основе модели
Поиск объекта на видео ^[19]
Визуальный анализ данных: выявление важных объектов, персонажей и сцен в видео ^[20]
Распознавание и категоризация объектов ^[21]
Анализ изображений, полученных с помощью дистанционного зондирования: обнаружение объектов с помощью изображений, полученных с помощью дистанционного зондирования ^[22]

Пакеты программного обеспечения

Аффинно-ковариантные признаки: К. Миколайчик поддерживает веб-страницу, содержащую двоичные файлы Linux детектора Харриса-аффинного в дополнение к другим детекторам и дескрипторам. Также доступен код Matlab, который можно использовать для иллюстрации и вычисления повторяемости различных детекторов. Также доступны код и изображения для дублирования результатов, найденных в статье Миколайчика и др. (2005).
lip-vireo – двоичный код для Linux, Windows и SunOS от исследовательской группы VIREO. Смотрите больше на домашней странице Архивировано 2017-05-11 на Wayback Machine

Внешние ссылки

[1] – Слайды презентации Миколайчика и др. по их статье 2005 года.
[2] Архивировано 26 июля 2023 г. в Wayback Machine – Лаборатория компьютерного зрения Корделии Шмид
[3] – Код, тестовые изображения, библиография аффинно-ковариантных признаков, поддерживаемая Кристианом Миколайчиком и группой визуальной геометрии из группы робототехники Оксфордского университета.
[4] – Библиография детекторов признаков (и пятен), поддерживаемая Институтом робототехники и интеллектуальных систем Университета Южной Калифорнии
[5] – Цифровая реализация Лапласа Гаусса

Смотрите также

Гессе-аффинный
МСЭР
Детектор заметности Кадира-Брейди
Масштаб пространства
Изотропия
Обнаружение угла
Обнаружение точек интереса
Аффинная адаптация формы
Производное изображения
Компьютерное зрение
ASIFT -> Affine-Sift (полностью аффинный инвариантный алгоритм сопоставления изображений)

Ссылки

^ abcdef К. Миколайчик, Т. Туителаарс, К. Шмид, А. Зиссерман, Дж. Мэйтас, Ф. Шаффалицки, Т. Кадир и Л. Ван Гул, Сравнение детекторов аффинных областей. В IJCV 65(1/2):43-72, 2005 г.
^ ab "Mikolajcyk, K. и Schmid, C. 2002. Аффинно-инвариантный детектор точек интереса. В трудах 8-й Международной конференции по компьютерному зрению, Ванкувер, Канада" (PDF) . Архивировано из оригинала (PDF) 2004-07-23 . Получено 2007-12-11 .
^ ab T. Lindeberg и J. Garding (1997). «Сглаживание, адаптированное к форме, при оценке 3-{D} глубинных сигналов из аффинных искажений локальной 2-{D} структуры». Image and Vision Computing 15: стр. 415–434.
^ А. Баумберг (2000). «Надежное сопоставление признаков в широко разделенных представлениях». Труды конференции IEEE по компьютерному зрению и распознаванию образов: страницы I:1774–1781.
^ Линдеберг, Тони, Теория масштабного пространства в компьютерном зрении, Kluwer Academic Publishers, 1994, ISBN 0-7923-9418-6
^ abc T. Lindeberg (1998). «Обнаружение признаков с автоматическим выбором масштаба». International Journal of Computer Vision 30 (2): стр. 77–116.
^ Линдеберг, Т. (2008). «Масштабное пространство». В Ва, Бенджамин (ред.). Энциклопедия компьютерной науки и техники. Т. IV. John Wiley and Sons. стр. 2495–2504 . doi :10.1002/9780470050118.ecse609. ISBN 978-0470050118.
^ ab C. Harris и M. Stephens (1988). "Комбинированный детектор углов и кромок". Труды 4-й конференции Alvey Vision: страницы 147–151. Архивировано 16 сентября 2007 г. в Wayback Machine
^ abc K. Mikolajczyk и C. Schmid. Индексирование на основе масштабно-инвариантных точек интереса. В трудах 8-й Международной конференции по компьютерному зрению, Ванкувер, Канада, страницы 525-531, 2001.
^ Шмид, К., Мор, Р. и Баукхаге, К. 2000. Оценка детекторов точек интереса. Международный журнал компьютерного зрения, 37(2):151–172.
^ abcdef Миколайчик, К. и Шмид, К. 2004. Масштабные и аффинно-инвариантные детекторы точек интереса. Международный журнал по компьютерному зрению 60(1):63-86.
^ "Пространственные фильтры: Лапласиан/Лапласиан Гаусса". Архивировано из оригинала 20-11-2007 . Получено 11-12-2007 .
^ C. Schmid, R. Mohr и C. Bauckhage. Сравнение и оценка точек интереса. На Международной конференции по компьютерному зрению , стр. 230–135, 1998.
^ J.Matas, O. Chum, M. Urban и T. Pajdla, Надежное широкое базовое стерео из максимально устойчивых экстремальных областей. В BMVC стр. 384-393, 2002.
^ Т. Туйтелаарс и Л. Ван Гул, Сопоставление широко разделенных представлений на основе аффинных инвариантных областей. В IJCV 59(1):61-85, 2004.
^ T. Kadir, A. Zisserman и M. Brady, Аффинно-инвариантный детектор выдающихся областей. В ECCV стр. 404-416, 2004.
^ http://staff.science.uva.nl/~gevers/pub/overview.pdf ^{[ пустой URL-адрес PDF ]}
^ R. Datta, J. Li и JZ Wang, «Поиск изображений на основе контента — подходы и тенденции нового века», In Proc. Int. Workshop on Multimedia Information Retrieval, стр. 253–262, 2005. IEEE Transactions on Multimedia, т. 7, № 1, стр. 127–142, 2005. Архивировано 28 сентября 2007 г. на Wayback Machine
^ J. Sivic и A. Zisserman. Видео Google: подход к поиску текста для сопоставления объектов в видео. В Трудах Международной конференции по компьютерному зрению, Ницца, Франция, 2003.
^ J. Sivic и A. Zisserman. Видеоинформация с использованием конфигураций областей, инвариантных к точке зрения. В трудах конференции IEEE по компьютерному зрению и распознаванию образов, Вашингтон, округ Колумбия, США, стр. 488–495, 2004.
^ Г. Дорко и К. Шмид. Выбор масштабно-инвариантных окрестностей для распознавания классов объектов. В трудах Международной конференции по компьютерному зрению, Ницца, Франция, стр. 634–640, 2003.
^ Берил Сирмачек и Джем Унсалан (январь 2011 г.). «Вероятностная структура для обнаружения зданий на аэрофотоснимках и спутниковых снимках» (PDF) . Труды IEEE по геонаукам и дистанционному зондированию . 49 (1): 211– 221. Bibcode : 2011ITGRS..49..211S. doi : 10.1109/TGRS.2010.2053713. S2CID 10637950.

[miko05-1] К. Миколайчик, Т. Туителаарс, К. Шмид, А. Зиссерман, Дж. Мэйтас, Ф. Шаффалицки, Т. Кадир и Л. Ван Гул, Сравнение детекторов аффинных областей. В IJCV 65(1/2):43-72, 2005 г.

[miko02-2] "Mikolajcyk, K. и Schmid, C. 2002. Аффинно-инвариантный детектор точек интереса. В трудах 8-й Международной конференции по компьютерному зрению, Ванкувер, Канада" (PDF) . Архивировано из оригинала (PDF) 2004-07-23 . Получено 2007-12-11 .

[lindgard97-3] T. Lindeberg и J. Garding (1997). «Сглаживание, адаптированное к форме, при оценке 3-{D} глубинных сигналов из аффинных искажений локальной 2-{D} структуры». Image and Vision Computing 15: стр. 415–434.

[4] А. Баумберг (2000). «Надежное сопоставление признаков в широко разделенных представлениях». Труды конференции IEEE по компьютерному зрению и распознаванию образов: страницы I:1774–1781.

[lin94-5] Линдеберг, Тони, Теория масштабного пространства в компьютерном зрении, Kluwer Academic Publishers, 1994, ISBN 0-7923-9418-6

[lin98-6] T. Lindeberg (1998). «Обнаружение признаков с автоматическим выбором масштаба». International Journal of Computer Vision 30 (2): стр. 77–116.

[7] Линдеберг, Т. (2008). «Масштабное пространство». В Ва, Бенджамин (ред.). Энциклопедия компьютерной науки и техники. Т. IV. John Wiley and Sons. стр. 2495–2504 . doi :10.1002/9780470050118.ecse609. ISBN 978-0470050118.

[harris88-8] C. Harris и M. Stephens (1988). "Комбинированный детектор углов и кромок". Труды 4-й конференции Alvey Vision: страницы 147–151. Архивировано 16 сентября 2007 г. в Wayback Machine

[miko01-9] K. Mikolajczyk и C. Schmid. Индексирование на основе масштабно-инвариантных точек интереса. В трудах 8-й Международной конференции по компьютерному зрению, Ванкувер, Канада, страницы 525-531, 2001.

[10] Шмид, К., Мор, Р. и Баукхаге, К. 2000. Оценка детекторов точек интереса. Международный журнал компьютерного зрения, 37(2):151–172.

[miko04-11] Миколайчик, К. и Шмид, К. 2004. Масштабные и аффинно-инвариантные детекторы точек интереса. Международный журнал по компьютерному зрению 60(1):63-86.

[12] "Пространственные фильтры: Лапласиан/Лапласиан Гаусса". Архивировано из оригинала 20-11-2007 . Получено 11-12-2007 .

[schmid98-13] C. Schmid, R. Mohr и C. Bauckhage. Сравнение и оценка точек интереса. На Международной конференции по компьютерному зрению , стр. 230–135, 1998.

[14] J.Matas, O. Chum, M. Urban и T. Pajdla, Надежное широкое базовое стерео из максимально устойчивых экстремальных областей. В BMVC стр. 384-393, 2002.

[15] Т. Туйтелаарс и Л. Ван Гул, Сопоставление широко разделенных представлений на основе аффинных инвариантных областей. В IJCV 59(1):61-85, 2004.

[16] T. Kadir, A. Zisserman и M. Brady, Аффинно-инвариантный детектор выдающихся областей. В ECCV стр. 404-416, 2004.

[17] ttp://staff.science.uva.nl/~gevers/pub/overview.pdf ^{[ пустой URL-адрес PDF ]}

[18] R. Datta, J. Li и JZ Wang, «Поиск изображений на основе контента — подходы и тенденции нового века», In Proc. Int. Workshop on Multimedia Information Retrieval, стр. 253–262, 2005. IEEE Transactions on Multimedia, т. 7, № 1, стр. 127–142, 2005. Архивировано 28 сентября 2007 г. на Wayback Machine

[19] J. Sivic и A. Zisserman. Видео Google: подход к поиску текста для сопоставления объектов в видео. В Трудах Международной конференции по компьютерному зрению, Ницца, Франция, 2003.

[20] J. Sivic и A. Zisserman. Видеоинформация с использованием конфигураций областей, инвариантных к точке зрения. В трудах конференции IEEE по компьютерному зрению и распознаванию образов, Вашингтон, округ Колумбия, США, стр. 488–495, 2004.

[21] Г. Дорко и К. Шмид. Выбор масштабно-инвариантных окрестностей для распознавания классов объектов. В трудах Международной конференции по компьютерному зрению, Ницца, Франция, стр. 634–640, 2003.

[Sirmacek2011a-22] Берил Сирмачек и Джем Унсалан (январь 2011 г.). «Вероятностная структура для обнаружения зданий на аэрофотоснимках и спутниковых снимках» (PDF) . Труды IEEE по геонаукам и дистанционному зондированию . 49 (1): 211– 221. Bibcode : 2011ITGRS..49..211S. doi : 10.1109/TGRS.2010.2053713. S2CID 10637950.