Категоризация объектов на основе сегментации

Проблема сегментации изображения связана с разбиением изображения на несколько областей в соответствии с некоторым критерием однородности. В этой статье в первую очередь рассматриваются подходы теории графов к сегментации изображений, применяющие разбиение графа с помощью минимального или максимального разреза . Категоризацию объектов на основе сегментации можно рассматривать как частный случай спектральной кластеризации, применяемой к сегментации изображений.

Применение сегментации изображений

Сжатие изображения
- Сегментируйте изображение на однородные компоненты и используйте наиболее подходящий алгоритм сжатия для каждого компонента, чтобы улучшить сжатие.
Медицинская диагностика
- Автоматическая сегментация МРТ-изображений для выявления раковых участков.
Картографирование и измерение
- Автоматический анализ данных дистанционного зондирования со спутников для определения и измерения интересующих регионов.
Транспорт
- Разделение транспортной сети позволяет выделить регионы, характеризующиеся однородным состоянием трафика. ^[1]

Сегментация с использованием нормализованных срезов

Теоретико-графовая формулировка

Набор точек в произвольном пространстве признаков можно представить как взвешенный неориентированный полный граф G = (V, E), где узлы графа являются точками в пространстве признаков. Вес ребра является функцией сходства между узлами и . В этом контексте мы можем сформулировать задачу сегментации изображения как задачу разбиения графа, которая требует разбиения множества вершин , где, согласно некоторой мере, вершины в любом наборе имеют высокое сходство, а вершины в двух различных наборах имеют низкое сходство. $w_{ij}$ $(i,j)\in E$ $я$ $j$ $V_{1},\cdots,V_{k}$ $V$ $V_{i}$ $V_{i},V_{j}$

Нормализованные разрезы

Пусть G = ( V , E , w ) — взвешенный граф. Пусть и — два подмножества вершин. $А$ $Б$

Позволять:

w(A,B)=\sum \limits _{i\in A,j\in B}w_{ij}

\operatorname {ncut} (A,B)={\frac {w(A,B)}{w(A,V)}}+{\frac {w(A,B)}{w(B ,В)}}

\operatorname {nassoc} (A,B)={\frac {w(A,A)}{w(A,V)}}+{\frac {w(B,B)}{w(B ,В)}}

В подходе нормализованных разрезов ^[2] для любого разреза в измеряется сходство между различными частями и измеряется общее сходство вершин в одной и той же части. $(S,{\overline {S}})$ $G$ $\operatorname {ncut} (S,{\overline {S}})$ $\operatorname {nassoc} (S,{\overline {S}})$

Так как , разрез , который минимизирует, также максимизирует . $\operatorname {ncut} (S,{\overline {S}})=2-\operatorname {nassoc} (S,{\overline {S}})$ $(S^{*},{\overline {S}}^{*})$ $\operatorname {ncut} (S,{\overline {S}})$ $\operatorname {nassoc} (S,{\overline {S}})$

Вычисление разреза , который минимизирует, является NP-трудной задачей. Однако мы можем найти разрез с малым нормализованным весом за полиномиальное время, используя спектральные методы . $(S^{*},{\overline {S}}^{*})$ $\operatorname {ncut} (S,{\overline {S}})$ $(S,{\overline {S}})$ $\operatorname {ncut} (S,{\overline {S}})$

Алгоритм ncut

Позволять:

d(i)=\sum \limits _{j}w_{ij}

Также пусть D — диагональная матрица с на диагонали, и пусть — симметричная матрица с . $n\times n$ $д$ $W$ $n\times n$ $w_{ij}=w_{ji}$

После некоторых алгебраических преобразований получаем:

\min \limits _{(S,{\overline {S}})}\operatorname {ncut} (S,{\overline {S}})=\min \limits _{y}{\frac {y^{T}(DW)y}{y^{T}Dy}}

с учетом ограничений:

$y_{i}\in \{1,-b\}$ , для некоторой константы $-b$
$y^{t}D1=0$

Минимизация с учетом ограничений выше является NP-трудной . Чтобы сделать задачу разрешимой, мы ослабляем ограничения на и позволяем ей принимать действительные значения. Ослабленная задача может быть решена путем решения обобщенной задачи собственных значений для второго наименьшего обобщенного собственного значения. ${\frac {y^{T}(DW)y}{y^{T}Dy}}$ $у$ $(DW)y=\lambda Dy$

Алгоритм разбиения:

Учитывая набор признаков, создайте взвешенный граф , вычислите вес каждого ребра и суммируйте информацию в и . $G=(V,E)$ $D$ $W$
Найдите собственные векторы со вторыми наименьшими собственными значениями. $(D-W)y=\lambda Dy$
Используйте собственный вектор со вторым по величине собственным значением для разбиения графа на две части (например, группировка по знаку).
Решите, следует ли разделить текущий раздел.
При необходимости рекурсивно разбейте сегментированные части.

Сложность вычислений

Решение стандартной задачи собственных значений для всех собственных векторов ( например, с использованием алгоритма QR ) требует времени. Это непрактично для приложений сегментации изображений, где — количество пикселей в изображении. $O(n^{3})$ $n$

Поскольку неразрезанный алгоритм использует только один собственный вектор, соответствующий второму наименьшему обобщенному собственному значению, эффективность может быть значительно улучшена, если решение соответствующей задачи на собственные значения выполняется безматричным способом , т. е. без явного манипулирования или даже вычисления матрицы W, как, например, в алгоритме Ланцоша . Методы без матриц требуют только функции, которая выполняет произведение матрицы на вектор для заданного вектора на каждой итерации. Для сегментации изображений матрица W обычно разрежена, с числом ненулевых элементов , поэтому такое произведение матрицы на вектор занимает время. $O(n)$ $O(n)$

Для изображений с высоким разрешением второе собственное значение часто плохо обусловлено , что приводит к медленной сходимости итеративных решателей собственных значений, таких как алгоритм Ланцоша . Предварительная подготовка является ключевой технологией, ускоряющей сходимость, например, в методе LOBPCG без матриц . Вычисление собственного вектора с использованием оптимально предобусловленного метода без матриц требует времени, что является оптимальной сложностью, поскольку собственный вектор имеет компоненты. $O(n)$ $n$

Реализации программного обеспечения

scikit-learn ^[3] использует LOBPCG из SciPy с алгебраической многосеточной предварительной подготовкой для решения задачи собственных значений для графового лапласиана, чтобы выполнить сегментацию изображения с помощью спектрального разбиения графа , как впервые было предложено в ^[4] и фактически протестировано в ^[5] и ^{[6] .}

ОБЪЕКТ ВЫРЕЗАТЬ

OBJ CUT ^[7] — эффективный метод, который автоматически сегментирует объект. Метод OBJ CUT является универсальным методом, и поэтому он применим к любой модели категории объектов. При наличии изображения D, содержащего экземпляр известной категории объектов, например, коров, алгоритм OBJ CUT вычисляет сегментацию объекта, то есть выводит набор меток m .

Пусть m — набор двоичных меток, а — параметр формы ( это априорная форма меток из модели слоистой графической структуры (LPS)). Функция энергии определяется следующим образом. $\Theta$ $\Theta$ $E(m,\Theta )$

E(m,\Theta )=\sum \phi _{x}(D|m_{x})+\phi _{x}(m_{x}|\Theta )+\sum \Psi _{xy}(m_{x},m_{y})+\phi (D|m_{x},m_{y})

(1)

Термин называется унарным термином, а термин называется парным термином. Унарный термин состоит из вероятности, основанной на цвете, и унарного потенциала, основанного на расстоянии от . Парный термин состоит из предшествующего и контрастного терминов . $\phi _{x}(D|m_{x})+\phi _{x}(m_{x}|\Theta )$ $\Psi _{xy}(m_{x},m_{y})+\phi (D|m_{x},m_{y})$ $\phi _{x}(D|m_{x})$ $\phi _{x}(m_{x}|\Theta )$ $\Theta$ $\Psi _{xy}(m_{x},m_{y})$ $\phi (D|m_{x},m_{y})$

Лучшая маркировка минимизирует , где — вес параметра . $m^{*}$ $\sum \limits _{i}w_{i}E(m,\Theta _{i})$ $w_{i}$ $\Theta _{i}$

m^{*}=\arg \min \limits _{m}\sum \limits _{i}w_{i}E(m,\Theta _{i})

(2)

Алгоритм

Для изображения D выбирается категория объекта, например, коровы или лошади.
Соответствующая модель ЛПС сопоставляется с D для получения образцов $\Theta _{1},\cdots ,\Theta _{s}$
Целевая функция, заданная уравнением (2), определяется путем вычисления и использования $E(m,\Theta _{i})$ $w_{i}=g(\Theta _{i}|Z)$
Целевая функция минимизируется с помощью одной операции MINCUT для получения сегментации m .

Другие подходы

Подход «пазла» ^[8]
Анализ изображения ^[9]
Перемежающаяся сегментация ^[10]
ЛОКУС ^[11]
МакетCRF ^[12]
Сегментация на основе минимального остовного дерева

Ссылки

^ Лопес, Клелия; Леклерк, Людовик; Кришнакумари, Панчами; Шиабо, Николя; Ван Линт, Ханс (25 октября 2017 г.). «Выявление ежедневной регулярности городских заторов с помощью 3D-карт скорости». Scientific Reports . 7 (14029): 14029. Bibcode :2017NatSR...714029L. doi :10.1038/s41598-017-14237-8. PMC 5656590 . PMID 29070859.
^ Цзяньбо Ши и Джитендра Малик (1997): «Нормализованные разрезы и сегментация изображений», Конференция IEEE по компьютерному зрению и распознаванию образов, стр. 731–737
^ «Спектральная кластеризация — документация scikit-learn».
^ Князев, Эндрю В. (2003). Боли; Диллон; Гош; Коган (ред.). Современные предобусловленные собственные решатели для спектральной сегментации изображений и деления графа пополам. Кластеризация больших наборов данных; Третья международная конференция IEEE по интеллектуальному анализу данных (ICDM 2003) Мельбурн, Флорида: IEEE Computer Society. стр. 59–62.
^ Князев, Эндрю В. (2006). Многомасштабная спектральная сегментация изображений. Многомасштабная предварительная подготовка для вычисления собственных значений графовых лапласианов в сегментации изображений. Семинар по быстрому изучению многообразий, WM Williamburg, VA. doi :10.13140/RG.2.2.35280.02565.
^ Князев, Эндрю В. (2006). Многомасштабное спектральное разбиение графа и сегментация изображения. Практикум по алгоритмам для современных массивных наборов данных Стэнфордского университета и Yahoo! Research.
^ MP Kumar, PHS Torr и A. Zisserman. Obj cut. В трудах конференции IEEE по компьютерному зрению и распознаванию образов , Сан-Диего, страницы 18–25, 2005.
^ E. Borenstein, S. Ullman: Класс-специфическая, сверху вниз сегментация. В трудах 7-й Европейской конференции по компьютерному зрению, Копенгаген, Дания, страницы 109–124, 2002.
^ Z. Tu, X. Chen, AL Yuille, SC Zhu: Анализ изображений: унификация сегментации, обнаружения и распознавания. Toward Category-Level Object Recognition 2006: 545–576
^ Б. Лейбе, А. Леонардис, Б. Шиле: Неявная модель формы для комбинированной категоризации и сегментации объектов. К распознаванию объектов на уровне категорий 2006: 508–524
^ J. Winn, N. Joijic. Locus: Изучение классов объектов с неконтролируемой сегментацией. В трудах Международной конференции IEEE по компьютерному зрению, Пекин, 2005.
^ JM Winn, J. Shotton: Случайное поле, согласованное с макетом, для распознавания и сегментации частично скрытых объектов. CVPR (1) 2006: 37–44

[1] Лопес, Клелия; Леклерк, Людовик; Кришнакумари, Панчами; Шиабо, Николя; Ван Линт, Ханс (25 октября 2017 г.). «Выявление ежедневной регулярности городских заторов с помощью 3D-карт скорости». Scientific Reports . 7 (14029): 14029. Bibcode :2017NatSR...714029L. doi :10.1038/s41598-017-14237-8. PMC 5656590 . PMID 29070859.

[2] Цзяньбо Ши и Джитендра Малик (1997): «Нормализованные разрезы и сегментация изображений», Конференция IEEE по компьютерному зрению и распознаванию образов, стр. 731–737

[3] «Спектральная кластеризация — документация scikit-learn».

[4] Князев, Эндрю В. (2003). Боли; Диллон; Гош; Коган (ред.). Современные предобусловленные собственные решатели для спектральной сегментации изображений и деления графа пополам. Кластеризация больших наборов данных; Третья международная конференция IEEE по интеллектуальному анализу данных (ICDM 2003) Мельбурн, Флорида: IEEE Computer Society. стр. 59–62.

[5] Князев, Эндрю В. (2006). Многомасштабная спектральная сегментация изображений. Многомасштабная предварительная подготовка для вычисления собственных значений графовых лапласианов в сегментации изображений. Семинар по быстрому изучению многообразий, WM Williamburg, VA. doi :10.13140/RG.2.2.35280.02565.

[6] Князев, Эндрю В. (2006). Многомасштабное спектральное разбиение графа и сегментация изображения. Практикум по алгоритмам для современных массивных наборов данных Стэнфордского университета и Yahoo! Research.

[7] MP Kumar, PHS Torr и A. Zisserman. Obj cut. В трудах конференции IEEE по компьютерному зрению и распознаванию образов , Сан-Диего, страницы 18–25, 2005.

[8] E. Borenstein, S. Ullman: Класс-специфическая, сверху вниз сегментация. В трудах 7-й Европейской конференции по компьютерному зрению, Копенгаген, Дания, страницы 109–124, 2002.

[9] Z. Tu, X. Chen, AL Yuille, SC Zhu: Анализ изображений: унификация сегментации, обнаружения и распознавания. Toward Category-Level Object Recognition 2006: 545–576

[10] Б. Лейбе, А. Леонардис, Б. Шиле: Неявная модель формы для комбинированной категоризации и сегментации объектов. К распознаванию объектов на уровне категорий 2006: 508–524

[11] J. Winn, N. Joijic. Locus: Изучение классов объектов с неконтролируемой сегментацией. В трудах Международной конференции IEEE по компьютерному зрению, Пекин, 2005.

[12] JM Winn, J. Shotton: Случайное поле, согласованное с макетом, для распознавания и сегментации частично скрытых объектов. CVPR (1) 2006: 37–44