Категоризация объектов из поиска изображений

В компьютерном зрении проблема категоризации объектов из поиска изображений — это проблема обучения классификатора распознаванию категорий объектов, используя только изображения, автоматически полученные с помощью поисковой системы в Интернете . В идеале автоматический сбор изображений позволит обучать классификаторы, используя только названия категорий в качестве входных данных. Эта проблема тесно связана с проблемой поиска изображений на основе контента (CBIR), где цель состоит в том, чтобы вернуть лучшие результаты поиска изображений, а не в обучении классификатора для распознавания изображений.

Традиционно классификаторы обучаются с использованием наборов изображений, которые маркируются вручную. Сбор такого набора изображений часто является очень трудоемким и трудоемким процессом. Использование поисковых систем в Интернете для автоматизации процесса получения больших наборов маркированных изображений было описано как потенциальный способ значительного облегчения исследований компьютерного зрения. ^[1]

Вызовы

Несвязанные изображения

Одной из проблем использования результатов поиска изображений в Интернете в качестве обучающего набора для классификатора является высокий процент не связанных между собой изображений в результатах. Было подсчитано, что когда поисковая система, такая как Google Images, запрашивает название категории объекта (например, самолет ), до 85% возвращаемых изображений не связаны с этой категорией. ^[1]

Внутриклассовая изменчивость

Еще одна проблема, связанная с использованием результатов поиска изображений в Интернете в качестве обучающих наборов для классификаторов, заключается в том, что существует высокая степень изменчивости внутри категорий объектов по сравнению с категориями, обнаруженными в размеченных вручную наборах данных, таких как Caltech 101 и Pascal . Изображения объектов могут значительно различаться по ряду важных факторов, таких как масштаб, поза, освещение, количество объектов и степень окклюзии.

подход pLSA

В статье Фергуса и др. 2005 года ^[1] pLSA (вероятностный латентный семантический анализ) и расширения этой модели были применены к проблеме категоризации объектов из поиска изображений. pLSA изначально был разработан для классификации документов , но с тех пор применяется к компьютерному зрению . Он предполагает, что изображения — это документы, которые соответствуют модели «мешок слов» .

Модель

Так же, как текстовые документы состоят из слов, каждое из которых может повторяться в документе и между документами, изображения могут быть смоделированы как комбинации визуальных слов . Так же, как весь набор текстовых слов определяется словарем, весь набор визуальных слов определяется в словаре кодовых слов .

pLSA также делит документы на темы . Так же, как знание темы(тем) статьи позволяет вам делать хорошие предположения о типах слов, которые будут в ней появляться, распределение слов на изображении зависит от базовых тем. Модель pLSA сообщает нам вероятность увидеть каждое слово, заданное категорией, с точки зрения тем : $w$ $\displaystyle d$ $\displaystyle z$

$\displaystyle P(w|d)=\sum _{z=1}^{Z}P(w|z)P(z|d)$

Важное предположение, сделанное в этой модели, заключается в том, что и являются условно независимыми, если задана . При заданной теме вероятность появления определенного слова как части этой темы не зависит от остальной части изображения. ^[2] $\displaystyle w$ $\displaystyle d$ $\displaystyle z$

Обучение этой модели включает в себя поиск и максимизацию вероятности наблюдаемых слов в каждом документе. Для этого используется алгоритм максимизации ожидания со следующей целевой функцией : $\displaystyle P (w|z)$ ${\ displaystyle \ displaystyle P (z | d)}$

$\displaystyle L=\prod _{d=1}^{D} \prod _{w=1}^{W}P(w|d)^{n(w|d)}$

Приложение

ABS-pLSA

Абсолютная позиция pLSA (ABS-pLSA) прикрепляет информацию о местоположении к каждому визуальному слову, локализуя его в одном из X 揵ins? на изображении. Здесь представляет, в какой из контейнеров попадает визуальное слово. Новое уравнение: $\displaystyle x$

$\displaystyle P(w|d)=\sum _{z=1}^{Z}P(w,x|z)P(z|d)$

${\ displaystyle \ displaystyle P (w, x | z)}$ и может быть решена аналогично исходной задаче pLSA, используя алгоритм EM $\displaystyle P(d)$

Проблема этой модели в том, что она не инвариантна к трансляции или масштабу. Поскольку позиции визуальных слов абсолютны, изменение размера объекта на изображении или его перемещение оказало бы значительное влияние на пространственное распределение визуальных слов в различных ячейках.

TSI-pLSA

Перевод и масштабно-инвариантный pLSA (TSI-pLSA). Эта модель расширяет pLSA, добавляя еще одну скрытую переменную, которая описывает пространственное расположение целевого объекта на изображении. Теперь положение визуального слова задается относительно этого расположения объекта, а не как абсолютное положение на изображении. Новое уравнение: $\displaystyle x$

$\displaystyle P(w,x|d)=\sum _{z=1}^{Z}\sum _{c=1}^{C}P(w,x|c,z)P(c)P(z|d)$

Опять же, параметры и можно решить с помощью алгоритма EM . Можно предположить, что это равномерное распределение. $\displaystyle P(w,x|c,z)$ $\displaystyle P(d)$ $\displaystyle P(c)$

Выполнение

Выбор слов

Слова на изображении были выбраны с использованием 4 различных детекторов признаков: ^[1]

Детектор заметности Кадира-Брейди
Многошкальный детектор Харриса
Разность гауссианов
Оператор на основе краёв, описанный в исследовании

Используя эти 4 детектора, было обнаружено около 700 признаков на изображение. Затем эти признаки были закодированы как дескрипторы преобразования признаков Scale-invariant и векторно квантованы для соответствия одному из 350 слов, содержащихся в кодовой книге. Кодовая книга была предварительно вычислена из признаков, извлеченных из большого количества изображений, охватывающих многочисленные категории объектов.

Возможные местоположения объекта

Один важный вопрос в модели TSI-pLSA заключается в том, как определить значения, которые может принимать случайная величина. Это 4-вектор, компоненты которого описывают центроид объекта, а также шкалы x и y, которые определяют ограничивающую рамку вокруг объекта, поэтому пространство возможных значений, которые он может принимать, огромно. Чтобы ограничить количество возможных местоположений объекта до разумного числа, сначала выполняется обычный pLSA на наборе изображений, и для каждой темы модель гауссовской смеси подгоняется к визуальным словам, взвешенным по . Пробуются до гауссовских функций (допускающих несколько экземпляров объекта на одном изображении), где — константа. $\displaystyle C$ $\displaystyle P(w|z)$ $\displaystyle K$ $\displaystyle K$

Производительность

Авторы статьи Фергуса и др. сравнили производительность трех алгоритмов pLSA (pLSA, ABS-pLSA и TSI-pLSA) на отобранных вручную наборах данных и изображениях, полученных из поисков Google. Производительность измерялась как частота ошибок при классификации изображений в тестовом наборе как содержащих изображение или содержащих только фон.

Как и ожидалось, обучение непосредственно на данных Google дает более высокий уровень ошибок, чем обучение на подготовленных данных. ^[1] Примерно в половине протестированных категорий объектов ABS-pLSA и TSI-pLSA работают значительно лучше, чем обычная pLSA, и только в 2 категориях из 7 TSI-pLSA работает лучше, чем две другие модели.

ОПТИМОЛ

OPTIMOL (автоматический сбор изображений онлайн с помощью Incremental MODEL Learning) подходит к проблеме изучения категорий объектов из онлайн-поиска изображений, решая модель обучения и поиска одновременно. OPTIMOL — это итеративная модель, которая обновляет свою модель целевой категории объектов, одновременно извлекая более релевантные изображения. ^[3]

Общая структура

OPTIMOL был представлен как общая итеративная структура, которая не зависит от конкретной модели, используемой для обучения категории. Алгоритм следующий:

Загрузите большой набор изображений из Интернета, выполнив поиск по ключевому слову
Инициализируйте набор данных с исходными изображениями
Хотя в набор данных необходимо добавить больше изображений:
- Изучите модель с помощью последних добавленных изображений набора данных
- Классифицируйте загруженные изображения, используя обновленную модель
- Добавить принятые изображения в набор данных

Обратите внимание, что в каждом раунде обучения используются только последние добавленные изображения. Это позволяет алгоритму работать на произвольно большом количестве входных изображений.

Модель

Две категории (целевой объект и фон) моделируются как иерархические процессы Дирихле (HDP). Как и в подходе pLSA, предполагается, что изображения можно описать с помощью модели мешка слов . HDP моделирует распределение неопределенного количества тем по изображениям в категории и по категориям. Распределение тем по изображениям в одной категории моделируется как процесс Дирихле (тип непараметрического распределения вероятностей ). Чтобы разрешить совместное использование тем по классам, каждый из этих процессов Дирихле моделируется как выборка из другого «родительского» процесса Дирихле. HDP был впервые описан Teh et al. в 2005 году. ^[4]

Выполнение

Инициализация

Набор данных должен быть инициализирован или заполнен исходной партией изображений, которые служат хорошими образцами категории объектов, подлежащих изучению. Их можно собирать автоматически, используя первую страницу или около того изображений, возвращаемых поисковой системой (которые, как правило, лучше последующих изображений). В качестве альтернативы исходные изображения можно собирать вручную.

Модель обучения

Чтобы изучить различные параметры HDP инкрементальным образом, выборка Гиббса используется по скрытым переменным. Она выполняется после того, как каждый новый набор изображений включается в набор данных. Выборка Гиббса включает в себя многократную выборку из набора случайных величин с целью аппроксимации их распределений. Выборка включает в себя генерацию значения для рассматриваемой случайной величины на основе состояния других случайных величин, от которых она зависит. При наличии достаточных выборок можно достичь разумной аппроксимации значения.

Классификация

На каждой итерации и может быть получено из модели, изученной после предыдущего раунда выборки Гиббса, где — тема, — категория, а — одно визуальное слово. Вероятность того, что изображение относится к определенному классу, тогда равна: $\displaystyle P(z|c)$ $\displaystyle P(x|z,c)$ $\displaystyle z$ $\displaystyle c$ $\displaystyle x$

$\displaystyle P(I|c)=\prod _{i}\sum _{j}P(x_{i}|z_{j},c)P(z_{j}|c)$

Это вычисляется для каждого нового изображения-кандидата за итерацию. Изображение классифицируется как принадлежащее к категории с наивысшей вероятностью.

Дополнение к набору данных и «набору кэша»

Однако для того, чтобы соответствовать требованиям включения в набор данных, изображение должно удовлетворять более строгому условию:

$\displaystyle {\frac {P(I|c_{f})}{P(I|c_{b})}}>{\frac {\lambda _{Ac_{b}}-\lambda _{Rc_{b}}}{\lambda _{Rc_{f}}-\lambda _{Ac_{f}}}}{\frac {P(c_{b})}{P(c_{f})}}$

Где и являются категориями переднего плана (объекта) и фона соответственно, а отношение констант описывает риск принятия ложных положительных и ложных отрицательных результатов. Они автоматически корректируются на каждой итерации, при этом стоимость ложного положительного набора выше, чем ложного отрицательного. Это гарантирует сбор лучшего набора данных. $\displaystyle c_{f}$ $\displaystyle c_{b}$

Однако после того, как изображение принято, удовлетворяя вышеуказанному критерию, и включено в набор данных, оно должно соответствовать другому критерию, прежде чем оно будет включено в «набор ache» — набор изображений, который будет использоваться для обучения. Этот набор должен быть разнообразным подмножеством набора принятых изображений. Если бы модель обучалась на всех принятых изображениях, она могла бы становиться все более и более узкоспециализированной, принимая только изображения, очень похожие на предыдущие.

Производительность

Эффективность метода OPTIMOL определяется тремя факторами:

Возможность собирать изображения : OPTIMOL, как выяснилось, может автоматически собирать большое количество хороших изображений из сети. Размеры наборов изображений, полученных OPTIMOL, превосходят размеры больших наборов изображений, маркированных человеком, для тех же категорий, например, тех, что находятся в Caltech 101 .
Точность классификации : Точность классификации сравнивалась с точностью, отображаемой классификатором, полученным с помощью методов pLSA, обсуждавшихся ранее. Было обнаружено, что OPTIMOL достиг немного более высокой точности, получив точность 74,8% по 7 категориям объектов по сравнению с 72,0%.
Сравнение с пакетным обучением : Важный вопрос, который следует рассмотреть, заключается в том, дает ли инкрементальное обучение OPTIMOL преимущество перед традиционными методами пакетного обучения, когда все остальное в модели остается постоянным. Когда классификатор обучается инкрементально, выбирая следующие изображения на основе того, чему он научился на предыдущих, наблюдаются три важных результата:
- Инкрементное обучение позволяет OPTIMOL собирать более качественные наборы данных
- Инкрементное обучение позволяет OPTIMOL обучаться быстрее (отбрасывая нерелевантные изображения)
- Инкрементное обучение не оказывает отрицательного влияния на ROC-кривую классификатора; на самом деле, инкрементное обучение дало улучшение

Категоризация объектов при поиске изображений на основе содержания

Обычно поиск изображений использует только текст, связанный с изображениями. Проблема поиска изображений на основе контента заключается в улучшении результатов поиска путем учета визуальной информации, содержащейся в самих изображениях. Несколько методов CBIR используют классификаторы, обученные на результатах поиска изображений, для уточнения поиска. Другими словами, категоризация объектов из поиска изображений является одним из компонентов системы. Например, OPTIMOL использует классификатор, обученный на изображениях, собранных во время предыдущих итераций, для выбора дополнительных изображений для возвращаемого набора данных.

Примеры методов CBIR, моделирующих категории объектов из поиска изображений:

Фергус и др., 2004 ^[5]
Берг и Форсайт, 2006 ^[6]
Янаи и Барнард, 2006 ^[7]

Ссылки

^ abcde Фергус, Р.; Фей-Фей, Л.; Перона, П.; Зиссерман, А. (2005). «Изучение категорий объектов с помощью поиска изображений Google» (PDF) . Труды Международной конференции IEEE по компьютерному зрению .
^ Хофманн, Томас (1999). "Вероятностный латентный семантический анализ" (PDF) . Неопределенность в искусственном интеллекте . Архивировано из оригинала (PDF) 2007-07-10.
^ Ли, Ли-Цзя; Ван, Ган; Фэй-Фэй, Ли (2007). "OPTIMOL: автоматический онлайн-сбор изображений с помощью инкрементального обучения модели" (PDF) . Труды конференции IEEE по компьютерному зрению и распознаванию образов .
^ Teh, Yw; Jordan, MI; Beal, MJ; Blei, David (2006). "Иерархические процессы Дирихле" (PDF) . Журнал Американской статистической ассоциации . 101 (476): 1566. CiteSeerX 10.1.1.5.9094 . doi :10.1198/016214506000000302. S2CID 7934949.
^ Фергус, Р.; Перона, П.; Зиссерман, А. (2004). "Визуальный фильтр категорий для изображений Google" (PDF) . Труды 8-й Европейской конференции по компьютерному зрению .
^ Берг, Т.; Форсайт, Д. (2006). «Животные в сети». Proc. Компьютерное зрение и распознавание образов . doi :10.1109/CVPR.2006.57.
^ Янаи, К; Барнард, К. (2005). «Вероятностный сбор веб-изображений». Семинар ACM SIGMM по поиску мультимедийной информации .

Смотрите также

[fergus-1] Фергус, Р.; Фей-Фей, Л.; Перона, П.; Зиссерман, А. (2005). «Изучение категорий объектов с помощью поиска изображений Google» (PDF) . Труды Международной конференции IEEE по компьютерному зрению .

[hofmann-2] Хофманн, Томас (1999). "Вероятностный латентный семантический анализ" (PDF) . Неопределенность в искусственном интеллекте . Архивировано из оригинала (PDF) 2007-07-10.

[li-3] Ли, Ли-Цзя; Ван, Ган; Фэй-Фэй, Ли (2007). "OPTIMOL: автоматический онлайн-сбор изображений с помощью инкрементального обучения модели" (PDF) . Труды конференции IEEE по компьютерному зрению и распознаванию образов .

[teh-4] Teh, Yw; Jordan, MI; Beal, MJ; Blei, David (2006). "Иерархические процессы Дирихле" (PDF) . Журнал Американской статистической ассоциации . 101 (476): 1566. CiteSeerX 10.1.1.5.9094 . doi :10.1198/016214506000000302. S2CID 7934949.

[5] Фергус, Р.; Перона, П.; Зиссерман, А. (2004). "Визуальный фильтр категорий для изображений Google" (PDF) . Труды 8-й Европейской конференции по компьютерному зрению .

[6] Берг, Т.; Форсайт, Д. (2006). «Животные в сети». Proc. Компьютерное зрение и распознавание образов . doi :10.1109/CVPR.2006.57.

[7] Янаи, К; Барнард, К. (2005). «Вероятностный сбор веб-изображений». Семинар ACM SIGMM по поиску мультимедийной информации .