Распознавание 3D-объектов

В компьютерном зрении распознавание 3D-объектов включает в себя распознавание и определение 3D-информации, такой как поза , объем или форма выбранных пользователем 3D-объектов на фотографии или сканировании диапазона . Обычно пример объекта, который необходимо распознать, представляется системе зрения в контролируемой среде, а затем для произвольного ввода, такого как видеопоток , система находит ранее представленный объект. Это может быть сделано как в автономном режиме, так и в режиме реального времени . Алгоритмы для решения этой задачи специализированы для определения местоположения одного заранее идентифицированного объекта и могут быть противопоставлены алгоритмам, которые работают с общими классами объектов, такими как системы распознавания лиц или распознавание 3D-объектов общего назначения. Из-за низкой стоимости и простоты получения фотографий значительное количество исследований было посвящено распознаванию 3D-объектов на фотографиях.

3D-распознавание отдельных объектов на фотографиях

Метод распознавания 3D-объекта зависит от свойств объекта. Для простоты многие существующие алгоритмы были сосредоточены на распознавании жестких объектов, состоящих из одной части, то есть объектов, пространственное преобразование которых является евклидовым движением . Были приняты два общих подхода к проблеме: подходы распознавания образов используют низкоуровневую информацию о внешнем виде изображения для определения местоположения объекта, в то время как геометрические подходы на основе признаков создают модель для распознаваемого объекта и сопоставляют модель с фотографией.

Подходы к распознаванию образов

Эти методы используют информацию о внешнем виде, собранную из предварительно захваченных или предварительно вычисленных проекций объекта, чтобы сопоставить объект в потенциально загроможденной сцене. Однако они не учитывают трехмерные геометрические ограничения объекта во время сопоставления и, как правило, не обрабатывают окклюзию так же хорошо, как подходы на основе признаков. См. [Murase and Nayar 1995] и [Selinger and Nelson 1999].

Геометрические подходы, основанные на признаках

Пример обнаруженного объекта на изображении. Синий цвет указывает на центр объекта, красный эллипс указывает на характерный масштаб, определенный детектором объекта, а зеленый параллелограмм построен на основе координат эллипса согласно [Lowe 2004].

Подходы на основе признаков хорошо работают для объектов, имеющих отличительные признаки . До сих пор объекты, имеющие хорошие признаки краев или признаки пятен , были успешно распознаны; например, алгоритмы обнаружения, см. детектор аффинных областей Харриса и SIFT соответственно. Из-за отсутствия соответствующих детекторов признаков объекты без текстурированных, гладких поверхностей в настоящее время не могут быть обработаны этим подходом.

Распознаватели объектов на основе признаков обычно работают путем предварительного захвата ряда фиксированных видов распознаваемого объекта, извлечения признаков из этих видов, а затем в процессе распознавания сопоставляют эти признаки со сценой и обеспечивают соблюдение геометрических ограничений.

В качестве примера прототипической системы, использующей этот подход, мы представим схему метода, используемого [Rothganger et al. 2004], опустив некоторые детали. Метод начинается с предположения, что объекты подвергаются глобально жестким преобразованиям. Поскольку гладкие поверхности локально плоские, для сопоставления подходят аффинно-инвариантные признаки: статья обнаруживает интересующие области в форме эллипса, используя как реброподобные, так и пятноподобные признаки, и, согласно [Lowe 2004], находит доминирующее направление градиента эллипса, преобразует эллипс в параллелограмм и берет дескриптор SIFT для полученного параллелограмма. Цветовая информация также используется для улучшения дискриминации по сравнению с признаками SIFT, взятыми отдельно.

Частичные модели особенностей, спроецированные в 3D, построенные на основе близлежащих видов плюшевого мишки. Взято из [Rothganger et al. 2004].

Далее, учитывая количество видов камеры на объект (24 в статье), метод строит 3D-модель для объекта, содержащую трехмерное пространственное положение и ориентацию каждого признака. Поскольку количество видов объекта велико, обычно каждый признак присутствует в нескольких соседних видах. Центральные точки таких совпадающих признаков соответствуют, и обнаруженные признаки выровнены вдоль доминирующего направления градиента, поэтому точки в (1, 0) в локальной системе координат параллелограмма признаков также соответствуют, как и точки (0, 1) в локальных координатах параллелограмма. Таким образом, для каждой пары совпадающих признаков в соседних видах известны три соответствия пар точек. При наличии по крайней мере двух совпадающих признаков можно использовать многовидовую аффинную структуру из алгоритма движения (см. [Tomasi and Kanade 1992]) для построения оценки положений точек (с точностью до произвольного аффинного преобразования). Статья Ротгангера и др. поэтому выбирает два смежных представления, использует метод, подобный RANSAC , для выбора двух соответствующих пар признаков и добавляет новые признаки в частичную модель, построенную RANSAC, пока они находятся под ошибкой. Таким образом, для любой заданной пары смежных представлений алгоритм создает частичную модель всех признаков, видимых в обоих представлениях.

Окончательная объединенная модель признаков для плюшевого мишки после евклидовой модернизации. Для распознавания эта модель сопоставляется с фотографией сцены с помощью RANSAC. Взято из [Rothganger et al. 2004].

Для создания единой модели в статье берется самая большая частичная модель и постепенно выравниваются все меньшие частичные модели с ней. Глобальная минимизация используется для уменьшения ошибки, затем применяется евклидово обновление для изменения положений элементов модели с 3D-координат, уникальных вплоть до аффинного преобразования, на 3D-координаты, уникальные вплоть до евклидова движения . В конце этого шага получается модель целевого объекта, состоящая из элементов, спроецированных в общее 3D-пространство.

Чтобы распознать объект на произвольном входном изображении, в статье определяются особенности, а затем используется RANSAC для поиска матрицы аффинной проекции, которая наилучшим образом соответствует унифицированной модели объекта для 2D-сцены. Если этот подход RANSAC имеет достаточно низкую ошибку, то в случае успеха алгоритм распознает объект и дает позу объекта в терминах аффинной проекции. При предполагаемых условиях метод обычно достигает уровня распознавания около 95%.

Ссылки

  • Мурасе, Х. и С. К. Наяр: 1995, Визуальное обучение и распознавание трехмерных объектов по внешнему виду . Международный журнал компьютерного зрения 14, 5–24. [1]
  • Селинджер, А. и Р. Нельсон: 1999, Перцептивная групповая иерархия для распознавания трехмерных объектов на основе внешнего вида. Компьютерное зрение и понимание изображений 76(1), 83–92. [2]
  • Ротгангер, Ф.; С. Лазебник, К. Шмид и Дж. Понсе: 2004. Моделирование и распознавание трехмерных объектов с использованием локальных аффинно-инвариантных дескрипторов изображений и многовидовых пространственных ограничений , ICCV. [3]
  • Лоу, Д.: 2004, Отличительные особенности изображения от масштабно-инвариантных ключевых точек. Международный журнал компьютерного зрения. В печати. ​​[4]
  • Томаси, К. и Т. Канаде: 1992, Форма и движение из потоков изображений: метод факторизации. Международный журнал компьютерного зрения 9(2), 137–154. [5]

Смотрите также

Получено с "https://en.wikipedia.org/w/index.php?title=3D_object_recognition&oldid=1085905153"