Обнаружение особенностей |
---|
Обнаружение краев |
Обнаружение угла |
Обнаружение пятен |
Обнаружение хребта |
преобразование Хафа |
Структурный тензор |
Аффинно-инвариантное обнаружение признаков |
Описание функции |
Масштаб пространства |
В компьютерном зрении распознавание 3D-объектов включает в себя распознавание и определение 3D-информации, такой как поза , объем или форма выбранных пользователем 3D-объектов на фотографии или сканировании диапазона . Обычно пример объекта, который необходимо распознать, представляется системе зрения в контролируемой среде, а затем для произвольного ввода, такого как видеопоток , система находит ранее представленный объект. Это может быть сделано как в автономном режиме, так и в режиме реального времени . Алгоритмы для решения этой задачи специализированы для определения местоположения одного заранее идентифицированного объекта и могут быть противопоставлены алгоритмам, которые работают с общими классами объектов, такими как системы распознавания лиц или распознавание 3D-объектов общего назначения. Из-за низкой стоимости и простоты получения фотографий значительное количество исследований было посвящено распознаванию 3D-объектов на фотографиях.
Метод распознавания 3D-объекта зависит от свойств объекта. Для простоты многие существующие алгоритмы были сосредоточены на распознавании жестких объектов, состоящих из одной части, то есть объектов, пространственное преобразование которых является евклидовым движением . Были приняты два общих подхода к проблеме: подходы распознавания образов используют низкоуровневую информацию о внешнем виде изображения для определения местоположения объекта, в то время как геометрические подходы на основе признаков создают модель для распознаваемого объекта и сопоставляют модель с фотографией.
Эти методы используют информацию о внешнем виде, собранную из предварительно захваченных или предварительно вычисленных проекций объекта, чтобы сопоставить объект в потенциально загроможденной сцене. Однако они не учитывают трехмерные геометрические ограничения объекта во время сопоставления и, как правило, не обрабатывают окклюзию так же хорошо, как подходы на основе признаков. См. [Murase and Nayar 1995] и [Selinger and Nelson 1999].
Подходы на основе признаков хорошо работают для объектов, имеющих отличительные признаки . До сих пор объекты, имеющие хорошие признаки краев или признаки пятен , были успешно распознаны; например, алгоритмы обнаружения, см. детектор аффинных областей Харриса и SIFT соответственно. Из-за отсутствия соответствующих детекторов признаков объекты без текстурированных, гладких поверхностей в настоящее время не могут быть обработаны этим подходом.
Распознаватели объектов на основе признаков обычно работают путем предварительного захвата ряда фиксированных видов распознаваемого объекта, извлечения признаков из этих видов, а затем в процессе распознавания сопоставляют эти признаки со сценой и обеспечивают соблюдение геометрических ограничений.
В качестве примера прототипической системы, использующей этот подход, мы представим схему метода, используемого [Rothganger et al. 2004], опустив некоторые детали. Метод начинается с предположения, что объекты подвергаются глобально жестким преобразованиям. Поскольку гладкие поверхности локально плоские, для сопоставления подходят аффинно-инвариантные признаки: статья обнаруживает интересующие области в форме эллипса, используя как реброподобные, так и пятноподобные признаки, и, согласно [Lowe 2004], находит доминирующее направление градиента эллипса, преобразует эллипс в параллелограмм и берет дескриптор SIFT для полученного параллелограмма. Цветовая информация также используется для улучшения дискриминации по сравнению с признаками SIFT, взятыми отдельно.
Далее, учитывая количество видов камеры на объект (24 в статье), метод строит 3D-модель для объекта, содержащую трехмерное пространственное положение и ориентацию каждого признака. Поскольку количество видов объекта велико, обычно каждый признак присутствует в нескольких соседних видах. Центральные точки таких совпадающих признаков соответствуют, и обнаруженные признаки выровнены вдоль доминирующего направления градиента, поэтому точки в (1, 0) в локальной системе координат параллелограмма признаков также соответствуют, как и точки (0, 1) в локальных координатах параллелограмма. Таким образом, для каждой пары совпадающих признаков в соседних видах известны три соответствия пар точек. При наличии по крайней мере двух совпадающих признаков можно использовать многовидовую аффинную структуру из алгоритма движения (см. [Tomasi and Kanade 1992]) для построения оценки положений точек (с точностью до произвольного аффинного преобразования). Статья Ротгангера и др. поэтому выбирает два смежных представления, использует метод, подобный RANSAC , для выбора двух соответствующих пар признаков и добавляет новые признаки в частичную модель, построенную RANSAC, пока они находятся под ошибкой. Таким образом, для любой заданной пары смежных представлений алгоритм создает частичную модель всех признаков, видимых в обоих представлениях.
Для создания единой модели в статье берется самая большая частичная модель и постепенно выравниваются все меньшие частичные модели с ней. Глобальная минимизация используется для уменьшения ошибки, затем применяется евклидово обновление для изменения положений элементов модели с 3D-координат, уникальных вплоть до аффинного преобразования, на 3D-координаты, уникальные вплоть до евклидова движения . В конце этого шага получается модель целевого объекта, состоящая из элементов, спроецированных в общее 3D-пространство.
Чтобы распознать объект на произвольном входном изображении, в статье определяются особенности, а затем используется RANSAC для поиска матрицы аффинной проекции, которая наилучшим образом соответствует унифицированной модели объекта для 2D-сцены. Если этот подход RANSAC имеет достаточно низкую ошибку, то в случае успеха алгоритм распознает объект и дает позу объекта в терминах аффинной проекции. При предполагаемых условиях метод обычно достигает уровня распознавания около 95%.