Картина движения в визуальной сцене, обусловленная относительным движением наблюдателя
Оптический поток или оптический поток — это картина видимого движения объектов, поверхностей и краев в визуальной сцене, вызванная относительным движением между наблюдателем и сценой. [1] [2] Оптический поток также можно определить как распределение видимых скоростей движения яркостного рисунка в изображении. [3]
Концепция оптического потока была введена американским психологом Джеймсом Дж. Гибсоном в 1940-х годах для описания зрительного стимула, предоставляемого животным, движущимся по миру. [4] Гибсон подчеркивал важность оптического потока для восприятия возможностей , способности различать возможности для действия в окружающей среде. Последователи Гибсона и его экологического подхода к психологии еще больше продемонстрировали роль стимула оптического потока для восприятия движения наблюдателем в мире; восприятия формы, расстояния и движения объектов в мире; и управления локомоцией . [5]
Термин «оптический поток» также используется робототехниками, охватывая связанные с ним методы обработки изображений и управления навигацией, включая обнаружение движения , сегментацию объектов , информацию о времени контакта, расчеты фокусировки расширения, яркость, кодирование с компенсацией движения и измерение стереодиспаратности. [6] [7]
Оценка
Последовательности упорядоченных изображений позволяют оценить движение как мгновенные скорости изображения или дискретные смещения изображения. [7] Флит и Вайс предоставляют учебное введение в оптический поток на основе градиента. [8]
Джон Л. Баррон, Дэвид Дж. Флит и Стивен Бошемин предоставляют анализ производительности ряда методов оптического потока. Он подчеркивает точность и плотность измерений. [9]
Методы оптического потока пытаются вычислить движение между двумя кадрами изображения, которые берутся в определенное время и в каждой позиции вокселя . Эти методы называются дифференциальными, поскольку они основаны на локальных аппроксимациях ряда Тейлора сигнала изображения; то есть они используют частные производные по пространственным и временным координатам.
Для (2D + t )-мерного случая (случаи 3D или n -D аналогичны) воксель в месте с интенсивностью переместится на , и между двумя кадрами изображения, и можно задать следующее ограничение постоянства яркости :
Предполагая, что движение мало, ограничение изображения с помощью ряда Тейлора можно развить и получить:
При усечении членов более высокого порядка (что выполняет линеаризацию) следует, что:
или, разделив на ,
что приводит к
где — компоненты скорости или оптического потока и , а — производные изображения в точке в соответствующих направлениях. , и для производных можно записать следующее.
Таким образом:
или
Это уравнение с двумя неизвестными и не может быть решено как таковое. Это известно как проблема апертуры алгоритмов оптического потока. Для нахождения оптического потока необходим другой набор уравнений, заданный некоторым дополнительным ограничением. Все методы оптического потока вводят дополнительные условия для оценки фактического потока.
Дифференциальные методы оценки оптического потока, основанные на частных производных сигнала изображения и/или искомого поля потока и частных производных более высокого порядка, таких как:
Метод Лукаса–Канаде – относительно фрагментов изображения и аффинной модели для поля потока [10]
Метод Хорна–Шунка – оптимизация функционала на основе остатков от ограничения постоянства яркости и конкретного члена регуляризации, выражающего ожидаемую гладкость поля потока [10]
Метод Бакстона–Бакстона – основан на модели движения краев в последовательностях изображений [11]
Метод Блэка–Джепсона – грубый оптический поток через корреляцию [7]
Общие вариационные методы – ряд модификаций/расширений метода Хорна–Шунка, использующих другие условия данных и другие условия гладкости.
Дискретные методы оптимизации – пространство поиска квантуется, а затем сопоставление изображений выполняется путем назначения меток каждому пикселю таким образом, чтобы соответствующая деформация минимизировала расстояние между исходным и целевым изображением. [12] Оптимальное решение часто восстанавливается с помощью алгоритмов теоремы о максимальном потоке и минимальном разрезе , линейного программирования или методов распространения убеждений .
Многие из них, в дополнение к современным алгоритмам, оцениваются на основе набора данных Middlebury Benchmark. [13] [14] Другими популярными наборами данных для эталонных тестов являются KITTI и Sintel .
Использует
Оценка движения и сжатие видео развились как основной аспект исследования оптического потока. Хотя поле оптического потока внешне похоже на плотное поле движения, полученное из методов оценки движения, оптический поток является исследованием не только определения самого поля оптического потока, но и его использования для оценки трехмерной природы и структуры сцены, а также трехмерного движения объектов и наблюдателя относительно сцены, большинство из которых используют якобиан изображения. [15]
Оптический поток использовался исследователями робототехники во многих областях, таких как: обнаружение и отслеживание объектов , извлечение доминирующей плоскости изображения, обнаружение движения, навигация робота и визуальная одометрия . [6] Информация об оптическом потоке была признана полезной для управления микролетучими аппаратами. [16]
Применение оптического потока включает в себя проблему вывода не только движения наблюдателя и объектов в сцене, но также структуры объектов и окружающей среды. Поскольку осознание движения и создание ментальных карт структуры нашей окружающей среды являются критическими компонентами зрения животных (и человека) , преобразование этой врожденной способности в компьютерную возможность также имеет решающее значение в области машинного зрения . [17]
Рассмотрим пятикадровый клип с мячом, движущимся из нижнего левого угла поля зрения в верхний правый. Методы оценки движения могут определить, что на двумерной плоскости мяч движется вверх и вправо, и векторы, описывающие это движение, могут быть извлечены из последовательности кадров. Для целей сжатия видео (например, MPEG ) последовательность теперь описана так, как это необходимо. Однако в области машинного зрения вопрос о том, движется ли мяч вправо или наблюдатель движется влево, является неизвестной, но критически важной информацией. Даже если бы в пяти кадрах присутствовал статический узорчатый фон, мы не могли бы с уверенностью утверждать, что мяч двигался вправо, потому что узор может иметь бесконечное расстояние до наблюдателя.
Оптический датчик потока
Существуют различные конфигурации оптических датчиков потока. Одна конфигурация представляет собой чип датчика изображения, подключенный к процессору, запрограммированному на выполнение алгоритма оптического потока. Другая конфигурация использует чип зрения, который представляет собой интегральную схему, имеющую как датчик изображения , так и процессор на одном кристалле, что позволяет реализовать компактную реализацию. [18] [19] Примером этого является универсальный датчик оптической мыши, используемый в оптической мыши . В некоторых случаях схема обработки может быть реализована с использованием аналоговых или смешанных сигнальных схем, чтобы обеспечить быстрое вычисление оптического потока с минимальным потреблением тока.
Одной из областей современных исследований является использование методов нейроморфной инженерии для реализации схем, которые реагируют на оптический поток и, таким образом, могут быть пригодны для использования в оптическом датчике потока. [20] Такие схемы могут черпать вдохновение из биологических нейронных схем, которые аналогичным образом реагируют на оптический поток.
Оптические датчики потока широко используются в компьютерных оптических мышах в качестве основного чувствительного компонента для измерения движения мыши по поверхности.
Оптические датчики потока также используются в робототехнических приложениях, в первую очередь там, где необходимо измерять визуальное движение или относительное движение между роботом и другими объектами в непосредственной близости от робота. Использование оптических датчиков потока в беспилотных летательных аппаратах (БПЛА) для обеспечения устойчивости и избегания препятствий также является областью текущих исследований. [21]
^ Бертон, Эндрю; Рэдфорд, Джон (1978). Мышление в перспективе: критические эссе по изучению мыслительных процессов. Routledge. ISBN978-0-416-85840-2.
^ Уоррен, Дэвид Х.; Стрелов, Эдвард Р. (1985). Электронное пространственное зондирование для слепых: вклад восприятия. Springer. ISBN978-90-247-2689-9.
^ Хорн, Бертольд КП; Шунк, Брайан Г. (август 1981 г.). «Определение оптического потока» (PDF) . Искусственный интеллект . 17 (1–3): 185–203. doi :10.1016/0004-3702(81)90024-2. hdl :1721.1/6337.
^ Гибсон, Дж. Дж. (1950). Восприятие визуального мира . Houghton Mifflin.
^ Ройден, CS; Мур, KD (2012). «Использование сигналов скорости при обнаружении движущихся объектов движущимися наблюдателями». Vision Research . 59 : 17–24. doi : 10.1016/j.visres.2012.02.006 . PMID 22406544. S2CID 52847487.
^ аб Айрес, Келсон RT; Сантана, Андре М.; Медейрос, Аделардо А.Д. (2008). Оптический поток с использованием информации о цвете (PDF) . ACM Нью-Йорк, штат Нью-Йорк, США. ISBN978-1-59593-753-7.
^ abc Beauchemin, SS; Barron, JL (1995). «Вычисление оптического потока». ACM Computing Surveys . 27 (3). ACM New York, USA: 433–466. doi : 10.1145/212094.212141 . S2CID 1334552.
^ Флит, Дэвид Дж.; Вайс, Яир (2006). "Оценка оптического потока" (PDF) . В Парагиос, Никос; Чен, Юньмей; Фожерас, Оливье Д. (ред.). Справочник по математическим моделям в компьютерном зрении . Springer. стр. 237–257. ISBN978-0-387-26371-7.
^ Barron, John L.; Fleet, David J. & Beauchemin, Steven (1994). "Производительность методов оптического потока" (PDF) . International Journal of Computer Vision . 12 : 43–77. CiteSeerX 10.1.1.173.481 . doi :10.1007/bf01420984. S2CID 1290100.
^ ab Zhang, G.; Chanson, H. (2018). «Применение методов локального оптического потока к высокоскоростным потокам со свободной поверхностью: проверка и применение к ступенчатым желобам» (PDF) . Experimental Thermal and Fluid Science . 90 : 186–199. Bibcode :2018ETFS...90..186Z. doi :10.1016/j.expthermflusci.2017.09.010.
^ B. Glocker; N. Komodakis; G. Tziritas; N. Navab; N. Paragios (2008). Плотная регистрация изображений с помощью MRF и эффективного линейного программирования (PDF) . Журнал анализа медицинских изображений.
^ Бейкер, Саймон; Шарстейн, Дэниел; Льюис, Дж. П.; Рот, Стефан; Блэк, Майкл Дж.; Селиски, Ричард (март 2011 г.). «База данных и методология оценки оптического потока». Международный журнал компьютерного зрения . 92 (1): 1–31. doi : 10.1007/s11263-010-0390-2 . ISSN 0920-5691. S2CID 316800.
^ Бейкер, Саймон; Шарстейн, Дэниел; Льюис, Дж. П.; Рот, Стефан; Блэк, Майкл Дж.; Селиски, Ричард. «Оптический поток». vision.middlebury.edu . Получено 18 октября 2019 г.
^ Корк, Питер (8 мая 2017 г.). «Якобианское изображение». Академия роботов QUT .
^ Барроуз, GL; Чаль, JS; Шринивасан, MV (2003). «Биологически вдохновленное визуальное восприятие и управление полетом». Aeronautical Journal . 107 (1069): 159–268. doi :10.1017/S0001924000011891. S2CID 108782688 – через Cambridge University Press.
^ Браун, Кристофер М. (1987). Достижения в области компьютерного зрения. Lawrence Erlbaum Associates. ISBN978-0-89859-648-9.