Обнаружение переднего плана — одна из основных задач в области компьютерного зрения и обработки изображений , целью которой является обнаружение изменений в последовательностях изображений. Вычитание фона — это любая техника, которая позволяет извлечь передний план изображения для дальнейшей обработки (распознавание объектов и т. д.).
Многим приложениям не нужно знать все об эволюции движения в видеопоследовательности, а требуется только информация об изменениях в сцене, поскольку области интереса изображения — это объекты (люди, автомобили, текст и т. д.) на переднем плане. После этапа предварительной обработки изображения (который может включать шумоподавление изображения , постобработку, такую как морфология и т. д.) требуется локализация объекта, которая может использовать эту технику.
Обнаружение переднего плана отделяет передний план от заднего на основе этих изменений, происходящих на переднем плане. Это набор методов, которые обычно анализируют видеопоследовательности, записанные в реальном времени с помощью стационарной камеры.
Описание
Все методы обнаружения основаны на моделировании фона изображения, т. е. установке фона и обнаружении происходящих изменений. Определение фона может быть очень сложным, если он содержит формы, тени и движущиеся объекты. При определении фона предполагается, что неподвижные объекты могут со временем менять цвет и интенсивность.
Сценарии, в которых применяются эти методы, как правило, очень разнообразны. Могут быть очень изменчивые последовательности, такие как изображения с очень разным освещением, интерьерами, экстерьерами, качеством и шумом. Помимо обработки в реальном времени, системы должны иметь возможность адаптироваться к этим изменениям.
Очень хорошая система обнаружения переднего плана должна уметь:
Разработать фоновую (оценочную) модель.
Будьте устойчивы к изменениям освещения, повторяющимся движениям (листья, волны, тени) и долгосрочным изменениям.
Вычитание фона
Вычитание фона — широко используемый подход для обнаружения движущихся объектов на видео со статических камер. Обоснованием подхода является обнаружение движущихся объектов по разнице между текущим кадром и опорным кадром, часто называемым «фоновым изображением» или «моделью фона». Вычитание фона в основном выполняется, если рассматриваемое изображение является частью видеопотока. Вычитание фона дает важные подсказки для многочисленных приложений в области компьютерного зрения, например, для отслеживания наблюдения или оценки позы человека . [ необходима цитата ]
Вычитание фона обычно основано на гипотезе статического фона, которая часто неприменима в реальных условиях. В сценах в помещении отражения или анимированные изображения на экранах приводят к изменению фона. Аналогично, из-за ветра, дождя или изменений освещенности, вызванных погодой, методы статического фона испытывают трудности с внешними сценами. [1]
Временной усредненный фильтр
Временной усредняющий фильтр — это метод, предложенный в Velastin. Эта система оценивает фоновую модель по медиане всех пикселей ряда предыдущих изображений. Система использует буфер со значениями пикселей последних кадров для обновления медианы для каждого изображения.
Для моделирования фона система проверяет все изображения в заданный период времени, называемый временем обучения . В это время мы только отображаем изображения и найдем медиану, пиксель за пикселем, всех графиков в фоновом режиме на этот раз.
После периода обучения для каждого нового кадра каждое значение пикселя сравнивается с входным значением фондов, рассчитанным ранее. Если входной пиксель находится в пределах порогового значения, пиксель считается соответствующим фоновой модели и его значение включается в pixbuf. В противном случае, если значение находится за пределами этого порогового значения, пиксель классифицируется как передний план и не включается в буфер.
Этот метод нельзя считать очень эффективным, поскольку он не предоставляет строгой статистической основы и требует буфера, имеющего высокую вычислительную стоимость.
Традиционные подходы
Надежный алгоритм вычитания фона должен быть в состоянии обрабатывать изменения освещения, повторяющиеся движения из-за помех и долгосрочные изменения сцены. [2] В следующем анализе используется функция V ( x , y , t ) как видеопоследовательность, где t — это временное измерение, x и y — переменные местоположения пикселей. Например, V (1,2,3) — это интенсивность пикселя в местоположении пикселя (1,2) изображения при t = 3 в видеопоследовательности.
Использование дифференциации кадров
Алгоритм обнаружения движения начинается с сегментационной части, где передний план или движущиеся объекты сегментируются от фона. Самый простой способ реализовать это — взять изображение в качестве фона и сравнить полученные в момент времени t кадры, обозначенные как I(t), с фоновым изображением, обозначенным как B. Здесь, используя простые арифметические вычисления, мы можем сегментировать объекты, просто используя технику вычитания изображений компьютерного зрения, то есть для каждого пикселя в I(t) взять значение пикселя, обозначенное как P[I(t)], и вычесть его с соответствующими пикселями в той же позиции на фоновом изображении, обозначенном как P[B].
В математическом уравнении это записывается так:
Предполагается, что фоном является кадр в момент времени t . Это разностное изображение покажет лишь некоторую интенсивность для местоположений пикселей, которые изменились в двух кадрах. Хотя мы, по-видимому, удалили фон, этот подход будет работать только для случаев, когда все пиксели переднего плана движутся, а все пиксели фона статичны. [2] Порог «Threshold» накладывается на это разностное изображение для улучшения вычитания (см. Пороговая обработка изображения ):
Это означает, что интенсивности пикселей разностного изображения «порогируются» или фильтруются на основе значения Threshold. [3] Точность этого подхода зависит от скорости движения в сцене. Более быстрые движения могут потребовать более высоких порогов.
Средний фильтр
Для расчета изображения, содержащего только фон, усредняется ряд предыдущих изображений. Для расчета фонового изображения в момент времени t:
где N — количество предыдущих изображений, взятых для усреднения. Это усреднение относится к усреднению соответствующих пикселей в данных изображениях. N будет зависеть от скорости видео (количества изображений в секунду в видео) и количества движения в видео. [4] После вычисления фона B ( x , y , t ) мы можем вычесть его из изображения V ( x , y , t ) в момент времени t = t и установить для него порог. Таким образом, передний план равен:
где Th — пороговое значение. Аналогично, мы также можем использовать медиану вместо среднего в приведенном выше расчете B ( x , y , t ).
Использование глобальных и независимых от времени пороговых значений (одинаковое значение Th для всех пикселей изображения) может ограничить точность двух вышеуказанных подходов. [2]
Бегущее гауссовское среднее
Для этого метода Врен и др. [5] предлагают подгонку гауссовой вероятностной функции плотности (pdf) на самых последних кадрах. Чтобы избежать подгонки pdf с нуля в каждом новом времени кадра , вычисляется скользящее (или кумулятивное) среднее.
PDF каждого пикселя характеризуется средним значением и дисперсией . Ниже приведено возможное начальное состояние (предполагая, что изначально каждый пиксель является фоном):
где — значение интенсивности пикселя в момент времени . Чтобы инициализировать дисперсию, мы можем, например, использовать дисперсию по x и y из небольшого окна вокруг каждого пикселя.
Обратите внимание, что фон может меняться со временем (например, из-за изменений освещения или нестатичных фоновых объектов). Чтобы учесть это изменение, в каждом кадре среднее значение и дисперсия каждого пикселя должны обновляться следующим образом:
Где определяет размер временного окна, которое используется для подгонки PDF (обычно ), а — евклидово расстояние между средним значением и значением пикселя.
Теперь мы можем классифицировать пиксель как фон, если его текущая интенсивность лежит в пределах некоторого доверительного интервала его среднего значения распределения:
где параметр — это свободный порог (обычно ). Большее значение допускает более динамичный фон, тогда как меньшее увеличивает вероятность перехода от фона к переднему плану из-за более тонких изменений.
В варианте метода распределение пикселей обновляется только в том случае, если оно классифицируется как фон. Это делается для того, чтобы предотвратить исчезновение вновь вводимых объектов переднего плана в фон. Формула обновления для среднего значения изменяется соответствующим образом:
где when считается передним планом, а в противном случае. Так что when , то есть когда пиксель определяется как передний план, среднее значение останется прежним. В результате пиксель, как только он стал передним планом, может снова стать фоном только тогда, когда значение интенсивности приблизится к тому, что было до того, как он стал передним планом. Однако этот метод имеет несколько проблем: он работает только в том случае, если все пиксели изначально являются фоновыми пикселями (или пиксели переднего плана помечены как таковые). Кроме того, он не может справиться с постепенными изменениями фона: если пиксель классифицируется как передний план в течение слишком длительного периода времени, интенсивность фона в этом месте могла измениться (из-за изменения освещения и т. д.). В результате, как только объект переднего плана исчезнет, новая интенсивность фона может больше не распознаваться как таковая.
Модели фоновой смеси
Метод смеси гауссианов подходит, моделируя каждый пиксель как смесь гауссианов и используя онлайн-аппроксимацию для обновления модели. В этой технике предполагается, что значения интенсивности каждого пикселя в видео могут быть смоделированы с использованием модели смеси гауссовых распределений . [6] Простая эвристика определяет, какие интенсивности, скорее всего, принадлежат фону. Затем пиксели, которые им не соответствуют, называются пикселями переднего плана. Пиксели переднего плана группируются с использованием анализа 2D- связанных компонентов . [6]
В любой момент времени t история конкретного пикселя ( ) выглядит следующим образом:
Эта история моделируется смесью K гауссовых распределений:
где:
Сначала каждый пиксель характеризуется своей интенсивностью в цветовом пространстве RGB. Затем вероятность наблюдения текущего пикселя определяется следующей формулой в многомерном случае:
Где K — число распределений, ω — вес, связанный с i-м гауссовым распределением в момент времени t, а μ, Σ — среднее значение и стандартное отклонение указанного гауссового распределения соответственно.
После инициализации параметров можно выполнить первое обнаружение переднего плана, а затем обновить параметры. Первое распределение Гаусса B, которое превышает пороговое значение T, сохраняется для фонового распределения:
Другие распределения считаются представляющими распределение переднего плана. Затем, когда новый кадр поступает в моменты времени , выполняется проверка соответствия каждого пикселя. Пиксель соответствует гауссовскому распределению, если расстояние Махаланобиса :
где k — постоянный порог, равный . Тогда могут возникнуть два случая:
Случай 1: Соответствие найдено с одним из k гауссианов. Для сопоставленного компонента обновление выполняется следующим образом: [7]
Пауэр и Шоуни [3] использовали тот же алгоритм для сегментации переднего плана изображения:
Существенное приближение к дается выражением : [8]
Случай 2: Не найдено совпадений ни с одним из гауссианов. В этом случае наименее вероятное распределение заменяется новым с параметрами:
После того, как выполнено обслуживание параметров, можно выполнить обнаружение переднего плана и т. д. Для обновления гауссианов используется онлайновая аппроксимация K-средних . Было предложено множество улучшений этого оригинального метода, разработанного Штауффером и Гримсоном [6] , а полный обзор можно найти в работе Боуманса и др. [7]. Стандартный метод адаптивного фонового усреднения заключается в усреднении изображений с течением времени, создавая аппроксимацию фона, которая похожа на текущую статическую сцену, за исключением случаев, когда происходит движение.
Опросы
Несколько опросов, касающихся категорий или подкатегорий моделей, можно найти ниже:
^ Пиккарди, М. (2004). «Методы вычитания фона: обзор» (PDF) . Международная конференция IEEE 2004 по системам, человеку и кибернетике. стр. 3099–3104 . doi :10.1109/icsmc.2004.1400815. ISBN0-7803-8567-5. S2CID 12127129.
^ abc Tamersoy, B. (29 сентября 2009 г.). "Вычитание фона – Конспект лекций" (PDF) . Техасский университет в Остине.
^ Lu, N.; Wang, J.; Wu, Q.; Yang, L. (февраль 2012 г.). Улучшенный метод обнаружения движения для наблюдения в реальном времени . CiteSeerX 10.1.1.149.33 .
^ Benezeth, Y.; Jodoin, PM; Emile, B.; Laurent, H.; Rosenberger, C. (2008). «Обзор и оценка часто применяемых алгоритмов вычитания фона» (PDF) . 2008 19-я Международная конференция по распознаванию образов (PDF) . стр. 1– 4. doi :10.1109/ICPR.2008.4760998. ISBN978-1-4244-2174-9. S2CID 15733287.
^ Wren, CR; Azarbayejani, A.; Darrell, T.; Pentland, AP (1997). "Pfinder: Отслеживание человеческого тела в реальном времени" (PDF) . IEEE Transactions on Pattern Analysis and Machine Intelligence . 19 (7): 780– 785. doi :10.1109/34.598236. hdl : 1721.1/10652 .
^ abc Stauffer, C.; Grimson, WEL (1999). "Адаптивные модели фоновой смеси для отслеживания в реальном времени" (PDF) . Труды конференции IEEE Computer Society 1999 года по компьютерному зрению и распознаванию образов . стр. 246–252 . doi :10.1109/CVPR.1999.784637. ISBN0-7695-0149-4. S2CID 8195115.
^ abc Bouwmans, T.; El Baf, F.; Vachon, B. (ноябрь 2008 г.). «Моделирование фона с использованием смеси гауссовских функций для обнаружения переднего плана – обзор». Последние патенты по информатике . 1 (3): 219– 237. CiteSeerX 10.1.1.324.22 . doi :10.2174/2213275910801030219.
^ Power, P.; Schoonees, J. (2002). «Понимание моделей фоновой смеси для сегментации переднего плана» (PDF) . Труды Image and Vision Computing New Zealand 2002. С. 267–271 .
^ Боуманс, Тьерри (ноябрь 2009 г.). «Подпространственное обучение для фонового моделирования: обзор». Последние патенты по информатике . 2 (3): 223– 234. doi :10.2174/1874479610902030223. S2CID 62697257.
^ Чен, CH (2009). Справочник по распознаванию образов и компьютерному зрению . стр. 181–199 . doi :10.1142/7297. ISBN978-981-4273-38-1. S2CID 58410480.
^ Боуманс, Тьерри (сентябрь 2011 г.). «Современное усовершенствованное статистическое фоновое моделирование для обнаружения переднего плана: систематическое исследование». Последние патенты по информатике . 4 (3): 147– 176. doi :10.2174/1874479611104030147.
^ Боумэнс, Тьерри (2012). «Вычитание фона для визуального наблюдения». Справочник по мягким вычислениям для видеонаблюдения . Серия Chapman & Hall/CRC Cryptography and Network Security. стр. 103–138 . ISBN978-1-4398-5684-0.
^ Боуманс, Тьерри; Захзах, Эль Хади (2014). «Надежный PCA с помощью преследования главных компонентов: обзор для сравнительной оценки в видеонаблюдении». Компьютерное зрение и понимание изображений . 122 : 22–34 . doi :10.1016/j.cviu.2013.11.009.
^ Васвани, Намрата; Боуманс, Тьерри; Джавед, Саджид; Нараянамурти, Пранит (2018). «Надежное обучение подпространству: надежный PCA, надежное отслеживание подпространства и надежное восстановление подпространства». Журнал обработки сигналов IEEE . 35 (4): 32– 55. arXiv : 1711.09492 . Bibcode : 2018ISPM...35d..32V. doi : 10.1109/MSP.2018.2826566. S2CID 3691367.
^ Боуманс, Тьерри; Собрал, Эндрюс; Джавед, Саджид; Юнг, Сун Ки; Захзах, Эль-Хади (2017). «Разложение на низкоранговые плюс аддитивные матрицы для разделения фона/переднего плана: обзор для сравнительной оценки с крупномасштабным набором данных». Computer Science Review . 23 : 1–71 . arXiv : 1511.01245 . doi : 10.1016/j.cosrev.2016.11.001. S2CID 10420698.
^ Боумэнс, Т. (2014-07-25). "Традиционные подходы к моделированию фона для статических камер". Моделирование фона и обнаружение переднего плана для видеонаблюдения . CRC Press. ISBN9781482205374.
^ Боумэнс, Т. (2014-07-25). "Современные подходы к моделированию фона для статических камер". Моделирование фона и обнаружение переднего плана для видеонаблюдения . CRC Press. ISBN9781482205374.
^ Боуманс, Т.; Гарсия-Гарсия, Б. (2019). «Вычитание фона в реальных приложениях: проблемы, текущие модели и будущие направления». arXiv : 1901.03577 [cs.CV].
Сравнения
В литературе можно найти несколько сравнительных/оценочных работ:
А. Собрал, А. Вакавант. «Всесторонний обзор алгоритмов вычитания фона, оцененных с помощью синтетических и реальных видео [ нерабочая ссылка ] ». Компьютерное зрение и понимание изображений, CVIU 2014, 2014.
А. Шахбаз, Дж. Харийоно, К. Джо, «Оценка алгоритмов вычитания фона для видеонаблюдения», FCV 2015, 2015.
Y. Xu, J. Dong, B. Zhang, D. Xu, «Методы фонового моделирования в видеоанализе: обзор и сравнительная оценка», CAAI Transactions on Intelligence Technology, страницы 43–60, том 1, выпуск 1, январь 2016 г.
Книги
T. Bouwmans, F. Porikli, B. Horferlin, A. Vacavant, Справочник «Моделирование фона и обнаружение переднего плана для видеонаблюдения: традиционные и современные подходы, реализации, сравнительный анализ и оценка» , CRC Press, Taylor and Francis Group, июнь 2014 г. (Дополнительная информация: http://www.crcpress.com/product/isbn/9781482205374)
T. Bouwmans, N. Aybat и E. Zahzah. Справочник по надежному разложению низкоранговых и разреженных матриц: применение в обработке изображений и видео , CRC Press, Taylor and Francis Group, май 2016 г. (Более подробная информация: http://www.crcpress.com/product/isbn/9781498724623)
Журналы
T. Bouwmans, L. Davis, J. Gonzalez, M. Piccardi, C. Shan, Специальный выпуск «Моделирование фона для обнаружения переднего плана в реальных динамических сценах», Специальный выпуск в Machine Vision and Applications , июль 2014 г.
А. Вакаван, Л. Тунь, Т. Шато, Специальный раздел «Сравнение фоновых моделей», Компьютерное зрение и понимание изображений , CVIU 2014, май 2014 г.
А. Петросино, Л. Маддалена, Т. Боуманс, Специальный выпуск «Моделирование и инициализация фона сцены», Pattern Recognition Letters , сентябрь 2017 г.
Т. Боуманс, Специальный выпуск «Обнаружение движущихся объектов», MDPI Journal of Imaging, 2018.
Мастер-классы
Семинар по фоновому обучению обнаружению и отслеживанию с помощью видео RGB (RGBD 2017) совместно с ICIAP 2017. (Дополнительная информация: http://rgbd2017.na.icar.cnr.it/)
Семинар по моделированию и инициализации фона сцены (SBMI 2015) совместно с ICIAP 2015. (Дополнительная информация: http://sbmi2015.na.icar.cnr.it/)
Семинар IEEE Change Detection в сотрудничестве с CVPR 2014. (Дополнительная информация: http://www.changedetection.net/)
Семинар по проблемам фоновых моделей (BMC 2012) совместно с ACCV 2012. (Дополнительная информация: http://bmc.iut-auvergne.com/)
Конкурсы
Конкурс IEEE Scene Background Modeling Contest (SBMC 2016) совместно с ICPR 2016 (для получения дополнительной информации: http://pione.dinf.usherbrooke.ca/sbmc2016/ Архивировано 10 августа 2019 г. на Wayback Machine )
Внешние ссылки
Вычитание фона Р. Венкатеша Бабу
Сегментация и отслеживание переднего плана на основе методов моделирования переднего плана и фона Жауме Гальего
Обнаружение и извлечение авиационных эпизодов из видео Марка Гарсиа и Рамиса
Веб-сайты
Сайт по вычитанию фона
Веб-сайт Background Subtraction (Т. Боуманс, Университет Ла-Рошель, Франция) содержит полный список литературы в этой области, а также ссылки на доступные наборы данных и программное обеспечение.
Конкурс фоновых моделей (для получения дополнительной информации: http://bmc.iut-auvergne.com/)
Набор данных по вычитанию искусственного фона в Штутгарте (для получения дополнительной информации: http://www.vis.uni-stuttgart.de/index.php?id=sabs Архивировано 27.03.2015 на Wayback Machine )
Набор данных SBMI (для получения дополнительной информации: http://sbmi2015.na.icar.cnr.it/)
Набор данных SBMnet (для получения дополнительной информации: http://pione.dinf.usherbrooke.ca/dataset/ Архивировано 31 октября 2018 г. на Wayback Machine )
Библиотеки
BackgroundSubtractorCNT
Библиотека BackgroundSubtractorCNT реализует очень быстрый и качественный алгоритм, написанный на C++ на основе OpenCV. Он ориентирован на оборудование с низкими характеристиками, но работает так же быстро на современных Linux и Windows. (Более подробная информация: https://github.com/sagi-z/BackgroundSubtractorCNT).
Библиотека БГС
Библиотека BGS (A. Sobral, Univ. La Rochelle, France) предоставляет фреймворк C++ для выполнения алгоритмов вычитания фона. Код работает как на Windows, так и на Linux. В настоящее время библиотека предлагает более 30 алгоритмов BGS. (Более подробная информация: https://github.com/andrewssobral/bgslibrary)
Библиотека LRS – низкоранговые и разреженные инструменты для моделирования и вычитания фона в видео LRSLibrary (A. Sobral, Univ. La Rochelle, France) предоставляет набор низкоранговых и разреженных алгоритмов разложения в MATLAB. Библиотека была разработана для сегментации движения в видео, но ее также можно использовать или адаптировать для других задач компьютерного зрения. В настоящее время LRSLibrary содержит более 100 алгоритмов на основе матриц и тензоров. (Более подробная информация: https://github.com/andrewssobral/lrslibrary)
OpenCV – библиотека OpenCV предоставляет ряд алгоритмов сегментации фона/переднего плана.