Захват движения лица

Process of electronically converting the movements of a person's face into a digital database

Захват движения лица — это процесс электронного преобразования движений лица человека в цифровую базу данных с использованием камер или лазерных сканеров . Эта база данных затем может использоваться для создания компьютерной графики (CG), компьютерной анимации для фильмов, игр или аватаров в реальном времени. Поскольку движение персонажей CG происходит от движений реальных людей, это приводит к более реалистичной и детализированной компьютерной анимации персонажей, чем если бы анимация была создана вручную.

База данных захвата движений лица описывает координаты или относительные положения опорных точек на лице актера. Захват может быть в двух измерениях, в этом случае процесс захвата иногда называют « отслеживанием выражения », или в трех измерениях. Двумерный захват может быть достигнут с помощью одной камеры и программного обеспечения захвата. Это обеспечивает менее сложное отслеживание и не позволяет полностью захватить трехмерные движения, такие как поворот головы. Трехмерный захват осуществляется с помощью многокамерных установок или системы лазерных маркеров. Такие системы, как правило, намного дороже, сложнее и требуют больше времени в использовании. Существуют две преобладающие технологии: системы отслеживания с маркерами и без маркеров.

Захват движения лица связан с захватом движения тела, но является более сложным из-за более высоких требований к разрешению для обнаружения и отслеживания тонких выражений, возможных из небольших движений глаз и губ. Эти движения часто меньше нескольких миллиметров, требуя еще большего разрешения и точности и других методов фильтрации, чем обычно используемые при захвате всего тела. Дополнительные ограничения лица также предоставляют больше возможностей для использования моделей и правил.

Захват выражения лица похож на захват движения лица. Это процесс использования визуальных или механических средств для манипулирования компьютерными персонажами с помощью ввода с человеческих лиц или для распознавания эмоций пользователя.

История

Одна из первых статей, в которой обсуждалась анимация, основанная на производительности, была опубликована Лэнсом Уильямсом в 1990 году. В ней он описывает «способ получения выражений реальных лиц и применения их к лицам, созданным с помощью компьютера». [1]

Технологии

На основе маркеров

Традиционные системы на основе маркеров наносят до 350 маркеров на лицо актера и отслеживают движение маркера с помощью камер с высоким разрешением . Это использовалось в таких фильмах, как «Полярный экспресс» и «Беовульф», чтобы позволить актеру, например Тому Хэнксу, управлять выражениями лиц нескольких разных персонажей. К сожалению, это относительно громоздко и делает выражения актеров чрезмерно управляемыми после сглаживания и фильтрации. Системы следующего поколения, такие как CaptiveMotion, используют ответвления традиционной системы на основе маркеров с более высоким уровнем детализации.

Технология активных светодиодных маркеров в настоящее время используется для управления анимацией лица в режиме реального времени для обеспечения обратной связи с пользователем.

Безмаркерный

Технологии без маркеров используют такие черты лица, как ноздри , уголки губ и глаз, а также морщины, а затем отслеживают их. Эта технология обсуждается и демонстрируется в CMU , [2] IBM , [3] Манчестерском университете (где многое из этого началось с Тима Кутса, [4] Гарета Эдвардса и Криса Тейлора) и других местах, используя активные модели внешнего вида , анализ главных компонентов , отслеживание собственных значений , модели деформируемых поверхностей и другие методы для отслеживания желаемых черт лица от кадра к кадру. Эта технология гораздо менее громоздка и обеспечивает большую выразительность для актера.

Эти подходы на основе зрения также способны отслеживать движение зрачков, век, окклюзию зубов губами и языком, что является очевидными проблемами в большинстве анимированных на компьютере функций. Типичными ограничениями подходов на основе зрения являются разрешение и частота кадров, оба из которых снижаются по мере того, как высокоскоростные камеры CMOS с высоким разрешением становятся доступными из разных источников.

Технология безмаркерного отслеживания лиц связана с системой распознавания лиц , поскольку система распознавания лиц может быть потенциально применена последовательно к каждому кадру видео, что приводит к отслеживанию лиц. Например, система Neven Vision [5] (ранее Eyematics, теперь приобретенная Google) позволяла осуществлять двумерное отслеживание лиц в реальном времени без обучения, специфичного для конкретного человека; их система также была среди наиболее эффективных систем распознавания лиц в правительственном тесте поставщика распознавания лиц (FRVT) 2002 года США. С другой стороны, некоторые системы распознавания явно не отслеживают выражения или даже терпят неудачу на ненейтральных выражениях, и поэтому не подходят для отслеживания. И наоборот, такие системы, как модели деформируемых поверхностей, объединяют временную информацию для устранения неоднозначности и получения более надежных результатов, и, таким образом, не могут быть применены к одной фотографии.

Отслеживание лица без маркеров перешло в коммерческие системы, такие как Image Metrics , которая применялась в таких фильмах, как сиквелы «Матрицы» [6] и «Загадочная история Бенджамина Баттона» . В последнем использовалась система Mova для захвата деформируемой модели лица, которая затем анимировалась с помощью комбинации ручного и визуального отслеживания. [7] «Аватар» был еще одним известным фильмом с захватом движений, однако в нем использовались нарисованные маркеры, а не маркеры без маркеров. Dynamixyz [ постоянная мертвая ссылка ‍ ] — еще одна коммерческая система, используемая в настоящее время.

Безмаркерные системы можно классифицировать по нескольким отличительным признакам:

  • 2D и 3D отслеживание
  • требуется ли индивидуальная подготовка или другая человеческая помощь
  • выполнение в режиме реального времени (что возможно только в том случае, если не требуется обучение или надзор)
  • нужен ли им дополнительный источник информации, такой как проецируемые узоры или невидимая краска, такая как используется в системе Mova.

На сегодняшний день ни одна система не является идеальной по всем этим критериям. Например, система Neven Vision была полностью автоматической и не требовала скрытых шаблонов или индивидуального обучения, но была 2D. Система Face/Off [8] является 3D, автоматической и в режиме реального времени, но требует проецируемых шаблонов.

Захват выражения лица

Технологии

Методы на основе цифрового видео становятся все более предпочтительными, поскольку механические системы, как правило, громоздки и сложны в использовании.

Используя цифровые камеры , выражения пользователя ввода обрабатываются для предоставления позы головы , что позволяет программному обеспечению затем найти глаза, нос и рот. Лицо изначально калибруется с использованием нейтрального выражения. Затем, в зависимости от архитектуры, брови, веки, щеки и рот могут быть обработаны как отличия от нейтрального выражения. Это делается, например, путем поиска краев губ и распознавания их как уникального объекта. Часто наносят контрастный макияж или маркеры или какой-либо другой метод, чтобы ускорить обработку. Как и распознавание голоса, лучшие методы хороши только в 90 процентах случаев, требуя большой ручной настройки или терпимости к ошибкам.

Поскольку у созданных компьютером персонажей на самом деле нет мышц , для достижения тех же результатов используются разные методы. Некоторые аниматоры создают кости или объекты, которые контролируются программой захвата, и перемещают их соответствующим образом, что при правильной настройке персонажа дает хорошее приближение. Поскольку лица очень эластичны, этот метод часто смешивают с другими, по-разному настраивая веса для эластичности кожи и других факторов в зависимости от желаемых выражений.

Использование

Несколько коммерческих компаний разрабатывают продукты, которые уже были в употреблении, но стоят довольно дорого. [ необходима цитата ]

Ожидается, что это станет основным устройством ввода для компьютерных игр, как только программное обеспечение станет доступным по цене, но аппаратное и программное обеспечение пока не существует, несмотря на исследования последних 15 лет, дающие результаты, которые почти пригодны для использования. [ необходима цитата ]

Общение с аватарами в реальном времени

Первое приложение, получившее широкое распространение, — это общение. Сначала это была видеотелефония и мультимедийные сообщения, а затем и 3D с гарнитурами смешанной реальности.

С развитием машинного обучения , вычислительной мощности и усовершенствованных датчиков, особенно на мобильных телефонах, технология захвата движения лица стала широко доступна. Два примечательных примера — функция объектива Snapchat и Memoji от Apple [9] , которые можно использовать для записи сообщений с аватарами или в прямом эфире через приложение FaceTime . С этими приложениями (и многими другими) большинство современных мобильных телефонов сегодня способны выполнять захват движения лица в реальном времени! Совсем недавно был представлен захват движения лица в реальном времени в сочетании с реалистичными 3D- аватарами , чтобы обеспечить иммерсивное общение в смешанной реальности (MR) и виртуальной реальности (VR). Meta продемонстрировала, что их Codec Avatars общаются через их гарнитуру MR Meta Quest Pro, чтобы записать подкаст с двумя удаленными участниками. [10] Гарнитура MR Apple Vision Pro от Apple также поддерживает захват движения лица в реальном времени, который можно использовать с такими приложениями, как FaceTime . Приложения для общения в реальном времени отдают приоритет низкой задержке , чтобы облегчить естественный разговор и простоту использования, стремясь сделать технологию доступной для широкой аудитории. Эти соображения могут ограничить возможную точность захвата движения.

Смотрите также

Ссылки

  1. ^ Анимация лица, ориентированная на производительность, Лэнс Уильямс, Компьютерная графика, том 24, номер 4, август 1990 г.
  2. ^ Алгоритмы подгонки AAM, архив 22.02.2017 в Wayback Machine из Института робототехники Карнеги-Меллона
  3. ^ "Автоматическое распознавание выражений лица в реальном времени в реальном мире" (PDF) . Архивировано из оригинала (PDF) 2015-11-19 . Получено 2015-11-17 .
  4. ^ Программное обеспечение для моделирования и поиска. Архивировано 23 февраля 2009 г. на Wayback Machine («В этом документе описывается, как создавать, отображать и использовать статистические модели внешнего вида».)
  5. ^ Вискотт, Лоренц; Ж.-М. Феллоус; Н. Кругер; К. фон дер Мальсург (1997), «Распознавание лиц с помощью сопоставления эластичных пучков графов», Компьютерный анализ изображений и шаблонов , Lecture Notes in Computer Science, т. 1296, Springer, стр.  456–463 , CiteSeerX 10.1.1.18.1256 , doi :10.1007/3-540-63460-6_150, ISBN  978-3-540-63460-7
  6. ^ Боршуков, Джордж; Д. Пипони; О. Ларсен; Дж. Льюис; К. Темплаар-Литц (2003), «Универсальный захват — анимация лица на основе изображений для «Матрицы: Перезагрузка»", ACM SIGGRAPH
  7. Барба, Эрик; Стив Приг (18 марта 2009 г.), «Любопытное лицо Бенджамина Баттона», Презентация на Ванкуверском отделении ACM SIGGRAPH, 18 марта 2009 г.
  8. ^ Вайз, Тибо; Х. Ли; Л. Ван Гул; М. Поли (2009), «Face/off: Live Facial Puppetry», Симпозиум ACM по компьютерной анимации
  9. ^ «Используйте Memoji на вашем iPhone или iPad Pro». support.apple.com . Получено 16 октября 2024 г. ..
  10. ^ "#398 – Марк Цукерберг: Первое интервью в Метавселенной". lexfriedman.com . Получено 16 октября 2024 г. .
  • Университет Карнеги-Меллона
  • Делфтский технический университет
  • Интел
  • Шеффилд и Отаго
Retrieved from "https://en.wikipedia.org/w/index.php?title=Facial_motion_capture&oldid=1263079712"