Захват движения лица — это процесс электронного преобразования движений лица человека в цифровую базу данных с использованием камер или лазерных сканеров . Эта база данных затем может использоваться для создания компьютерной графики (CG), компьютерной анимации для фильмов, игр или аватаров в реальном времени. Поскольку движение персонажей CG происходит от движений реальных людей, это приводит к более реалистичной и детализированной компьютерной анимации персонажей, чем если бы анимация была создана вручную.
База данных захвата движений лица описывает координаты или относительные положения опорных точек на лице актера. Захват может быть в двух измерениях, в этом случае процесс захвата иногда называют « отслеживанием выражения », или в трех измерениях. Двумерный захват может быть достигнут с помощью одной камеры и программного обеспечения захвата. Это обеспечивает менее сложное отслеживание и не позволяет полностью захватить трехмерные движения, такие как поворот головы. Трехмерный захват осуществляется с помощью многокамерных установок или системы лазерных маркеров. Такие системы, как правило, намного дороже, сложнее и требуют больше времени в использовании. Существуют две преобладающие технологии: системы отслеживания с маркерами и без маркеров.
Захват движения лица связан с захватом движения тела, но является более сложным из-за более высоких требований к разрешению для обнаружения и отслеживания тонких выражений, возможных из небольших движений глаз и губ. Эти движения часто меньше нескольких миллиметров, требуя еще большего разрешения и точности и других методов фильтрации, чем обычно используемые при захвате всего тела. Дополнительные ограничения лица также предоставляют больше возможностей для использования моделей и правил.
Захват выражения лица похож на захват движения лица. Это процесс использования визуальных или механических средств для манипулирования компьютерными персонажами с помощью ввода с человеческих лиц или для распознавания эмоций пользователя.
This section needs to be updated.(September 2019) |
Одна из первых статей, в которой обсуждалась анимация, основанная на производительности, была опубликована Лэнсом Уильямсом в 1990 году. В ней он описывает «способ получения выражений реальных лиц и применения их к лицам, созданным с помощью компьютера». [1]
Традиционные системы на основе маркеров наносят до 350 маркеров на лицо актера и отслеживают движение маркера с помощью камер с высоким разрешением . Это использовалось в таких фильмах, как «Полярный экспресс» и «Беовульф», чтобы позволить актеру, например Тому Хэнксу, управлять выражениями лиц нескольких разных персонажей. К сожалению, это относительно громоздко и делает выражения актеров чрезмерно управляемыми после сглаживания и фильтрации. Системы следующего поколения, такие как CaptiveMotion, используют ответвления традиционной системы на основе маркеров с более высоким уровнем детализации.
Технология активных светодиодных маркеров в настоящее время используется для управления анимацией лица в режиме реального времени для обеспечения обратной связи с пользователем.
Технологии без маркеров используют такие черты лица, как ноздри , уголки губ и глаз, а также морщины, а затем отслеживают их. Эта технология обсуждается и демонстрируется в CMU , [2] IBM , [3] Манчестерском университете (где многое из этого началось с Тима Кутса, [4] Гарета Эдвардса и Криса Тейлора) и других местах, используя активные модели внешнего вида , анализ главных компонентов , отслеживание собственных значений , модели деформируемых поверхностей и другие методы для отслеживания желаемых черт лица от кадра к кадру. Эта технология гораздо менее громоздка и обеспечивает большую выразительность для актера.
Эти подходы на основе зрения также способны отслеживать движение зрачков, век, окклюзию зубов губами и языком, что является очевидными проблемами в большинстве анимированных на компьютере функций. Типичными ограничениями подходов на основе зрения являются разрешение и частота кадров, оба из которых снижаются по мере того, как высокоскоростные камеры CMOS с высоким разрешением становятся доступными из разных источников.
Технология безмаркерного отслеживания лиц связана с системой распознавания лиц , поскольку система распознавания лиц может быть потенциально применена последовательно к каждому кадру видео, что приводит к отслеживанию лиц. Например, система Neven Vision [5] (ранее Eyematics, теперь приобретенная Google) позволяла осуществлять двумерное отслеживание лиц в реальном времени без обучения, специфичного для конкретного человека; их система также была среди наиболее эффективных систем распознавания лиц в правительственном тесте поставщика распознавания лиц (FRVT) 2002 года США. С другой стороны, некоторые системы распознавания явно не отслеживают выражения или даже терпят неудачу на ненейтральных выражениях, и поэтому не подходят для отслеживания. И наоборот, такие системы, как модели деформируемых поверхностей, объединяют временную информацию для устранения неоднозначности и получения более надежных результатов, и, таким образом, не могут быть применены к одной фотографии.
Отслеживание лица без маркеров перешло в коммерческие системы, такие как Image Metrics , которая применялась в таких фильмах, как сиквелы «Матрицы» [6] и «Загадочная история Бенджамина Баттона» . В последнем использовалась система Mova для захвата деформируемой модели лица, которая затем анимировалась с помощью комбинации ручного и визуального отслеживания. [7] «Аватар» был еще одним известным фильмом с захватом движений, однако в нем использовались нарисованные маркеры, а не маркеры без маркеров. Dynamixyz [ постоянная мертвая ссылка ] — еще одна коммерческая система, используемая в настоящее время.
Безмаркерные системы можно классифицировать по нескольким отличительным признакам:
На сегодняшний день ни одна система не является идеальной по всем этим критериям. Например, система Neven Vision была полностью автоматической и не требовала скрытых шаблонов или индивидуального обучения, но была 2D. Система Face/Off [8] является 3D, автоматической и в режиме реального времени, но требует проецируемых шаблонов.
Методы на основе цифрового видео становятся все более предпочтительными, поскольку механические системы, как правило, громоздки и сложны в использовании.
Используя цифровые камеры , выражения пользователя ввода обрабатываются для предоставления позы головы , что позволяет программному обеспечению затем найти глаза, нос и рот. Лицо изначально калибруется с использованием нейтрального выражения. Затем, в зависимости от архитектуры, брови, веки, щеки и рот могут быть обработаны как отличия от нейтрального выражения. Это делается, например, путем поиска краев губ и распознавания их как уникального объекта. Часто наносят контрастный макияж или маркеры или какой-либо другой метод, чтобы ускорить обработку. Как и распознавание голоса, лучшие методы хороши только в 90 процентах случаев, требуя большой ручной настройки или терпимости к ошибкам.
Поскольку у созданных компьютером персонажей на самом деле нет мышц , для достижения тех же результатов используются разные методы. Некоторые аниматоры создают кости или объекты, которые контролируются программой захвата, и перемещают их соответствующим образом, что при правильной настройке персонажа дает хорошее приближение. Поскольку лица очень эластичны, этот метод часто смешивают с другими, по-разному настраивая веса для эластичности кожи и других факторов в зависимости от желаемых выражений.
Несколько коммерческих компаний разрабатывают продукты, которые уже были в употреблении, но стоят довольно дорого. [ необходима цитата ]
Ожидается, что это станет основным устройством ввода для компьютерных игр, как только программное обеспечение станет доступным по цене, но аппаратное и программное обеспечение пока не существует, несмотря на исследования последних 15 лет, дающие результаты, которые почти пригодны для использования. [ необходима цитата ]
Первое приложение, получившее широкое распространение, — это общение. Сначала это была видеотелефония и мультимедийные сообщения, а затем и 3D с гарнитурами смешанной реальности.
С развитием машинного обучения , вычислительной мощности и усовершенствованных датчиков, особенно на мобильных телефонах, технология захвата движения лица стала широко доступна. Два примечательных примера — функция объектива Snapchat и Memoji от Apple [9] , которые можно использовать для записи сообщений с аватарами или в прямом эфире через приложение FaceTime . С этими приложениями (и многими другими) большинство современных мобильных телефонов сегодня способны выполнять захват движения лица в реальном времени! Совсем недавно был представлен захват движения лица в реальном времени в сочетании с реалистичными 3D- аватарами , чтобы обеспечить иммерсивное общение в смешанной реальности (MR) и виртуальной реальности (VR). Meta продемонстрировала, что их Codec Avatars общаются через их гарнитуру MR Meta Quest Pro, чтобы записать подкаст с двумя удаленными участниками. [10] Гарнитура MR Apple Vision Pro от Apple также поддерживает захват движения лица в реальном времени, который можно использовать с такими приложениями, как FaceTime . Приложения для общения в реальном времени отдают приоритет низкой задержке , чтобы облегчить естественный разговор и простоту использования, стремясь сделать технологию доступной для широкой аудитории. Эти соображения могут ограничить возможную точность захвата движения.