Разработка музыкального клипа |
---|
|
Синхронизация аудио-видео ( синхронизация AV , также известная как синхронизация губ или по ее отсутствию: ошибка синхронизации губ , искажение губ ) относится к относительной синхронизации аудио (звука) и видео (изображения) частей во время создания, постобработки (микширования), передачи , приема и обработки воспроизведения. Синхронизация AV может быть проблемой в телевидении , видеоконференциях или кино .
В отраслевой терминологии ошибка синхронизации губ выражается как количество времени, в течение которого звук отстает от идеальной синхронизации с видео, где положительное число времени указывает на то, что звук опережает видео, а отрицательное число указывает на то, что звук отстает от видео. [1] Эта терминология и стандартизация числовой ошибки синхронизации губ используются в профессиональной вещательной отрасли, о чем свидетельствуют различные профессиональные документы, [2] стандарты, такие как ITU-R BT.1359-1, и другие ссылки ниже.
Цифровые или аналоговые аудио-, видеопотоки или видеофайлы обычно содержат какой-либо механизм синхронизации, либо в форме чередующихся видео- и аудиоданных, либо посредством явной относительной временной метки данных.
Существуют различные причины, по которым AV-sync может быть неправильно синхронизирован.
Во время создания ошибки AV-sync происходят из-за внутренней ошибки AV-sync из-за разных задержек обработки сигнала между изображением и звуком в видеокамере и микрофоне . Задержка AV-sync обычно фиксирована. Внешние ошибки AV-sync могут возникнуть, если микрофон расположен далеко от источника звука, звук будет рассинхронизирован, поскольку скорость звука намного ниже скорости света . Если источник звука находится в 340 метрах от микрофона, то звук придет примерно на 1 секунду позже света. Задержка AV-sync увеличивается с расстоянием. Во время микширования видеоклипов обычно необходимо задержать либо аудио, либо видео, чтобы они синхронизировались. Задержка AV-sync статична, но может меняться в зависимости от отдельного клипа. Эффекты редактирования видео могут задерживать видео, из-за чего оно будет отставать от звука.
Передача ( трансляция ), прием и воспроизведение, которые могут вносить ошибки синхронизации AV. Видеокамера со встроенными микрофонами или линейным входом может не задерживать звуковые и видеотракты на одинаковую величину. Твердотельные видеокамеры (например, датчики изображения на основе ПЗС и КМОП ) могут задерживать видеосигнал на один или несколько кадров. Схемы обработки аудио- и видеосигналов существуют со значительными (и потенциально непостоянными) задержками в телевизионных системах. Конкретные схемы обработки видеосигнала, которые широко используются и вносят значительные задержки видео, включают синхронизаторы кадров, цифровые процессоры видеоэффектов, шумоподавление видео, преобразователи форматов и системы сжатия .
Обработка преобразования формата схем и деинтерлейсинга в видеомониторах может добавить один или несколько кадров задержки видео. Видеомонитор со встроенными динамиками или линейным выходом может не задерживать звук и видеосигналы одинаково. Некоторые видеомониторы содержат внутренние настраиваемые пользователем задержки звука для исправления ошибок.
Некоторые протоколы передачи, такие как RTP, требуют внеполосного метода для синхронизации медиапотоков. В некоторых системах RTP каждый медиапоток имеет свою собственную временную метку, использующую независимую тактовую частоту и рандомизированное начальное значение для каждого потока. Для синхронизации потоков может потребоваться отчет отправителя RTCP (SR) . [3]
Когда поток цифровой или аналоговой системы AV не имеет метода или механизма синхронизации, поток может стать рассинхронизированным. В фильмах эти ошибки синхронизации чаще всего вызваны тем, что изношенные пленки пропускают зубчатые колеса кинопроектора, поскольку у пленки порваны отверстия для зубчатых колес. Ошибки также могут быть вызваны тем, что киномеханик неправильно заправил пленку в проектор.
Ошибки синхронизации стали существенной проблемой в индустрии цифрового телевидения из-за использования большого количества обработки видеосигнала в телевизионном производстве, телевизионном вещании и пикселизированных телевизионных дисплеях, таких как ЖК-дисплеи , DLP и плазменные дисплеи . Пикселизированные дисплеи используют сложную обработку видеосигнала для преобразования разрешения входящего видеосигнала в собственное разрешение пикселизированного дисплея, например, преобразования видео стандартной четкости для отображения на дисплее высокой четкости. Проблемы синхронизации обычно возникают, когда значительные объемы обработки видео выполняются в видеочасти телевизионной программы. Типичными источниками значительных задержек видео в области телевидения являются видеосинхронизаторы и кодеры и декодеры сжатия видео. Особенно проблемные кодеры и декодеры используются в системах сжатия MPEG , используемых для вещания цифрового телевидения и хранения телевизионных программ на потребительских и профессиональных устройствах записи и воспроизведения.
В вещательном телевидении ошибка синхронизации губ может время от времени изменяться более чем на 100 мс (несколько видеокадров). AV-синхронизация обычно корректируется и поддерживается с помощью аудиосинхронизатора . Организации по стандартам телевизионной отрасли установили приемлемые значения ошибки синхронизации звука и видео и предложили методы, связанные с поддержанием приемлемой синхронизации. [4] [1] Рекомендация EBU R37 «Относительная синхронизация звуковых и визуальных компонентов телевизионного сигнала» гласит, что сквозная аудио/видеосинхронизация должна быть в пределах +40 мс и -60 мс (звук до/после видео соответственно), а каждый этап должен быть в пределах +5 мс и -15 мс. [5]
В результате движения рта персонажа, снятого на пленку или показанного по телевидению, обычно не соответствуют разговорному диалогу, отсюда и термин «губная лоскутность» или «ошибка синхронизации губ» . Возникающая в результате ошибка синхронизации звука и видео может раздражать зрителя и даже привести к тому, что он не получит удовольствия от программы, снизит ее эффективность или приведет к негативному восприятию оратора со стороны зрителя. [6] Потенциальная потеря эффективности вызывает особую озабоченность в отношении рекламных роликов продуктов и политических кандидатов. Организации по стандартам телевизионной отрасли, такие как Комитет по передовым телевизионным системам , стали заниматься установлением стандартов для ошибок синхронизации звука и видео. [4]
Из-за этих неприятностей ошибка AV-sync является проблемой для индустрии телевизионных программ, включая телевизионные станции, сети, рекламодателей и компании по производству программ. К сожалению, появление технологий плоских дисплеев высокой четкости (LCD, DLP и плазменных), которые могут задерживать видео больше, чем аудио, переместило проблему в дом зрителя и за пределы контроля только индустрии телевизионных программ. Компании по производству потребительских товаров теперь предлагают корректировки задержки звука для компенсации изменений задержки видео в телевизорах, саундбарах и A/V-ресиверах, [7] а несколько компаний производят специальные цифровые задержки звука, предназначенные исключительно для исправления ошибок синхронизации губ.
Для телевизионных приложений Комитет по передовым телевизионным системам рекомендует, чтобы аудиосигнал опережал видеосигнал не более чем на15 мс , а звук должен отставать от видео не более чем на 45 мс. [4] Однако МСЭ провел строго контролируемые тесты с участием опытных зрителей и обнаружил, что порог обнаружения составляет 45 мс, что приводит к задержке в 125 мс. [1] Для фильмов приемлемой синхронизацией губ считается задержка не более 22 миллисекунд в любом направлении. [5] [8]
Ассоциация производителей бытовой электроники опубликовала ряд рекомендаций о том, как цифровые телевизионные приемники должны реализовывать синхронизацию аудио/видео. [9]
Стандарт SMPTE ST2064, опубликованный в 2015 году, [10] предоставляет технологию для уменьшения или устранения ошибок синхронизации губ в цифровом телевидении. Стандарт использует аудио- и видеоотпечатки, взятые из телевизионной программы. Отпечатки могут быть восстановлены и использованы для исправления накопленной ошибки синхронизации губ. Когда отпечатки были сгенерированы для телевизионной программы, и требуемая технология включена, телевизор зрителя имеет возможность непрерывно измерять и исправлять ошибки синхронизации губ. [11] [12]
Временные метки представления (PTS) встроены в транспортные потоки MPEG , чтобы точно сигнализировать, когда каждый аудио- и видеосегмент должен быть представлен, и избегать ошибок AV-синхронизации. Однако эти временные метки часто добавляются после того, как видео проходит синхронизацию кадров, преобразование формата и предварительную обработку, и, таким образом, ошибки синхронизации губ, созданные этими операциями, не будут исправлены добавлением и использованием временных меток. [13] [14] [15] [16]
Протокол Real-time Transport Protocol синхронизирует медиа, используя временные метки происхождения на произвольной временной шкале. Часы реального времени, такие как те, которые поставляются сетевым протоколом времени или протоколом точного времени и описаны в протоколе описания сеанса [17], связанном с медиа, могут использоваться для синхронизации медиа. Затем сервер может использоваться для синхронизации между несколькими приемниками. [18]
Установлены соответствующие пределы синхронизации аудио/видео, и диапазон, который считается приемлемым для фильмов, составляет
+/- 22 мс
. Диапазон для видео, согласно ATSC, составляет до 15 мс опережения и около 45 мс времени задержки.