Деинтерлейсинг — это процесс преобразования чересстрочного видео в нечересстрочную или прогрессивную форму. Чересстрочные видеосигналы обычно встречаются в аналоговом телевидении , VHS , Laserdisc , цифровом телевидении ( HDTV ) в формате 1080i , некоторых DVD- дисках и небольшом количестве Blu-ray -дисков.
Кадр видео с чересстрочной разверткой состоит из двух полей, взятых последовательно: первое содержит все нечетные строки изображения, а второе — все четные строки. Аналоговое телевидение использовало эту технику, поскольку она позволяла использовать меньшую полосу пропускания, сохраняя при этом высокую частоту кадров для более плавного и реалистичного движения. Сигнал с нечересстрочной разверткой (или прогрессивной разверткой ), который использует ту же полосу пропускания, обновляет дисплей только в два раза реже и, как было обнаружено, создает воспринимаемое мерцание или заикание. Дисплеи на основе ЭЛТ могли правильно отображать чересстрочное видео благодаря своей полностью аналоговой природе, плавно смешивая чередующиеся строки. Однако с начала 2000-х годов дисплеи, такие как телевизоры и компьютерные мониторы, стали почти полностью цифровыми — в том смысле, что дисплей состоит из дискретных пикселей — и на таких дисплеях чересстрочная развертка становится заметной и может выглядеть как отвлекающий визуальный дефект. Процесс деинтерлейсинга должен попытаться минимизировать их.
Таким образом, деинтерлейсинг является необходимым процессом и встроен в большинство современных DVD-плееров, проигрывателей Blu-ray, ЖК-/LED-телевизоров, цифровых проекторов, телевизионных приставок, профессионального вещательного оборудования, а также компьютерных видеоплееров и редакторов — хотя каждый из них имеет разный уровень качества.
Деинтерлейсинг исследовался десятилетиями и использует сложные алгоритмы обработки; однако достичь последовательных результатов было очень сложно. [1] [2]
И видео , и фотопленка захватывают серию кадров (неподвижных изображений) в быстрой последовательности; однако телевизионные системы считывают захваченное изображение, последовательно сканируя датчик изображения по строкам (строкам). В аналоговом телевидении каждый кадр делится на два последовательных поля , одно из которых содержит все четные строки, а другое — нечетные. Поля захватываются последовательно со скоростью, в два раза превышающей номинальную частоту кадров. Например, системы PAL и SECAM имеют частоту 25 кадров/сек или 50 полей/сек, в то время как система NTSC обеспечивает 29,97 кадров/сек или 59,94 поля/сек. Этот процесс деления кадров на поля с половинным разрешением с удвоенной частотой кадров называется чересстрочной разверткой .
Поскольку чересстрочный сигнал содержит два поля видеокадра, снятых в два разных момента времени, он улучшает восприятие движения зрителем и уменьшает мерцание , используя преимущество эффекта инерционности зрения . Это приводит к эффективному удвоению разрешения по времени по сравнению с нечересстрочной разверткой (для частоты кадров, равной частоте полей). Однако чересстрочный сигнал требует дисплея, который изначально способен отображать отдельные поля в последовательном порядке, и только традиционные телевизоры на основе ЭЛТ способны отображать чересстрочный сигнал из-за электронного сканирования и отсутствия видимого фиксированного разрешения.
Большинство современных дисплеев, таких как LCD , DLP и плазменные дисплеи , не могут работать в чересстрочном режиме, поскольку они являются дисплеями с фиксированным разрешением и поддерживают только прогрессивную развертку. Для отображения чересстрочного сигнала на таких дисплеях два чересстрочных поля должны быть преобразованы в один прогрессивный кадр с помощью процесса, известного как деинтерлейсинг . Однако, когда два поля, снятые в разные моменты времени, повторно объединяются в полный кадр, отображаемый одновременно, возникают визуальные дефекты, называемые артефактами чересстрочной развертки или расчесыванием, при перемещении объектов на изображении. Хороший алгоритм деинтерлейсинга должен стараться максимально избегать артефактов чересстрочной развертки и не жертвовать качеством изображения в процессе, чего трудно добиться последовательно. Существует несколько доступных методов, которые экстраполируют недостающую информацию об изображении, однако они скорее попадают в категорию интеллектуального создания кадров и требуют сложных алгоритмов и значительной вычислительной мощности.
Методы деинтерлейсинга требуют сложной обработки и, таким образом, могут вносить задержку в видеопоток. Хотя это обычно не заметно, это может привести к тому, что отображение старых видеоигр будет отставать от ввода с контроллера. Таким образом, многие телевизоры имеют «игровой режим», в котором выполняется минимальная обработка для максимизации скорости за счет качества изображения. Деинтерлейсинг лишь частично отвечает за такую задержку; масштабирование также включает в себя сложные алгоритмы, выполнение которых занимает миллисекунды.
Некоторые видео с чересстрочной разверткой могли быть изначально созданы из прогрессивных кадров, и процесс деинтерлейсинга должен это учитывать.
Типичный киноматериал снимается на пленку 24 кадра/с. Преобразование пленки в чересстрочное видео обычно использует процесс, называемый телесином, при котором каждый кадр преобразуется в несколько полей. В некоторых случаях каждый кадр пленки может быть представлен ровно двумя прогрессивными сегментированными кадрами (PsF), и в этом формате не требуется сложный алгоритм деинтерлейсинга, поскольку каждое поле содержит часть того же самого прогрессивного кадра. Однако для соответствия 50-полевому чересстрочному сигналу PAL/SECAM или 59,94/60-полевому чересстрочному сигналу NTSC необходимо преобразование частоты кадров с использованием различных методов «pulldown». Большинство современных телевизоров могут восстанавливать исходный сигнал 24 кадра/с с помощью обратного процесса телесина . Другой вариант — ускорить 24-кадровый фильм на 4% (до 25 кадров/с) для преобразования PAL/SECAM; этот метод по-прежнему широко используется для DVD, а также для телевизионных трансляций (SD и HD) на рынках PAL.
DVD-диски могут либо кодировать фильмы одним из этих методов, либо хранить исходное прогрессивное видео 24 кадра/с и использовать теги декодера MPEG-2 для указания видеоплееру, как преобразовать их в чересстрочный формат. Большинство фильмов на Blu-ray сохранили исходную не чересстрочную скорость движения 24 кадра/с и позволяют выводить в прогрессивном формате 1080p24 непосредственно на устройства отображения без необходимости преобразования.
Некоторые камкордеры 1080i HDV также предлагают режим PsF с частотой кадров, подобной кинематографической, 24 или 25 кадров/с. Съемочные группы телепроизводства также могут использовать специальные кинокамеры, работающие со скоростью 25 или 30 кадров/с, когда такой материал не требует преобразования частоты кадров для трансляции в предполагаемом формате видеосистемы.
Деинтерлейсинг требует, чтобы дисплей буферизовал одно или несколько полей и рекомбинировал их в полные кадры. Теоретически это было бы так же просто, как захватить одно поле и объединить его со следующим полем, которое должно быть получено, создавая один кадр. Однако изначально записанный сигнал был получен из двух полей в разные моменты времени, и без специальной обработки любое движение по полям обычно приводит к эффекту «расчесывания», когда чередующиеся строки слегка смещены друг относительно друга.
Существуют различные методы деинтерлейсинга видео, каждый из которых создает свои собственные проблемы или артефакты . Некоторые методы намного чище в плане артефактов, чем другие.
Большинство методов деинтерлейсинга делятся на три основные группы:
Современные системы деинтерлейсинга буферизуют несколько полей и используют такие методы, как обнаружение краев , в попытке найти движение между полями. Затем это используется для интерполяции недостающих строк из исходного поля, уменьшая эффект расчесывания. [3]
Эти методы берут четные и нечетные поля и объединяют их в один кадр. Они сохраняют полное вертикальное разрешение за счет временного разрешения (воспринимаемой частоты кадров), при этом 50i/60i преобразуется в 24p/25p/30p, что может привести к потере плавного, текучего ощущения оригинала. Однако, если чересстрочный сигнал изначально был получен из источника с более низкой частотой кадров, например, пленки, то никакая информация не теряется, и эти методы могут быть достаточны.
Эти методы берут каждое поле (только с половиной строк) и расширяют его на весь экран, чтобы создать кадр. Это может уменьшить вертикальное разрешение изображения вдвое, но направлено на сохранение исходной частоты полей (50i или 60i преобразуется в 50p или 60p).
Удвоение строк иногда путают с деинтерлейсингом в целом или с интерполяцией (масштабированием изображения), которая использует пространственную фильтрацию для создания дополнительных строк и, следовательно, уменьшения видимости пикселизации на любом типе дисплея. [4] Термин «удвоитель строк» чаще используется в высококачественной бытовой электронике, в то время как «деинтерлейсинг» чаще используется в области компьютеров и цифрового видео.
Более продвинутые алгоритмы деинтерлейсинга объединяют традиционные методы комбинирования полей (плетение и смешивание) и методы расширения кадров (удвоение боба или строки) для создания высококачественной прогрессивной видеопоследовательности. Одним из основных указаний на направление и объем движения будет направление и длина артефактов расчесывания в чересстрочном сигнале.
Лучшие алгоритмы также пытаются предсказать направление и количество движения изображения между последовательными полями, чтобы лучше смешать два поля вместе. Они могут использовать алгоритмы, похожие на блочную компенсацию движения, используемую при сжатии видео. Например, если бы в двух полях лицо человека двигалось влево, переплетение создало бы расчесывание, а смешивание создало бы двоение. Расширенная компенсация движения (в идеале) увидела бы, что лицо в нескольких полях — это одно и то же изображение, просто перемещенное в другое положение, и попыталась бы определить направление и количество такого движения. Затем алгоритм попытался бы восстановить полную детализацию лица в обоих выходных кадрах, объединив изображения вместе, перемещая части каждого поля вдоль обнаруженного направления на обнаруженное количество движения. Деинтерлейсеры, использующие эту технику, часто превосходят ее, поскольку они могут использовать информацию из многих полей, а не только из одного или двух, однако для достижения этого в реальном времени им требуется мощное оборудование.
Компенсацию движения необходимо сочетать с обнаружением смены сцены (что имеет свои собственные проблемы), в противном случае она попытается найти движение между двумя совершенно разными сценами. Плохо реализованный алгоритм компенсации движения будет мешать естественному движению и может привести к визуальным артефактам, которые проявляются как «прыгающие» части в том, что должно быть неподвижным или плавно движущимся изображением.
Различные методы деинтерлейсинга имеют разные характеристики качества и скорости.
Обычно для измерения качества метода деинтерлейсинга используется следующий подход:
Основной метрикой измерения скорости являются кадры в секунду (FPS) — сколько кадров деинтерлейсер способен обработать за секунду. Говоря о FPS, необходимо указывать разрешение всех кадров и характеристики оборудования, поскольку скорость конкретного метода деинтерлейсинга существенно зависит от этих двух факторов.
Этот бенчмарк сравнивает 8 различных методов деинтерлейсинга на синтетическом видео. На видео есть движущаяся 3-мерная кривая Лиссажу , чтобы сделать его сложным для современных методов деинтерлейсинга. Авторы использовали MSE и PSNR в качестве объективных метрик. Также они измеряют скорость обработки в FPS . Для некоторых методов есть только визуальное сравнение, для других - только объективное. [5]
Алгоритм | МШЭ | ПСНР | Скорость обработки (кадров в секунду) | С открытым исходным кодом |
---|---|---|---|---|
Vegas De-interlace Blend [6] | 8.086 | 43.594 | 3.53 | Нет |
Vegas Деинтерлейсинг Интерполяция [6] | 16.426 | 41.292 | 3.58 | Нет |
Этот бенчмарк сравнил более 20 методов на 40 видеопоследовательностях. Общая длина последовательностей составляет 834 кадра. Его авторы заявляют, что главной особенностью этого бенчмарка является всестороннее сравнение методов с визуальными инструментами сравнения, графиками производительности и настройкой параметров. Авторы использовали PSNR и SSIM в качестве объективных метрик. [7]
Алгоритм | ПСНР | ССИМ | Скорость обработки (кадров в секунду) | С открытым исходным кодом |
---|---|---|---|---|
Деинтерлейсер MSU [8] | 40.708 | 0,983 | 1.3 | Нет |
VapourSynth TDeintMod [9] | 39.916 | 0,977 | 50.29 | Да |
ННЕДИ [10] | 39.625 | 0,978 | 1.91 | Да |
Фильтр деинтерлейсинга FFmpeg Боба Уивера [11] | 39.679 | 0,976 | 46.45 | Да |
Вапорсинт EEDI3 [12] | 39.373 | 0,977 | 51.9 | Да |
Глубокий деинтерлейсер видео в реальном времени [13] | 39.203 | 0,976 | 0,27 | Да |
Автор VapourSynth TDeintMod утверждает, что это двунаправленный адаптивный деинтерлейсер движения. Метод NNEDI использует нейронную сеть для деинтерлейсинга видеопоследовательностей. Фильтр деинтерлейсинга FFmpeg Bob Weaver является частью известного фреймворка для обработки видео и аудио. Vapoursynth EEDI3 — это аббревиатура от «enhanced edge directioned interpolation 3», авторы этого метода утверждают, что он работает, находя наилучшую неубывающую деформацию между двумя строками в соответствии с функционалом стоимости. Авторы Real-Time Deep Video Deinterlacer используют Deep CNN для получения наилучшего качества выходного видео.
Деинтерлейсинг чересстрочного видеосигнала может выполняться на различных этапах цепочки производства телевизионных программ.
Деинтерлейсинг требуется для чересстрочных архивных программ, когда формат вещания или медиаформат является прогрессивным, как при вещании EDTV 576p или HDTV 720p50, или мобильном вещании DVB-H; есть два способа добиться этого.
Когда формат вещания или медиа-формат является чересстрочным, деинтерлейсинг в реальном времени должен выполняться встроенной схемой в приставке, телевизоре, внешнем видеопроцессоре, DVD или DVR-плеере или карте ТВ-тюнера. Поскольку бытовое электронное оборудование, как правило, намного дешевле, имеет значительно меньшую вычислительную мощность и использует более простые алгоритмы по сравнению с профессиональным деинтерлейсинговым оборудованием, качество деинтерлейсинга может сильно различаться, а типичные результаты часто плохие даже на высококлассном оборудовании. [ необходима цитата ]
Использование компьютера для воспроизведения и/или обработки потенциально открывает более широкий выбор видеоплееров и/или программного обеспечения для редактирования, не ограничиваясь качеством, предлагаемым встроенным устройством бытовой электроники, поэтому, по крайней мере, теоретически возможно более высокое качество деинтерлейсинга, особенно если пользователь может предварительно преобразовать чересстрочное видео в прогрессивное сканирование перед воспроизведением и использовать сложные и трудоемкие алгоритмы деинтерлейсинга (т. е. использовать метод «производства»).
Однако качество как бесплатного, так и коммерческого потребительского программного обеспечения может не соответствовать уровню профессионального программного обеспечения и оборудования. Кроме того, большинство пользователей не обучены видеопроизводству; это часто приводит к плохим результатам, поскольку многие люди не знают много о деинтерлейсинге и не знают, что частота кадров составляет половину частоты полей. Многие кодеки/плееры даже не деинтерлейсингуют сами по себе и полагаются на видеокарту и API видеоускорения для выполнения надлежащего деинтерлейсинга.
Европейский вещательный союз выступил против использования чересстрочного видео в производстве и вещании, рекомендуя 720p 50 fps (кадров в секунду) в качестве текущего на тот момент формата производства и работая с отраслью над введением 1080p 50 в качестве перспективного стандарта производства до начала 2010-х годов, который предлагал более высокое вертикальное разрешение, лучшее качество при более низких битрейтах и более простое преобразование в другие форматы, такие как 720p50 и 1080i50. [14] [15] Главным аргументом было то, что независимо от того, насколько сложным может быть алгоритм деинтерлейсинга, артефакты в чересстрочном сигнале не могут быть устранены, поскольку некоторая информация теряется между кадрами.
Ив Фаруджа, основатель Faroudja Labs и лауреат премии «Эмми» за достижения в области технологии деинтерлейсинга, заявил, что «преобразование чересстрочной развертки в прогрессивную не работает», и рекомендовал не использовать чересстрочные сигналы. [2] [16]