Видео сверхвысокого разрешения

Генерация видеокадров высокого разрешения из заданных кадров низкого разрешения
Сравнение результатов методов VSR и SISR. VSR восстанавливает больше деталей, используя временную информацию.

Видео сверхвысокое разрешение ( VSR ) — это процесс генерации видеокадров высокого разрешения из заданных видеокадров низкого разрешения. В отличие от сверхвысокого разрешения с одним изображением (SISR) , основная цель — не только восстановить больше мелких деталей, сохранив грубые, но и сохранить согласованность движения.

Существует много подходов к решению этой задачи, но проблема по-прежнему остается популярной и сложной.


Математическое объяснение

Большинство исследований рассматривают процесс деградации рам как

{ у } = ( { х } к ) с + { н } {\displaystyle \{y\}=(\{x\}*k)\downarrow {_{s}}+\{n\}}

где:

{ х } {\displaystyle \{x\}} — оригинальная последовательность кадров высокого разрешения,
к {\displaystyle к} — размытие ядра,
{\displaystyle *} — операция свертки,
с {\displaystyle \downarrow {_{s}}} — операция по уменьшению масштаба,
{ н } {\displaystyle \{n\}} — аддитивный шум,
{ у } {\displaystyle \{y\}} — последовательность кадров низкого разрешения.

Суперразрешение — это обратная операция, поэтому ее задача — оценить последовательность кадров из последовательности кадров так, чтобы она была близка к оригиналу . Ядро размытия , операция уменьшения масштаба и аддитивный шум должны оцениваться для заданного ввода, чтобы достичь лучших результатов. { х ¯ } {\displaystyle \{{\overline {x}}\}} { у } {\displaystyle \{y\}} { х ¯ } {\displaystyle \{{\overline {x}}\}} { х } {\displaystyle \{x\}}

Подходы к видео-суперразрешению, как правило, имеют больше компонентов, чем аналоги изображений, поскольку им необходимо использовать дополнительное временное измерение. Сложные конструкции не являются редкостью. Некоторые наиболее важные компоненты для VSR управляются четырьмя основными функциями: распространение, выравнивание, агрегация и повышение дискретизации. [1]

  • Распространение относится к способу, которым признаки распространяются во времени.
  • Проблемы выравнивания при пространственном преобразовании, применяемом к невыровненным изображениям/объектам
  • Агрегация определяет шаги по объединению выровненных признаков.
  • Повышение разрешения описывает метод преобразования агрегированных признаков в конечное выходное изображение.

Методы

При работе с видео временная информация может использоваться для улучшения качества масштабирования. Методы суперразрешения отдельных изображений также могут использоваться, генерируя кадры с высоким разрешением независимо от их соседей, но это менее эффективно и вносит временную нестабильность. Существует несколько традиционных методов, которые рассматривают задачу суперразрешения видео как проблему оптимизации. Методы, основанные на глубоком обучении, для масштабирования видео в последние годы превосходят традиционные.

Традиционные методы

Существует несколько традиционных методов масштабирования видео. Эти методы пытаются использовать некоторые естественные предпочтения и эффективно оценивать движение между кадрами. Кадр высокого разрешения реконструируется на основе как естественных предпочтений, так и предполагаемого движения.

Частотная область

Сначала кадр с низким разрешением преобразуется в частотную область . Кадр с высоким разрешением оценивается в этой области. Наконец, этот результирующий кадр преобразуется в пространственную область. Некоторые методы используют преобразование Фурье , которое помогает расширить спектр захваченного сигнала и, тем не менее, увеличить разрешение. Существуют различные подходы для этих методов: с использованием теории взвешенных наименьших квадратов , [2] алгоритма общих наименьших квадратов (TLS) , [3] пространственно-переменной [4] или пространственно-временной [5] переменной фильтрации. Другие методы используют вейвлет-преобразование , которое помогает находить сходства в соседних локальных областях. [6] Позднее вейвлет-преобразование второго поколения было использовано для сверхвысокого разрешения видео. [7]

Пространственная область

Итеративные методы обратной проекции предполагают некоторую функцию между кадрами с низким и высоким разрешением и пытаются улучшить их предполагаемую функцию на каждом этапе итеративного процесса. [8] Проекции на выпуклые множества (POCS), которые определяют конкретную функцию стоимости, также могут использоваться для итеративных методов. [9]

Алгоритмы итеративной адаптивной фильтрации используют фильтр Калмана для оценки преобразования из кадра с низким разрешением в кадр с высоким разрешением. [10] Для улучшения конечного результата эти методы учитывают временную корреляцию между последовательностями с низким разрешением. Некоторые подходы также учитывают временную корреляцию между последовательностями с высоким разрешением. [11] Для аппроксимации фильтра Калмана распространенным способом является использование наименьших средних квадратов (LMS) . [12] Также можно использовать наискорейший спуск , [13] наименьшие квадраты (LS), [14] рекурсивные наименьшие квадраты (RLS) . [14]

Прямые методы оценивают движение между кадрами, масштабируют опорный кадр и деформируют соседние кадры до опорного кадра с высоким разрешением. Для построения результата эти масштабированные кадры объединяются с помощью медианного фильтра , [15] взвешенного медианного фильтра, [16] адаптивного нормализованного усреднения, классификатора AdaBoost [17] или фильтров на основе SVD . [18]

Непараметрические алгоритмы объединяют оценку движения и слияние кадров в один шаг. Это выполняется с учетом сходства участков. Веса для слияния могут быть рассчитаны с помощью фильтров нелокальных средних . [19] Для усиления поиска похожих участков можно использовать меру сходства инвариантности вращения [20] или адаптивный размер участка. [21] Вычисление внутрикадрового сходства помогает сохранить мелкие детали и края. [22] Параметры для слияния также могут быть рассчитаны с помощью регрессии ядра . [23]

Вероятностные методы используют статистическую теорию для решения задачи. Методы максимального правдоподобия (ML) оценивают более вероятное изображение. [24] [25] Другая группа методов использует оценку максимального апостериорного (MAP) значения . Параметр регуляризации для MAP можно оценить с помощью регуляризации Тихонова . [26] Случайные поля Маркова (MRF) часто используются вместе с MAP и помогают сохранить сходство в соседних участках. [27] MRF Хьюбера используются для сохранения резких краев. [28] MRF Гаусса может сгладить некоторые края, но удалить шум. [29]

Методы, основанные на глубоком обучении

Выравнивание с помощью оценки движения и компенсации движения

В подходах с выравниванием соседние кадры сначала выравниваются с целевым. Можно выравнивать кадры, выполняя оценку движения и компенсацию движения (MEMC) или используя деформируемую свертку (DC). Оценка движения дает информацию о движении пикселей между кадрами. компенсация движения — это операция деформации, которая выравнивает один кадр относительно другого на основе информации о движении. Примеры таких методов:

  • Deep-DE [30] (глубокое обучение по ансамблю черновиков) генерирует ряд карт признаков SR, а затем обрабатывает их вместе для оценки окончательного кадра
  • VSRnet [31] основан на SRCNN (модель для суперразрешения одиночного изображения ), но принимает несколько кадров в качестве входных данных. Входные кадры сначала выравниваются алгоритмом Druleas
  • VESPCN [32] использует модуль пространственной компенсации движения (MCT), который оценивает и компенсирует движение. Затем выполняется серия сверток для извлечения признаков и их слияния
  • DRVSR [33] (детально раскрывающее глубокое видео сверхвысокое разрешение) состоит из трех основных этапов: оценка движения , компенсация движения и слияние . Трансформатор компенсации движения (MCT) используется для оценки движения. Слой субпиксельной компенсации движения (SPMC) компенсирует движение. Этап слияния использует архитектуру кодера-декодера и модуль ConvLSTM для объединения информации как из пространственных, так и из временных измерений
  • RVSR [34] (надежное видео сверхвысокое разрешение) имеет две ветви: одну для пространственного выравнивания и другую для временной адаптации. Окончательный кадр представляет собой взвешенную сумму выходных данных ветвей
  • FRVSR [35] (кадровый рекуррентный видеосигнал сверхвысокого разрешения) оценивает оптический поток низкого разрешения , повышает его дискретизацию до высокого разрешения и деформирует предыдущий выходной кадр, используя этот оптический поток высокого разрешения.
  • STTN [36] (пространственно-временная трансформаторная сеть) оценивает оптический поток с помощью U-образной сети на основе Unet и компенсирует движение методом трилинейной интерполяции
  • SOF-VSR [37] (оптический поток сверхвысокого разрешения для сверхвысокого разрешения видео) вычисляет оптический поток высокого разрешения в грубо-тонком режиме. Затем оптический поток низкого разрешения оценивается с помощью преобразования пространства в глубину. Окончательный результат сверхвысокого разрешения получается из выровненных кадров низкого разрешения
  • TecoGAN [38] (временно когерентный GAN ) состоит из генератора и дискриминатора . Генератор оценивает LR оптический поток между последовательными кадрами и из этого приблизительного HR оптического потока выдает выходной кадр. Дискриминатор оценивает качество генератора
  • TOFlow [39] (целеориентированный поток) представляет собой комбинацию оптической сети потока и сети реконструкции. Оценочный оптический поток подходит для определенной задачи, например, для видео сверхвысокого разрешения
  • MMCNN [40] (сверточная нейронная сеть с несколькими запоминающими устройствами) выравнивает кадры с целевым кадром, а затем генерирует окончательный HR-результат с помощью модулей извлечения признаков, слияния деталей и реконструкции признаков.
  • RBPN [41] ( сеть рекуррентной обратной проекции). Вход каждого рекуррентного проекционного модуля содержит признаки из предыдущего кадра, признаки из последовательности кадров и оптический поток между соседними кадрами.
  • MEMC-Net [42] (сеть оценки движения и компенсации движения) использует как сеть оценки движения, так и сеть оценки ядра для адаптивного деформирования кадров.
  • RTVSR [43] (видео сверхвысокого разрешения в реальном времени) выравнивает кадры с оценочным сверточным ядром
  • MultiBoot VSR [44] (многоэтапный метод многоэтапной загрузки) выравнивает кадры, а затем выполняет двухэтапную SR-реконструкцию для улучшения качества
  • BasicVSR [45] выравнивает кадры с оптическим потоком, а затем объединяет их характеристики в рекуррентной двунаправленной схеме.
  • IconVSR [45] — это усовершенствованная версия BasicVSR с рекуррентной схемой связанного распространения.
  • UVSR [46] (развернутая сеть для видео сверхвысокого разрешения) адаптировала развернутые алгоритмы оптимизации для решения проблемы VSR

Выровнено деформируемой сверткой

Другой способ выровнять соседние кадры с целевым — деформируемая свертка. В то время как обычная свертка имеет фиксированное ядро, деформируемая свертка на первом шаге оценивает сдвиги для ядра, а затем выполняет свертку. Примеры таких методов:

  • EDVR [47] (улучшенное деформируемое восстановление видео) можно разделить на два основных модуля: модуль пирамиды, каскадирования и деформации (PCD) для выравнивания и модуль временно-пространственного внимания (TSA) для слияния.
  • DNLN [48] (деформируемая нелокальная сеть) имеет модуль выравнивания, основанный на деформируемой свертке с модулем иерархического слияния признаков (HFFB) для лучшего качества) и модуль нелокального внимания
  • TDAN [49] (Временно деформируемая сеть выравнивания) состоит из модуля выравнивания и модуля реконструкции. Выравнивание выполняется деформируемой сверткой на основе извлечения признаков и выравнивания
  • Многоступенчатая сеть слияния признаков [50] для сверхвысокого разрешения видео использует многомасштабную расширенную деформируемую свертку для выравнивания кадров и ветвь модулятивного слияния признаков для интеграции выровненных кадров.

Выровнено по гомографии

Некоторые методы выравнивают кадры путем вычисленной гомографии между кадрами.

  • TGA [51] (Temporal Group Attention ) делит входные кадры на N групп в зависимости от разницы во времени и извлекает информацию из каждой группы независимо. Модуль быстрого пространственного выравнивания на основе гомографии используется для выравнивания кадров

Пространственно невыровненный

Методы без выравнивания не выполняют выравнивание на первом этапе, а просто обрабатывают входные кадры.

  • VSRResNet [52] как и GAN состоит из генератора и дискриминатора . Генератор повышает дискретизацию входных кадров, извлекает признаки и объединяет их. Дискриминатор оценивает качество результирующих кадров высокого разрешения
  • FFCVSR [53] (кадровое и контекстно-функциональное видео сверхвысокого разрешения) берет невыровненные кадры с низким разрешением и выводит предыдущие кадры с высоким разрешением для одновременного восстановления высокочастотных деталей и поддержания временной согласованности.
  • MRMNet [54] (сеть смешанных разрешений) состоит из трех модулей: узкого места, обмена и остатка. Узлы узкого места извлекают признаки, имеющие то же разрешение, что и входные кадры. Модуль обмена обменивается признаками между соседними кадрами и увеличивает карты признаков. Остаточный модуль извлекает признаки после обмена
  • STMN [55] (пространственно-временная сеть сопоставления) использует дискретное вейвлет-преобразование для слияния временных признаков. Нелокальный блок сопоставления объединяет суперразрешение и шумоподавление . На последнем этапе SR-результат получается на глобальном вейвлет-домене
  • MuCAN [56] (сеть агрегации множественного соответствия ) использует стратегию временного множественного соответствия для объединения временных характеристик и кросс-масштабного нелокального соответствия для извлечения самоподобий в кадрах.

3D-свертки

В то время как 2D- свертки работают в пространственной области, 3D -свертки используют как пространственную, так и временную информацию. Они выполняют компенсацию движения и поддерживают временную согласованность

  • DUF [57] (динамические фильтры повышения частоты дискретизации) используют деформируемую 3D- свертку для компенсации движения . Модель оценивает ядра для определенных входных кадров
  • FSTRN [58] (Быстрая пространственно-временная остаточная сеть) включает в себя несколько модулей: сеть извлечения неглубоких признаков видео LR (LFENet), модуль слияния признаков LR и повышения дискретизации (LSRNet) и два остаточных модуля: пространственно-временной и глобальный.
  • 3DSRnet [59] (3D-сеть сверхвысокого разрешения) использует 3D- свертки для извлечения пространственно-временной информации. Модель также имеет специальный подход для кадров, где обнаруживается смена сцены
  • MP3D [60] (многомасштабная пирамидальная 3D сверточная сеть ) использует 3D свертку для одновременного извлечения пространственных и временных характеристик, которые затем проходят через модуль реконструкции с 3D субпиксельной сверткой для повышения частоты дискретизации.
  • DMBN [61] (динамическая многоветвевая сеть) имеет три ветви для использования информации из нескольких разрешений. Наконец, информация из ветвей динамически сливается

Рекуррентные нейронные сети

Рекуррентные сверточные нейронные сети обеспечивают сверхвысокое разрешение видео путем хранения временных зависимостей.

  • STCN [62] (пространственно-временная сверточная сеть) извлекает признаки в пространственном модуле, пропускает их через рекуррентный временной модуль и модуль окончательной реконструкции. Временная согласованность поддерживается механизмом долговременной краткосрочной памяти (LSTM)
  • BRCN [63] (двунаправленная рекуррентная сверточная сеть) имеет две подсети: с прямым слиянием и обратным слиянием . Результатом сети является композиция выходных данных двух ветвей
  • RISTN [64] ( остаточная инвертируемая пространственно-временная сеть) состоит из пространственного, временного и реконструкционного модуля. Пространственный модуль состоит из остаточных инвертируемых блоков (RIB), которые эффективно извлекают пространственные признаки. Выходные данные пространственного модуля обрабатываются временным модулем, который извлекает пространственно-временную информацию, а затем объединяет важные признаки. Окончательный результат вычисляется в реконструкционном модуле с помощью операции деконволюции
  • RRCN [65] (остаточная рекуррентная сверточная сеть) — это двунаправленная рекуррентная сеть, которая вычисляет остаточное изображение. Затем окончательный результат получается путем добавления бикубически передискретизированного входного кадра
  • RRN [66] (рекуррентная остаточная сеть) использует рекуррентную последовательность остаточных блоков для извлечения пространственной и временной информации.
  • BTRPN [67] (двунаправленная временно-рекуррентная сеть распространения) использует двунаправленную рекуррентную схему. Конечный результат, объединенный из двух ветвей с механизмом внимания канала
  • RLSP [68] (рекуррентное распространение скрытого состояния) полностью сверточная сетевая ячейка с высокоэффективным распространением временной информации через скрытое состояние
  • RSDN [69] (рекуррентная сеть структуры и деталей) делит входной кадр на компоненты структуры и деталей и обрабатывает их в двух параллельных потоках

Видео

Нелокальные методы извлекают как пространственную, так и временную информацию. Основная идея заключается в использовании всех возможных позиций в качестве взвешенной суммы. Эта стратегия может быть более эффективной, чем локальные подходы (нелокальный метод прогрессивного слияния ), извлекают пространственно-временные признаки с помощью нелокальных остаточных блоков, а затем объединяют их с помощью остаточного блока прогрессивного слияния (PFRB). Результатом этих блоков является остаточное изображение. Окончательный результат получается путем добавления бикубически повышенного входного кадра

  • NLVSR [70] (новая сеть видео сверхвысокого разрешения) выравнивает кадры с целевым с помощью временно-пространственной нелокальной операции. Для интеграции информации из выровненных кадров используется механизм, основанный на внимании
  • MSHPFNL [71] также включает в себя многомасштабную структуру и гибридные свертки для извлечения широкополосных зависимостей. Чтобы избежать некоторых артефактов, таких как мерцание или фантомное изображение , они используют генеративное состязательное обучение

Метрики

Вверху: исходная последовательность. Внизу: визуализация PSNR (пиковое отношение сигнал/шум) выходных данных метода VSR.

Обычный способ оценки производительности алгоритмов сверхвысокого разрешения видео — использование нескольких показателей:

В настоящее время не так много объективных метрик для проверки способности метода видео сверхвысокого разрешения восстанавливать реальные детали. В настоящее время ведутся исследования в этой области.

Другой способ оценки производительности алгоритма сверхвысокого разрешения видео — организация субъективной оценки . Людям предлагается сравнить соответствующие кадры, а итоговый средний балл мнения (MOS) рассчитывается как среднее арифметическое общих оценок.

Наборы данных

Хотя подходы глубокого обучения видео сверхвысокого разрешения превосходят традиционные, крайне важно сформировать высококачественный набор данных для оценки. Важно проверить способность моделей восстанавливать мелкие детали, текст и объекты со сложной структурой, справляться с большим движением и шумом.

Сравнение наборов данных
Набор данныхВидеоСредняя продолжительность видеоРазрешение наземных данныхДвижение в кадрахМелкие детали
Вид4443 кадра720×480Без быстрого движенияНекоторые мелкие детали, без текста
СПМКС3031 кадр960×540Замедленная съемкаМножество мелких деталей
Vimeo-90K (тестовый набор SR)78247 кадров448×256Много быстрых, сложных, разнообразных движенийНемного подробностей, текст в нескольких последовательностях
Xiph HD (полные комплекты)702 секундыот 640×360
до 4096×2160
Много быстрых, сложных, разнообразных движенийНемного подробностей, текст в нескольких последовательностях
Ультра видео набор данных 4K1610 секунд4096×2160Разнообразное движениеНемного подробностей, без текста
REDS (тест SR)30100 кадров1280×720Много быстрых, сложных, разнообразных движенийНемного подробностей, без текста
Пространство-Время SR5100 кадров1280×720Разнообразное движениеБез мелких деталей и текста
Гармонический4096×2160
CDVL1920×1080

Показатели

Несколько бенчмарков в области видео сверхвысокого разрешения были организованы компаниями и конференциями. Цель таких испытаний — сравнить различные алгоритмы и найти самые современные для решения задачи.

Сравнение показателей
БенчмаркОрганизаторНабор данныхФактор шкалыМетрики
Вызов NTIRE 2019CVPR (компьютерное зрение и распознавание образов)КРАСНЫЕ4PSNR , SSIM
Вызов Youku-VESR 2019ЮкуYouku-VESR4ПСНР , ВМАФ
Вызов AIM 2019ECCV (Европейская конференция по компьютерному зрению)Vid3oC16PSNR , SSIM , MOS
Вызов AIM 2020ECCV (Европейская конференция по компьютерному зрению)Vid3oC16PSNR , SSIM , LPIPS
Задача по восстановлению мобильного видеоICIP (Международная конференция по обработке изображений), КвайPSNR , SSIM , MOS
Тест MSU Video Super-Resolution Benchmark 2021МГУ (Московский государственный университет)4ERQAv1.0, PSNR и SSIM с компенсацией сдвига, QRCRv1.0, CRRMv1.0
MSU Super-Resolution для теста сжатия видео 2022МГУ (Московский государственный университет)4ERQAv2.0, PSNR , MS-SSIM , VMAF , LPIPS

Вызов NTIRE 2019

Конкурс NTIRE 2019 был организован CVPR и предложил два трека для Video Super-Resolution: чистый (только бикубическая деградация) и размытие (размытие добавлено в первую очередь). В каждом треке участвовало более 100 человек, и было представлено 14 окончательных результатов.
Для этого конкурса был собран набор данных REDS. Он состоит из 30 видео по 100 кадров в каждом. Разрешение кадров Ground-truth составляет 1280×720. Тестируемый масштабный коэффициент равен 4. Для оценки производительности моделей использовались PSNR и SSIM. Лучшие результаты участников представлены в таблице:

Лучшие команды
КомандаНазвание моделиPSNR
(чистый путь)
SSIM
(чистый путь)
PSNR
(размытие дорожки)
SSIM
(размытие дорожки)
Время выполнения на изображение в сек
(чистая дорожка)
Время выполнения на изображение в сек.
(размытие дорожки)
ПлатформаГПУС открытым исходным кодом
Привет, VSRЭДВР31.790,896230.170,86472.7883.562PyTorchТИТАН ХрДА
UIUC-IFPWDVR30.810,874829.460,84300.9800.980PyTorchТесла V100ДА
СуперРиорансамбль RDN,
RCAN, DUF
31.130,8811120.000PyTorchТесла V100НЕТ
CyberverseСан-ДиегоРекНет31.000,882227.710,80673.0003.000TensorFlowRTX 2080 TiДА
ТТИРБПН30.970,880428.920,83331.3901.390PyTorchТИТАН XДА
NERCMSНФНЛ30.910,878228.980,83076.0206.020PyTorchGTX 1080 TiДА
XJTU-IAIRFSTDN28.860,830113.000PyTorchGTX 1080 TiНЕТ

Вызов Youku-VESR 2019

Youku-VESR Challenge был организован для проверки способности моделей справляться с деградацией и шумом, которые реальны для приложения для просмотра видео Youku в режиме онлайн. Предлагаемый набор данных состоит из 1000 видеороликов, длительность каждого из которых составляет 4–6 секунд. Разрешение кадров Ground-Truth составляет 1920×1080. Тестируемый масштабный коэффициент равен 4. Для оценки производительности использовались метрики PSNR и VMAF. Лучшие методы представлены в таблице:

Лучшие команды
КомандаПСНРВМАФ
Мстители в сборе37.85141.617
НЮ_Л137.68141.227
ALONG_NTES37.63240.405

Вызов AIM 2019

Испытание проводилось ECCV и включало два трека на видео экстремального сверхвысокого разрешения: первый трек проверяет точность с опорным кадром (измеренную PSNR и SSIM ). Второй трек проверяет качество восприятия видео ( MOS ). Набор данных состоит из 328 видеопоследовательностей по 120 кадров в каждой. Разрешение кадров наземной истины составляет 1920×1080. Тестируемый масштабный коэффициент равен 16. Лучшие методы представлены в таблице:

Лучшие команды
КомандаНазвание моделиПСНРССИММОСВремя выполнения на изображение в сек.ПлатформаГрафический процессор/процессорС открытым исходным кодом
fenglinglwbна основе EDVR22.530,64первый результат0,35PyTorch4× Титан XНЕТ
NERCMSНФНЛ22.350,630,51PyTorch2×1080TiНЕТ
базовый уровеньРЛСП21.750,600,09TensorFlowТитан ХрНЕТ
HIT-XLabна основе ЭДСР21.450,60второй результат60.00PyTorchВ100НЕТ

Вызов AIM 2020

Условия испытания такие же, как и в испытании AIM 2019. Топовые методы представлены в таблице:

Лучшие команды
КомандаНазвание моделиЧисло параметровПСНРССИМВремя выполнения на изображение в сек.Графический процессор/процессорС открытым исходным кодом
KirinUKEVESRNet45.29M22.830,64506.1 с1 × 2080 Ti 6НЕТ
Команда-WVU29.51M22.480,63784,9 с1 × Опыт ТитанаНЕТ
BOE-IOT-AIBD3D-МГБП53М22.480,63044,83 с1 × 1080НЕТ
ср хххна основе EDVR22.430,63534 с1 × V100НЕТ
ЗЗХМАХА31.14M22.280,63214 с1 × 1080 ТиНЕТ
лилFineNet22.080,625613 сек.НЕТ
ТТИна основе STARnet21.910,61650,249 сНЕТ
CET CVLab21.770,61120,04 с1 × P100НЕТ

Тест сверхвысокого разрешения видео MSU

MSU Video Super-Resolution Benchmark был организован MSU и предложил три типа движения, два способа снижения разрешения и восемь типов контента в наборе данных. Разрешение кадров Ground-Truth составляет 1920×1280. Тестируемый масштабный коэффициент равен 4. Было протестировано 14 моделей. Для оценки производительности моделей использовались PSNR и SSIM с компенсацией сдвига. Также было предложено несколько новых метрик: ERQAv1.0, QRCRv1.0 и CRRMv1.0. [72] Лучшие методы представлены в таблице:

Лучшие методы
Название моделиМногокадровыйСубъективныйERQAv1.0ПСНРССИМQRCRv1.0CRRMv1.0Время выполнения на изображение в сек.С открытым исходным кодом
ДБВСРДА5.5610,73731.0710,8940,6290,992ДА
ЛГФНДА5.0400,74031.2910,8980,6290,9961.499ДА
DynaVSR-RДА4.7510,70928.3770,8650,5570,9975.664ДА
ТДАНДА4.0360,70630.2440,8830,5570,994ДА
ДУФ-28ЛДА3.9100,64525.8520,8300,5490,9932.392ДА
РРН-10ЛДА3.8870,62724.2520.7900,5570,9890.390ДА
RealSRНЕТ3.7490.69025.9890,7670.0000,886ДА

MSU Super-Resolution для теста сжатия видео

MSU Super-Resolution for Video Compression Benchmark был организован MSU. Этот бенчмарк проверяет способность моделей работать со сжатыми видео. Набор данных состоит из 9 видео, сжатых с использованием различных стандартов видеокодеков и различных битрейтов . Модели ранжируются по BSQ-скорости [73] по субъективной оценке. Разрешение кадров Ground-truth составляет 1920×1080. Тестируемый масштабный коэффициент равен 4. Было протестировано 17 моделей. Для сжатия видео Ground-truth использовалось 5 видеокодеков. Лучшие комбинации методов Super-Resolution и видеокодеков представлены в таблице:

Лучшие методы
Название моделиBSQ-ставка (субъективная оценка)BSQ-ставка (ERQAv2.0)BSQ-ставка (VMAF)BSQ-ставка (PSNR)BSQ-ставка (MS-SSIM)BSQ-ставка (LPIPS)С открытым исходным кодом
RealSR + x2640,1960,7700,7750,6750,4870,591ДА
ahq-11 + x2640,2710,8830,7530,8730,7190,656НЕТ
SwinIR + x2640,3040,7600,6426.2680,7360,559ДА
Реальный-ESRGAN + x2640,3355.5800,6987.8740,8810,733ДА
SwinIR + x2650,3461.5751.3048.1304.6411.474ДА
КОМИСР + x2640,3670,9691.3026.0810,6721.118ДА
RealSR + x2650,5021.6221.6171.0641.0331.206ДА

Приложение

Во многих областях, работая с видео, мы сталкиваемся с различными типами ухудшения качества видео, включая уменьшение масштаба. Разрешение видео может ухудшаться из-за несовершенства измерительных приборов, таких как оптическая деградация и ограниченный размер сенсоров камеры . Плохое освещение и погодные условия добавляют шум к видео. Движение объектов и камеры также снижает качество видео. Методы сверхвысокого разрешения помогают восстановить исходное видео. Это полезно в широком спектре приложений, таких как

Также помогает решать задачи обнаружения объектов , распознавания лиц и символов (как этап предварительной обработки). Интерес к сверхвысокому разрешению растет с развитием компьютерных дисплеев высокой четкости и телевизоров.

Имитация естественных движений рук путем «покачивания» камеры

Видео сверхвысокого разрешения находит практическое применение в некоторых современных смартфонах и камерах, где оно используется для реконструкции цифровых фотографий.

Восстановление деталей на цифровых фотографиях — сложная задача, поскольку эти фотографии уже неполны: элементы сенсора камеры измеряют только интенсивность света, а не напрямую его цвет. Процесс, называемый демозаикингом, используется для восстановления фотографий из частичной цветовой информации. Один кадр не дает нам достаточно данных для заполнения недостающих цветов, однако мы можем получить часть недостающей информации из нескольких изображений, снятых одно за другим. Этот процесс известен как серийная фотография и может использоваться для восстановления одного изображения хорошего качества из нескольких последовательных кадров.

Когда мы делаем много последовательных фотографий с помощью смартфона или ручной камеры, между кадрами всегда присутствует некоторое движение из-за движения руки. Мы можем воспользоваться этим дрожанием руки, объединив информацию на этих изображениях. Мы выбираем одно изображение в качестве «базы» или опорного кадра и выравниваем каждый другой кадр относительно него.

Бывают ситуации, когда движение руки просто отсутствует, поскольку устройство стабилизировано (например, установлено на штативе). Существует способ имитировать естественное движение руки, намеренно слегка перемещая камеру. Движения чрезвычайно малы, поэтому они не мешают обычным фотографиям. Вы можете наблюдать эти движения на телефоне Google Pixel 3 [74] , удерживая его совершенно неподвижно (например, прижимая к окну) и максимально увеличивая видоискатель с помощью щипка.

Смотрите также

Ссылки

  1. ^ Чан, Кельвин К.К. и др. «BasicVSR: Поиск основных компонентов в видео сверхвысокого разрешения и выше». Труды конференции IEEE/CVF по компьютерному зрению и распознаванию образов . 2021.
  2. ^ Ким, СП; Бозе, НК; Валенсуэла, ХМ (1989). «Реконструкция изображения с высоким разрешением из кадров с недостаточной выборкой шума». Lecture Notes in Control and Information Sciences . Vol. 129. Berlin/Heidelberg: Springer-Verlag. pp.  315–326 . doi :10.1007/bfb0042742. ISBN 3-540-51424-4.
  3. ^ Бозе, НК; Ким, ХК; Чжоу, Б. (1994). "Анализ производительности алгоритма TLS для восстановления изображения из последовательности недостаточно дискретизированных зашумленных и размытых кадров". Труды 1-й Международной конференции по обработке изображений . Том 3. IEEE Comput. Soc. Press. С.  571– 574. doi :10.1109/icip.1994.413741. ISBN 0-8186-6952-7.
  4. ^ Tekalp, AM; Ozkan, MK; Sezan, MI (1992). "Реконструкция изображений с высоким разрешением из последовательностей изображений с низким разрешением и восстановление изображений с переменным пространством". [Труды] ICASSP-92: 1992 IEEE Международная конференция по акустике, речи и обработке сигналов . IEEE. стр. 169–172 т.3. doi :10.1109/icassp.1992.226249. ISBN 0-7803-0532-9.
  5. ^ Голдберг, Н.; Фейер, А.; Гудвин, Г. К. (2003). «Реконструкция со сверхвысоким разрешением с использованием пространственно-временной фильтрации». Журнал визуальной коммуникации и представления изображений . 14 (4). Elsevier BV: 508– 525. doi :10.1016/s1047-3203(03)00042-7. ISSN  1047-3203.
  6. ^ Маллат, С. (2010). «Суперразрешение с разреженными оценщиками смешивания». Труды IEEE по обработке изображений . 19 (11). Институт инженеров по электротехнике и электронике (IEEE): 2889– 2900. Bibcode : 2010ITIP...19.2889M. doi : 10.1109/tip.2010.2049927. ISSN  1057-7149. PMID  20457549. S2CID  856101.
  7. ^ Бозе, НК; Лертраттанапанич, С.; Чаппалли, МБ (2004). «Сверхразрешение с вейвлетами второго поколения». Обработка сигналов: передача изображений . 19 (5). Elsevier BV: 387– 391. doi :10.1016/j.image.2004.02.001. ISSN  0923-5965.
  8. ^ Коэн, Б.; Аврин, В.; Динштейн, И. (2000). «Многофазная обратная проекционная фильтрация для повышения разрешения последовательностей изображений». 2000 IEEE Международная конференция по акустике, речи и обработке сигналов. Труды (Кат. № 00CH37100) . Том 4. IEEE. С.  2171– 2174. doi :10.1109/icassp.2000.859267. ISBN 0-7803-6293-4.
  9. ^ Katsaggelos, AK (1997). "Итеративный взвешенный регуляризованный алгоритм для улучшения разрешения видеопоследовательностей". Труды Международной конференции по обработке изображений . IEEE Comput. Soc. стр.  474– 477. doi :10.1109/icip.1997.638811. ISBN 0-8186-8183-7.
  10. ^ Фарсиу, Сина; Элад, Майкл; Миланфар, Пейман (15.01.2006). «Практический подход к сверхразрешению». В Апостолопулос, Джон Г.; Саид, Амир (ред.). Визуальные коммуникации и обработка изображений 2006. Том 6077. SPIE. стр. 607703. doi :10.1117/12.644391.
  11. ^ Jing Tian; Kai-Kuang Ma (2005). "Новый подход к пространству состояний для реконструкции последовательности изображений с высоким разрешением". Международная конференция IEEE по обработке изображений 2005 г. IEEE. стр. I-881. doi :10.1109/icip.2005.1529892. ISBN 0-7803-9134-9.
  12. ^ Коста, Гильерме Хольсбах; ​​Бермудес, Хос Карлос Морейра (2007). «Статистический анализ алгоритма LMS, применяемого для реконструкции изображений сверхвысокого разрешения». Труды IEEE по обработке сигналов . 55 (5). Институт инженеров по электротехнике и электронике (IEEE): 2084– 2095. Bibcode : 2007ITSP...55.2084C. doi : 10.1109/tsp.2007.892704. ISSN  1053-587X. S2CID  52857681.
  13. ^ Элад, М.; Фейер, А. (1999). "Реконструкция непрерывных последовательностей изображений со сверхвысоким разрешением". Труды Международной конференции по обработке изображений 1999 г. (кат. 99CH36348) . Том 3. IEEE. стр.  459–463 . doi :10.1109/icip.1999.817156. ISBN 0-7803-5467-2.
  14. ^ ab Elad, M.; Feuer, A. (1999). "Восстановление последовательности изображений со сверхвысоким разрешением: подход с адаптивной фильтрацией". IEEE Transactions on Image Processing . 8 (3). Институт инженеров по электротехнике и электронике (IEEE): 387– 395. Bibcode : 1999ITIP....8..387E. doi : 10.1109/83.748893. ISSN  1057-7149. PMID  18262881.
  15. ^ Pickering, M.; Frater, M.; Arnold, J. (2005). "Arobust approach to super-resolution sprite generation". Международная конференция IEEE по обработке изображений 2005 г. IEEE. стр. I-897. doi :10.1109/icip.2005.1529896. ISBN 0-7803-9134-9.
  16. ^ Насонов, Андрей В.; Крылов, Андрей С. (2010). "Быстрое сверхразрешение с использованием взвешенной медианной фильтрации". 2010 20-я Международная конференция по распознаванию образов . IEEE. стр.  2230– 2233. doi :10.1109/icpr.2010.546. ISBN 978-1-4244-7542-1.
  17. ^ Симонян, К.; Гришин, С.; Ватолин, Д.; Попов, Д. (2008). "Быстрое видеосверхразрешение с помощью классификации". 2008 15-я Международная конференция IEEE по обработке изображений . IEEE. стр.  349–352 . doi :10.1109/icip.2008.4711763. ISBN 978-1-4244-1765-0.
  18. ^ Насир, Хайдавати; Станкович, Владимир; Маршалл, Стивен (2011). «Слияние на основе сингулярного разложения для реконструкции изображений с высоким разрешением». Международная конференция IEEE по приложениям обработки сигналов и изображений (ICSIPA) 2011 г. IEEE. стр.  393–398 . doi :10.1109/icsipa.2011.6144138. ISBN 978-1-4577-0242-6.
  19. ^ Protter, M.; Elad, M.; Takeda, H.; Milanfar, P. (2009). «Обобщение нелокальных средних для реконструкции со сверхвысоким разрешением». Труды IEEE по обработке изображений . 18 (1). Институт инженеров по электротехнике и электронике (IEEE): 36– 51. Bibcode : 2009ITIP...18...36P. doi : 10.1109/tip.2008.2008067. ISSN  1057-7149. PMID  19095517. S2CID  2142115.
  20. ^ Чжо, Юэ; Лю, Цзяин ; Жэнь, Цзе; Го, Цзунмин (2012). «Нелокальное сверхразрешение с инвариантностью вращения и перемещением окна поиска». Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) 2012 г. IEEE. стр.  853– 856. doi :10.1109/icassp.2012.6288018. ISBN 978-1-4673-0046-9.
  21. ^ Чэн, Мин-Хуэй; Чэнь, Сюань-Ин; Леу, Цзинь-Джан (2011). «Реконструкция видео сверхвысокого разрешения с использованием стратегии мобильного поиска и адаптивного размера патча». Обработка сигналов . 91 (5). Elsevier BV: 1284– 1297. Bibcode : 2011SigPr..91.1284C. doi : 10.1016/j.sigpro.2010.12.016. ISSN  0165-1684. S2CID  17920263.
  22. ^ Huhle, Benjamin; Schairer, Timo; Jenke, Philipp; Straßer, Wolfgang (2010). «Объединение диапазонных и цветных изображений для шумоподавления и повышения разрешения с помощью нелокального фильтра». Computer Vision and Image Understanding . 114 (12). Elsevier BV: 1336– 1345. doi :10.1016/j.cviu.2009.11.004. ISSN  1077-3142.
  23. ^ Такеда, Хироюки; Фарсиу, Сина; Миланфар, Пейман (2007). «Ядерная регрессия для обработки и реконструкции изображений». Труды IEEE по обработке изображений . 16 (2). Институт инженеров по электротехнике и электронике (IEEE): 349– 366. Bibcode : 2007ITIP...16..349T. doi : 10.1109/tip.2006.888330. ISSN  1057-7149. PMID  17269630. S2CID  12116009.
  24. ^ Элад, М.; Фойер, А. (1997). «Восстановление одного изображения сверхвысокого разрешения из нескольких размытых, шумных и недостаточно дискретизированных измеренных изображений». Труды IEEE по обработке изображений . 6 (12). Институт инженеров по электротехнике и электронике (IEEE): 1646– 1658. Bibcode : 1997ITIP....6.1646E. doi : 10.1109/83.650118. ISSN  1057-7149. PMID  18285235.
  25. ^ Фарсиу, Сина; Робинсон, Дирк; Элад, Майкл; Миланфар, Пейман (2003-11-20). "Надежный подход к сверхразрешению с помощью сдвига и добавления". В Tescher, Andrew G. (ред.). Applications of Digital Image Processing XXVI . Vol. 5203. SPIE. p. 121. doi :10.1117/12.507194.
  26. ^ Chantas, GK; Galatsanos, NP; Woods, NA (2007). «Сверхразрешение на основе быстрой регистрации и максимальной апостериорной реконструкции». Труды IEEE по обработке изображений . 16 (7). Институт инженеров по электротехнике и электронике (IEEE): 1821– 1830. Bibcode : 2007ITIP...16.1821C. doi : 10.1109/tip.2007.896664. ISSN  1057-7149. PMID  17605380. S2CID  1811280.
  27. ^ Раджан, Д.; Чаудхури, С. (2001). «Генерация изображений сверхвысокого разрешения из размытых наблюдений с использованием марковских случайных полей». 2001 IEEE Международная конференция по акустике, речи и обработке сигналов. Труды (Кат. № 01CH37221) . Том 3. IEEE. С.  1837– 1840. doi :10.1109/icassp.2001.941300. ISBN 0-7803-7041-4.
  28. ^ Zibetti, Marcelo Victor Wust; Mayer, Joceli (2006). "Outlier Robust and Edge-Preserving Simultaneous Super-Resolution". Международная конференция по обработке изображений 2006 г. IEEE. стр.  1741– 1744. doi :10.1109/icip.2006.312718. ISBN 1-4244-0480-0.
  29. ^ Джоши, М. В.; Чаудхури, С.; Пануганти, Р. (2005). «Метод на основе обучения для сверхвысокого разрешения изображения из увеличенных наблюдений». Труды IEEE по системам, человеку и кибернетике — Часть B: Кибернетика . 35 (3). Институт инженеров по электротехнике и электронике (IEEE): 527– 537. doi : 10.1109/tsmcb.2005.846647. ISSN  1083-4419. PMID  15971920. S2CID  3162908.
  30. ^ Ляо, Жэньцзе; Тао, Синь; Ли, Руйюй; Ма, Цзыян; Цзя, Цзяя (2015). «Суперразрешение видео с помощью глубокого обучения ансамблем черновиков». Международная конференция IEEE по компьютерному зрению (ICCV) 2015 г. IEEE. стр.  531– 539. doi :10.1109/iccv.2015.68. ISBN 978-1-4673-8391-2.
  31. ^ Каппелер, Армин; Ю, Сынхван; Дай, Цицинь; Катсаггелос, Аггелос К. (2016). «Сверхразрешение видео с использованием сверточных нейронных сетей». Труды IEEE по вычислительной визуализации . 2 (2). Институт инженеров по электротехнике и электронике (IEEE): 109– 122. doi :10.1109/tci.2016.2532323. ISSN  2333-9403. S2CID  9356783.
  32. ^ Кабальеро, Хосе; Ледиг, Кристиан; Эйткен, Эндрю; Акоста, Алехандро; Тотц, Йоханнес; Ван, Зехан; Ши, Вэньчжэ (16.11.2016). «Сверхвысокое разрешение видео в реальном времени с пространственно-временными сетями и компенсацией движения». arXiv : 1611.05250v2 [cs.CV].
  33. ^ Тао, Синь; Гао, Хунъюнь; Ляо, Ренджи; Ван, Цзюэ; Цзя, Джиая (2017). «Суперразрешение глубокого видео, раскрывающее детали». Международная конференция IEEE по компьютерному зрению (ICCV) , 2017 г. IEEE. стр.  4482–4490 . arXiv : 1704.02738 . дои : 10.1109/iccv.2017.479. ISBN 978-1-5386-1032-9.
  34. ^ Лю, Дин; Ван, Чжаовэнь; Фань, Юйчэнь; Лю, Сяньмин; Ван, Чжанян; Чан, Шиюй; Хуан, Томас (2017). «Надежное сверхвысокое разрешение видео с изученной временной динамикой». Международная конференция IEEE по компьютерному зрению (ICCV) 2017 г. IEEE. стр.  2526– 2534. doi :10.1109/iccv.2017.274. ISBN 978-1-5386-1032-9.
  35. ^ Саджади, Мехди SM; Вемулапалли, Равитеджа; Браун, Мэтью (2018). «Frame-Recurrent Video Super-Resolution». Конференция IEEE/CVF 2018 года по компьютерному зрению и распознаванию образов . IEEE. стр.  6626–6634 . arXiv : 1801.04590 . doi : 10.1109/cvpr.2018.00693. ISBN 978-1-5386-6420-9.
  36. ^ Ким, Тэ Хён; Саджади, Мехди SM; Хирш, Михаэль; Шёлькопф, Бернхард (2018). «Пространственно-временная трансформаторная сеть для восстановления видео». Computer Vision – ECCV 2018. Lecture Notes in Computer Science. Vol. 11207. Cham: Springer International Publishing. pp.  111– 127. doi :10.1007/978-3-030-01219-9_7. ISBN 978-3-030-01218-2. ISSN  0302-9743.
  37. ^ Ван, Лунгуан; Го, Юйлань; Лю, Ли; Линь, Зайпин; Дэн, Синьпу; Ань, Вэй (2020). «Глубокое сверхвысокое разрешение видео с использованием оценки оптического потока высокого разрешения». Труды IEEE по обработке изображений . 29. Институт инженеров по электротехнике и электронике (IEEE): 4323– 4336. arXiv : 2001.02129 . Bibcode : 2020ITIP...29.4323W. doi : 10.1109/tip.2020.2967596. ISSN  1057-7149. PMID  31995491. S2CID  210023539.
  38. ^ Чу, Мэнъюй; Сье, Ю; Майер, Йонас; Леал-Тайше, Лора; Туэри, Нильс (2020-07-08). «Изучение временной когерентности с помощью самоконтроля для генерации видео на основе GAN». ACM Transactions on Graphics . 39 (4). Ассоциация вычислительной техники (ACM). arXiv : 1811.09393 . doi : 10.1145/3386569.3392457. ISSN  0730-0301. S2CID  209460786.
  39. ^ Сюэ, Тяньфань; Чэнь, Баян; У, Цзяцзюнь; Вэй, Донглай; Фримен, Уильям Т. (12.02.2019). «Улучшение видео с помощью ориентированного на задачи потока». Международный журнал компьютерного зрения . 127 (8). Springer Science and Business Media LLC: 1106– 1125. arXiv : 1711.09078 . doi : 10.1007/s11263-018-01144-2. ISSN  0920-5691. S2CID  40412298.
  40. ^ Ван, Чжунъюань; И, Пэн; Цзян, Куй; Цзян, Цзюньцзюнь; Хань, Чжэнь; Лу, Тао; Ма, Цзяи (2019). «Мультипамятная сверточная нейронная сеть для сверхвысокого разрешения видео». Труды IEEE по обработке изображений . 28 (5). Институт инженеров по электротехнике и электронике (IEEE): 2530– 2544. Bibcode : 2019ITIP...28.2530W. doi : 10.1109/tip.2018.2887017. ISSN  1057-7149. PMID  30571634. S2CID  58595890.
  41. ^ Харис, Мухаммад; Шахнарович, Грегори; Укита, Норимичи (2019). «Рекуррентная обратная проекционная сеть для сверхвысокого разрешения видео». Конференция IEEE/CVF 2019 года по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр.  3892–3901 . arXiv : 1903.10128 . doi : 10.1109/cvpr.2019.00402. ISBN 978-1-7281-3293-8.
  42. ^ Бао, Вэньбо; Лай, Вэй-Шэн; Чжан, Сяоюнь; Гао, Чжиюн; Ян, Мин-Сюань (01.03.2021). «MEMC-Net: нейронная сеть на основе оценки и компенсации движения для интерполяции и улучшения видео». Труды IEEE по анализу шаблонов и машинному интеллекту . 43 (3). Институт инженеров по электротехнике и электронике (IEEE): 933–948 . arXiv : 1810.08768 . doi : 10.1109/tpami.2019.2941941. ISSN 0162-8828  . PMID  31722471. S2CID  53046739.
  43. ^ Bare, Bahetiyaer; Yan, Bo; Ma, Chenxi; Li, Ke (2019). «Суперразрешение видео в реальном времени с помощью оценки ядра свертки движения». Neurocomputing . 367. Elsevier BV: 236– 245. doi :10.1016/j.neucom.2019.07.089. ISSN  0925-2312. S2CID  201264266.
  44. ^ Kalarot, Ratheesh; Porikli, Fatih (2019). «MultiBoot Vsr: многоэтапная многоэтапная начальная загрузка для сверхвысокого разрешения видео». Конференция IEEE/CVF 2019 года по компьютерному зрению и распознаванию образов (CVPRW) . IEEE. стр.  2060–2069 . doi :10.1109/cvprw.2019.00258. ISBN 978-1-7281-2506-0.
  45. ^ ab Chan, Kelvin CK; Wang, Xintao; Yu, Ke; Dong, Chao; Loy, Chen Change (2020-12-03). «BasicVSR: Поиск основных компонентов в сверхвысоком разрешении видео и за его пределами». arXiv : 2012.02181v1 [cs.CV].
  46. ^ Наото Чиче, Бенджамин; Фронтера-Понс, Джоана; Вуазель, Арно; Старк, Жан-Люк (2020-11-09). «Глубокая развернутая сеть для сверхвысокого разрешения видео». Десятая международная конференция по теории обработки изображений, инструментам и приложениям (IPTA) 2020 г. IEEE. стр.  1– 6. arXiv : 2102.11720 . doi :10.1109/ipta50016.2020.9286636. ISBN 978-1-7281-8750-1.
  47. ^ Ван, Синьтао; Чан, Кельвин CK; Ю, Кэ; Дун, Чао; Лой, Чэнь Чан (2019-05-07). "EDVR: Восстановление видео с помощью усовершенствованных деформируемых сверточных сетей". arXiv : 1905.02716v1 [cs.CV].
  48. ^ Ван, Хуа; Су, Дэвэй; Лю, Чуанчуан; Цзинь, Лунцунь; Сан, Сяньфан; Пэн, Синьи (2019). «Деформируемая нелокальная сеть для сверхвысокого разрешения видео». IEEE Access . 7. Институт инженеров по электротехнике и электронике (IEEE): 177734– 177744. arXiv : 1909.10692 . Bibcode : 2019IEEEA...7q7734W. doi : 10.1109/access.2019.2958030 . ISSN  2169-3536.
  49. ^ Тянь, Япэн; Чжан, Юйлунь; Фу, Юнь; Сюй, Чэньлян (2020). «TDAN: Временно-деформируемая сеть выравнивания для сверхвысокого разрешения видео». Конференция IEEE/CVF 2020 года по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр.  3357–3366 . arXiv : 1812.02898 . doi : 10.1109/cvpr42600.2020.00342. ISBN 978-1-7281-7168-5.
  50. ^ Song, Huihui; Xu, Wenjie; Liu, Dong; Liua, Bo; Liub, Qingshan; Metaxas, Dimitris N. (2021). «Многоступенчатая сеть слияния признаков для сверхвысокого разрешения видео». Труды IEEE по обработке изображений . 30. Институт инженеров по электротехнике и электронике (IEEE): 2923– 2934. Bibcode : 2021ITIP...30.2923S. doi : 10.1109/tip.2021.3056868. ISSN  1057-7149. PMID  33560986. S2CID  231864067.
  51. ^ Исобе, Такаши; Ли, Сунцзян; Цзя, Сюй; Юань, Шаньсинь; Слабо, Грегори; Сюй, Чуньцзин; Ли, Я-Ли; Ван, Шэнджин; Тянь, Ци (2020). «Суперразрешение видео с временным групповым вниманием». Конференция IEEE/CVF 2020 года по компьютерному зрению и распознаванию образов (CVPR) . IEEE. С.  8005–8014 . arXiv : 2007.10595 . doi : 10.1109/cvpr42600.2020.00803. ISBN 978-1-7281-7168-5.
  52. ^ Лукас, Элис; Лопес-Тапия, Сантьяго; Молина, Рафаэль; Катсаггелос, Аггелос К. (2019). «Генеративно-состязательные сети и потери восприятия для сверхвысокого разрешения видео». Труды IEEE по обработке изображений . 28 (7). Институт инженеров по электротехнике и электронике (IEEE): 3312– 3327. arXiv : 1806.05764 . Bibcode : 2019ITIP...28.3312L. doi : 10.1109/tip.2019.2895768. ISSN  1057-7149. PMID  30714918. S2CID  73415655.
  53. ^ Янь, Бо; Линь, Чумин; Тан, Вэйминь (28.09.2019). «Суперразрешение видео в контексте кадра и объекта». arXiv : 1909.13057v1 [cs.CV].
  54. ^ Тянь, Чжицян; Ван, Юдяо; Ду, Шаои; Лань, Сюгуан (10 июля 2020 г.). Ян, Ю (ред.). «Многоуровневая генеративная состязательная сеть для сверхвысокого разрешения видео». PLOS ONE . 15 (7). Публичная научная библиотека (PLoS): e0235352. Bibcode : 2020PLoSO..1535352T. doi : 10.1371/journal.pone.0235352 . ISSN  1932-6203. PMC 7351143. PMID  32649694 . 
  55. ^ Чжу, Сяобинь; Ли, Чжуанцзы; Лу, Чжунган; Шэнь, Цин (2021). «Видео сверхвысокое разрешение на основе пространственно-временной сети сопоставления». Распознавание образов . 110 : 107619. Bibcode : 2021PatRe.11007619Z. doi : 10.1016/j.patcog.2020.107619. ISSN  0031-3203. S2CID  225285804.
  56. ^ Ли, Вэньбо; Тао, Синь; Го, Тайан; Ци, Лу; Лу, Цзянбо; Цзя, Джиая (23 июля 2020 г.). «MuCAN: сеть агрегации мультикорреспонденции для видео сверхвысокого разрешения». arXiv : 2007.11803v1 [cs.CV].
  57. ^ Джо, Ёнхён; О, Сынг Вуг; Кан, Джеён; Ким, Сын Джу (2018). «Сеть сверхвысокого разрешения видео с использованием динамических фильтров повышающей дискретизации без явной компенсации движения». Конференция IEEE/CVF 2018 года по компьютерному зрению и распознаванию образов . IEEE. стр.  3224–3232 . doi :10.1109/cvpr.2018.00340. ISBN 978-1-5386-6420-9.
  58. ^ Ли, Шэн; Он, Фэнсян; Ду, Бо; Чжан, Лефэй; Сюй, Юнхао; Тао, Дачэн (05 апреля 2019 г.). «Быстрая пространственно-временная остаточная сеть для сверхвысокого разрешения видео». arXiv : 1904.02870v1 [cs.CV].
  59. ^ Ким, Су Йе; Лим, Чонён; На, Тэён; Ким, Мунчхурл (2019). «Суперразрешение видео на основе 3D-CNNS с учетом изменения сцены». Международная конференция IEEE по обработке изображений (ICIP) 2019 г. стр.  2831– 2835. doi :10.1109/ICIP.2019.8803297. ISBN 978-1-5386-6249-6. S2CID  202763112.
  60. ^ Ло, Цзяньпин; Хуан, Шаофэй; Юань, Юань (2020). «Видео сверхвысокое разрешение с использованием многомасштабных пирамидальных 3D сверточных сетей». Труды 28-й Международной конференции ACM по мультимедиа . стр.  1882–1890 . doi :10.1145/3394171.3413587. ISBN 9781450379885. S2CID  222278621.
  61. ^ Чжан, Дуньян; Шао, Цзе; Лян, Чжэньвэнь; Лю, Сюэлян; Шэнь, Хэн Тао (2020). «Многоотраслевые сети для сверхвысокого разрешения видео с динамической стратегией реконструкции». Труды IEEE по схемам и системам для видеотехнологий . 31 (10): 3954– 3966. doi : 10.1109/TCSVT.2020.3044451. ISSN  1051-8215. S2CID  235057646.
  62. ^ Аксан, Эмре; Хиллигес, Отмар (18.02.2019). "STCN: Стохастические временные сверточные сети". arXiv : 1902.06568v1 [cs.LG].
  63. ^ Хуан, Янь; Ван, Вэй; Ван, Лян (2018). «Суперразрешение видео с помощью двунаправленных рекуррентных сверточных сетей». Труды IEEE по анализу шаблонов и машинному интеллекту . 40 (4): 1015– 1028. doi :10.1109/TPAMI.2017.2701380. ISSN  0162-8828. PMID  28489532. S2CID  136582.
  64. ^ Чжу, Сяобинь; Ли, Чжуанци; Чжан, Сяо-Ю; Ли, Чаншэн; Лю, Яци; Сюэ, Зию (2019). «Остаточная обратимая пространственно-временная сеть для сверхвысокого разрешения видео». Материалы конференции AAAI по искусственному интеллекту . 33 : 5981–5988 . doi : 10.1609/aaai.v33i01.33015981 . ISSN  2374-3468.
  65. ^ Ли, Диньи; Лю, Юй; Ван, Цзэнфу (2019). «Суперразрешение видео с использованием неодновременной полностью рекуррентной сверточной сети». Труды IEEE по обработке изображений . 28 (3): 1342– 1355. Bibcode : 2019ITIP...28.1342L. doi : 10.1109/TIP.2018.2877334. ISSN  1057-7149. PMID  30346282. S2CID  53044490.
  66. ^ Исобе, Такаши; Чжу, Фан; Цзя, Сюй; Ван, Шэнджин (13 августа 2020 г.). «Возвращаясь к временному моделированию для видео сверхвысокого разрешения». arXiv : 2008.05765v2 [eess.IV].
  67. ^ Хан, Лэй; Фань, Сьен; Ян, Йе; Цзоу, Лянь (2020). «Двунаправленные сети временного рекуррентного распространения для сверхвысокого разрешения видео». Электроника . 9 (12): 2085. doi : 10.3390/electronics9122085 . ISSN  2079-9292.
  68. ^ Фуоли, Дарио; Гу, Шухан; Тимофте, Раду (17.09.2019). «Эффективное сверхразрешение видео с помощью рекуррентного распространения в скрытом пространстве». arXiv : 1909.08080 [eess.IV].
  69. ^ Исобе, Такаши; Цзя, Сюй; Гу, Шухан; Ли, Сунцзян; Ван, Шэнджин; Тянь, Ци (02 августа 2020 г.). «Суперразрешение видео с рекуррентной сетью деталей структуры». arXiv : 2008.00455v1 [cs.CV].
  70. ^ Чжоу, Чао; Чэнь, Кан; Дин, Фэй; Чжан, Дэнъинь (2021). «Видео сверхвысокое разрешение с нелокальной сетью выравнивания». IET Image Processing . 15 (8): 1655–1667 . doi : 10.1049/ipr2.12134 . ISSN  1751-9659.
  71. ^ Yi, Peng; Wang, Zhongyuan; Jiang, Kui; Jiang, Junjun; Lu, Tao; Ma, Jiayi (2020). «Прогрессивная состязательная генеративная сеть Fusion для реалистичного и согласованного видеосверхразрешения». Труды IEEE по анализу шаблонов и машинному интеллекту . PP (5): 2264– 2280. doi : 10.1109/TPAMI.2020.3042298. ISSN  0162-8828. PMID  33270559. S2CID  227282569.
  72. ^ "Методология сравнительного анализа VSR MSU". Обработка видео . 2021-04-26 . Получено 2021-05-12 .
  73. ^ Звездакова, АВ; Куликов, ДЛ; Звездаков, СВ; Ватолин, ДС (2020). «BSQ-rate: новый подход к сравнению производительности видеокодеков и недостатки текущих решений». Программирование и программное обеспечение . 46 (3): 183– 194. doi :10.1134/S0361768820030111. S2CID  219157416.
  74. ^ «Видите лучше и дальше с Super Res Zoom на Pixel 3». Блог Google AI . 2018-10-15.
Взято с "https://en.wikipedia.org/w/index.php?title=Video_super-resolution&oldid=1262945476"