Генерация видеокадров высокого разрешения из заданных кадров низкого разрешения
Видео сверхвысокое разрешение ( VSR ) — это процесс генерации видеокадров высокого разрешения из заданных видеокадров низкого разрешения. В отличие от сверхвысокого разрешения с одним изображением (SISR) , основная цель — не только восстановить больше мелких деталей, сохранив грубые, но и сохранить согласованность движения.
Существует много подходов к решению этой задачи, но проблема по-прежнему остается популярной и сложной.
Математическое объяснение
Большинство исследований рассматривают процесс деградации рам как
где:
— оригинальная последовательность кадров высокого разрешения,
— размытие ядра,
— операция свертки,
— операция по уменьшению масштаба,
— аддитивный шум,
— последовательность кадров низкого разрешения.
Суперразрешение — это обратная операция, поэтому ее задача — оценить последовательность кадров из последовательности кадров так, чтобы она была близка к оригиналу . Ядро размытия , операция уменьшения масштаба и аддитивный шум должны оцениваться для заданного ввода, чтобы достичь лучших результатов.
Подходы к видео-суперразрешению, как правило, имеют больше компонентов, чем аналоги изображений, поскольку им необходимо использовать дополнительное временное измерение. Сложные конструкции не являются редкостью. Некоторые наиболее важные компоненты для VSR управляются четырьмя основными функциями: распространение, выравнивание, агрегация и повышение дискретизации. [1]
Распространение относится к способу, которым признаки распространяются во времени.
Проблемы выравнивания при пространственном преобразовании, применяемом к невыровненным изображениям/объектам
Агрегация определяет шаги по объединению выровненных признаков.
Повышение разрешения описывает метод преобразования агрегированных признаков в конечное выходное изображение.
Методы
При работе с видео временная информация может использоваться для улучшения качества масштабирования. Методы суперразрешения отдельных изображений также могут использоваться, генерируя кадры с высоким разрешением независимо от их соседей, но это менее эффективно и вносит временную нестабильность. Существует несколько традиционных методов, которые рассматривают задачу суперразрешения видео как проблему оптимизации. Методы, основанные на глубоком обучении, для масштабирования видео в последние годы превосходят традиционные.
Традиционные методы
Существует несколько традиционных методов масштабирования видео. Эти методы пытаются использовать некоторые естественные предпочтения и эффективно оценивать движение между кадрами. Кадр высокого разрешения реконструируется на основе как естественных предпочтений, так и предполагаемого движения.
Частотная область
Сначала кадр с низким разрешением преобразуется в частотную область . Кадр с высоким разрешением оценивается в этой области. Наконец, этот результирующий кадр преобразуется в пространственную область. Некоторые методы используют преобразование Фурье , которое помогает расширить спектр захваченного сигнала и, тем не менее, увеличить разрешение. Существуют различные подходы для этих методов: с использованием теории взвешенных наименьших квадратов , [2] алгоритма общих наименьших квадратов (TLS) , [3] пространственно-переменной [4] или пространственно-временной [5] переменной фильтрации. Другие методы используют вейвлет-преобразование , которое помогает находить сходства в соседних локальных областях. [6] Позднее вейвлет-преобразование второго поколения было использовано для сверхвысокого разрешения видео. [7]
Пространственная область
Итеративные методы обратной проекции предполагают некоторую функцию между кадрами с низким и высоким разрешением и пытаются улучшить их предполагаемую функцию на каждом этапе итеративного процесса. [8] Проекции на выпуклые множества (POCS), которые определяют конкретную функцию стоимости, также могут использоваться для итеративных методов. [9]
Алгоритмы итеративной адаптивной фильтрации используют фильтр Калмана для оценки преобразования из кадра с низким разрешением в кадр с высоким разрешением. [10] Для улучшения конечного результата эти методы учитывают временную корреляцию между последовательностями с низким разрешением. Некоторые подходы также учитывают временную корреляцию между последовательностями с высоким разрешением. [11] Для аппроксимации фильтра Калмана распространенным способом является использование наименьших средних квадратов (LMS) . [12] Также можно использовать наискорейший спуск , [13] наименьшие квадраты (LS), [14] рекурсивные наименьшие квадраты (RLS) . [14]
Прямые методы оценивают движение между кадрами, масштабируют опорный кадр и деформируют соседние кадры до опорного кадра с высоким разрешением. Для построения результата эти масштабированные кадры объединяются с помощью медианного фильтра , [15] взвешенного медианного фильтра, [16] адаптивного нормализованного усреднения, классификатора AdaBoost [17] или фильтров на основе SVD . [18]
Непараметрические алгоритмы объединяют оценку движения и слияние кадров в один шаг. Это выполняется с учетом сходства участков. Веса для слияния могут быть рассчитаны с помощью фильтров нелокальных средних . [19] Для усиления поиска похожих участков можно использовать меру сходства инвариантности вращения [20] или адаптивный размер участка. [21] Вычисление внутрикадрового сходства помогает сохранить мелкие детали и края. [22] Параметры для слияния также могут быть рассчитаны с помощью регрессии ядра . [23]
Вероятностные методы используют статистическую теорию для решения задачи. Методы максимального правдоподобия (ML) оценивают более вероятное изображение. [24] [25] Другая группа методов использует оценку максимального апостериорного (MAP) значения . Параметр регуляризации для MAP можно оценить с помощью регуляризации Тихонова . [26] Случайные поля Маркова (MRF) часто используются вместе с MAP и помогают сохранить сходство в соседних участках. [27] MRF Хьюбера используются для сохранения резких краев. [28] MRF Гаусса может сгладить некоторые края, но удалить шум. [29]
Методы, основанные на глубоком обучении
Выравнивание с помощью оценки движения и компенсации движения
В подходах с выравниванием соседние кадры сначала выравниваются с целевым. Можно выравнивать кадры, выполняя оценку движения и компенсацию движения (MEMC) или используя деформируемую свертку (DC). Оценка движения дает информацию о движении пикселей между кадрами. компенсация движения — это операция деформации, которая выравнивает один кадр относительно другого на основе информации о движении. Примеры таких методов:
Deep-DE [30] (глубокое обучение по ансамблю черновиков) генерирует ряд карт признаков SR, а затем обрабатывает их вместе для оценки окончательного кадра
VSRnet [31] основан на SRCNN (модель для суперразрешения одиночного изображения ), но принимает несколько кадров в качестве входных данных. Входные кадры сначала выравниваются алгоритмом Druleas
VESPCN [32] использует модуль пространственной компенсации движения (MCT), который оценивает и компенсирует движение. Затем выполняется серия сверток для извлечения признаков и их слияния
DRVSR [33] (детально раскрывающее глубокое видео сверхвысокое разрешение) состоит из трех основных этапов: оценка движения , компенсация движения и слияние . Трансформатор компенсации движения (MCT) используется для оценки движения. Слой субпиксельной компенсации движения (SPMC) компенсирует движение. Этап слияния использует архитектуру кодера-декодера и модуль ConvLSTM для объединения информации как из пространственных, так и из временных измерений
RVSR [34] (надежное видео сверхвысокое разрешение) имеет две ветви: одну для пространственного выравнивания и другую для временной адаптации. Окончательный кадр представляет собой взвешенную сумму выходных данных ветвей
FRVSR [35] (кадровый рекуррентный видеосигнал сверхвысокого разрешения) оценивает оптический поток низкого разрешения , повышает его дискретизацию до высокого разрешения и деформирует предыдущий выходной кадр, используя этот оптический поток высокого разрешения.
STTN [36] (пространственно-временная трансформаторная сеть) оценивает оптический поток с помощью U-образной сети на основе Unet и компенсирует движение методом трилинейной интерполяции
SOF-VSR [37] (оптический поток сверхвысокого разрешения для сверхвысокого разрешения видео) вычисляет оптический поток высокого разрешения в грубо-тонком режиме. Затем оптический поток низкого разрешения оценивается с помощью преобразования пространства в глубину. Окончательный результат сверхвысокого разрешения получается из выровненных кадров низкого разрешения
TecoGAN [38] (временно когерентный GAN ) состоит из генератора и дискриминатора . Генератор оценивает LR оптический поток между последовательными кадрами и из этого приблизительного HR оптического потока выдает выходной кадр. Дискриминатор оценивает качество генератора
TOFlow [39] (целеориентированный поток) представляет собой комбинацию оптической сети потока и сети реконструкции. Оценочный оптический поток подходит для определенной задачи, например, для видео сверхвысокого разрешения
MMCNN [40] (сверточная нейронная сеть с несколькими запоминающими устройствами) выравнивает кадры с целевым кадром, а затем генерирует окончательный HR-результат с помощью модулей извлечения признаков, слияния деталей и реконструкции признаков.
RBPN [41] ( сеть рекуррентной обратной проекции). Вход каждого рекуррентного проекционного модуля содержит признаки из предыдущего кадра, признаки из последовательности кадров и оптический поток между соседними кадрами.
MEMC-Net [42] (сеть оценки движения и компенсации движения) использует как сеть оценки движения, так и сеть оценки ядра для адаптивного деформирования кадров.
RTVSR [43] (видео сверхвысокого разрешения в реальном времени) выравнивает кадры с оценочным сверточным ядром
MultiBoot VSR [44] (многоэтапный метод многоэтапной загрузки) выравнивает кадры, а затем выполняет двухэтапную SR-реконструкцию для улучшения качества
BasicVSR [45] выравнивает кадры с оптическим потоком, а затем объединяет их характеристики в рекуррентной двунаправленной схеме.
IconVSR [45] — это усовершенствованная версия BasicVSR с рекуррентной схемой связанного распространения.
UVSR [46] (развернутая сеть для видео сверхвысокого разрешения) адаптировала развернутые алгоритмы оптимизации для решения проблемы VSR
Выровнено деформируемой сверткой
Другой способ выровнять соседние кадры с целевым — деформируемая свертка. В то время как обычная свертка имеет фиксированное ядро, деформируемая свертка на первом шаге оценивает сдвиги для ядра, а затем выполняет свертку. Примеры таких методов:
EDVR [47] (улучшенное деформируемое восстановление видео) можно разделить на два основных модуля: модуль пирамиды, каскадирования и деформации (PCD) для выравнивания и модуль временно-пространственного внимания (TSA) для слияния.
DNLN [48] (деформируемая нелокальная сеть) имеет модуль выравнивания, основанный на деформируемой свертке с модулем иерархического слияния признаков (HFFB) для лучшего качества) и модуль нелокального внимания
TDAN [49] (Временно деформируемая сеть выравнивания) состоит из модуля выравнивания и модуля реконструкции. Выравнивание выполняется деформируемой сверткой на основе извлечения признаков и выравнивания
Многоступенчатая сеть слияния признаков [50] для сверхвысокого разрешения видео использует многомасштабную расширенную деформируемую свертку для выравнивания кадров и ветвь модулятивного слияния признаков для интеграции выровненных кадров.
Выровнено по гомографии
Некоторые методы выравнивают кадры путем вычисленной гомографии между кадрами.
TGA [51] (Temporal Group Attention ) делит входные кадры на N групп в зависимости от разницы во времени и извлекает информацию из каждой группы независимо. Модуль быстрого пространственного выравнивания на основе гомографии используется для выравнивания кадров
Пространственно невыровненный
Методы без выравнивания не выполняют выравнивание на первом этапе, а просто обрабатывают входные кадры.
VSRResNet [52] как и GAN состоит из генератора и дискриминатора . Генератор повышает дискретизацию входных кадров, извлекает признаки и объединяет их. Дискриминатор оценивает качество результирующих кадров высокого разрешения
FFCVSR [53] (кадровое и контекстно-функциональное видео сверхвысокого разрешения) берет невыровненные кадры с низким разрешением и выводит предыдущие кадры с высоким разрешением для одновременного восстановления высокочастотных деталей и поддержания временной согласованности.
MRMNet [54] (сеть смешанных разрешений) состоит из трех модулей: узкого места, обмена и остатка. Узлы узкого места извлекают признаки, имеющие то же разрешение, что и входные кадры. Модуль обмена обменивается признаками между соседними кадрами и увеличивает карты признаков. Остаточный модуль извлекает признаки после обмена
STMN [55] (пространственно-временная сеть сопоставления) использует дискретное вейвлет-преобразование для слияния временных признаков. Нелокальный блок сопоставления объединяет суперразрешение и шумоподавление . На последнем этапе SR-результат получается на глобальном вейвлет-домене
MuCAN [56] (сеть агрегации множественного соответствия ) использует стратегию временного множественного соответствия для объединения временных характеристик и кросс-масштабного нелокального соответствия для извлечения самоподобий в кадрах.
3D-свертки
В то время как 2D- свертки работают в пространственной области, 3D -свертки используют как пространственную, так и временную информацию. Они выполняют компенсацию движения и поддерживают временную согласованность
DUF [57] (динамические фильтры повышения частоты дискретизации) используют деформируемую 3D- свертку для компенсации движения . Модель оценивает ядра для определенных входных кадров
FSTRN [58] (Быстрая пространственно-временная остаточная сеть) включает в себя несколько модулей: сеть извлечения неглубоких признаков видео LR (LFENet), модуль слияния признаков LR и повышения дискретизации (LSRNet) и два остаточных модуля: пространственно-временной и глобальный.
3DSRnet [59] (3D-сеть сверхвысокого разрешения) использует 3D- свертки для извлечения пространственно-временной информации. Модель также имеет специальный подход для кадров, где обнаруживается смена сцены
MP3D [60] (многомасштабная пирамидальная 3D сверточная сеть ) использует 3D свертку для одновременного извлечения пространственных и временных характеристик, которые затем проходят через модуль реконструкции с 3D субпиксельной сверткой для повышения частоты дискретизации.
DMBN [61] (динамическая многоветвевая сеть) имеет три ветви для использования информации из нескольких разрешений. Наконец, информация из ветвей динамически сливается
Рекуррентные нейронные сети
Рекуррентные сверточные нейронные сети обеспечивают сверхвысокое разрешение видео путем хранения временных зависимостей.
STCN [62] (пространственно-временная сверточная сеть) извлекает признаки в пространственном модуле, пропускает их через рекуррентный временной модуль и модуль окончательной реконструкции. Временная согласованность поддерживается механизмом долговременной краткосрочной памяти (LSTM)
BRCN [63] (двунаправленная рекуррентная сверточная сеть) имеет две подсети: с прямым слиянием и обратным слиянием . Результатом сети является композиция выходных данных двух ветвей
RISTN [64] ( остаточная инвертируемая пространственно-временная сеть) состоит из пространственного, временного и реконструкционного модуля. Пространственный модуль состоит из остаточных инвертируемых блоков (RIB), которые эффективно извлекают пространственные признаки. Выходные данные пространственного модуля обрабатываются временным модулем, который извлекает пространственно-временную информацию, а затем объединяет важные признаки. Окончательный результат вычисляется в реконструкционном модуле с помощью операции деконволюции
RRCN [65] (остаточная рекуррентная сверточная сеть) — это двунаправленная рекуррентная сеть, которая вычисляет остаточное изображение. Затем окончательный результат получается путем добавления бикубически передискретизированного входного кадра
RRN [66] (рекуррентная остаточная сеть) использует рекуррентную последовательность остаточных блоков для извлечения пространственной и временной информации.
BTRPN [67] (двунаправленная временно-рекуррентная сеть распространения) использует двунаправленную рекуррентную схему. Конечный результат, объединенный из двух ветвей с механизмом внимания канала
RLSP [68] (рекуррентное распространение скрытого состояния) полностью сверточная сетевая ячейка с высокоэффективным распространением временной информации через скрытое состояние
RSDN [69] (рекуррентная сеть структуры и деталей) делит входной кадр на компоненты структуры и деталей и обрабатывает их в двух параллельных потоках
Видео
Нелокальные методы извлекают как пространственную, так и временную информацию. Основная идея заключается в использовании всех возможных позиций в качестве взвешенной суммы. Эта стратегия может быть более эффективной, чем локальные подходы (нелокальный метод прогрессивного слияния ), извлекают пространственно-временные признаки с помощью нелокальных остаточных блоков, а затем объединяют их с помощью остаточного блока прогрессивного слияния (PFRB). Результатом этих блоков является остаточное изображение. Окончательный результат получается путем добавления бикубически повышенного входного кадра
NLVSR [70] (новая сеть видео сверхвысокого разрешения) выравнивает кадры с целевым с помощью временно-пространственной нелокальной операции. Для интеграции информации из выровненных кадров используется механизм, основанный на внимании
MSHPFNL [71] также включает в себя многомасштабную структуру и гибридные свертки для извлечения широкополосных зависимостей. Чтобы избежать некоторых артефактов, таких как мерцание или фантомное изображение , они используют генеративное состязательное обучение
Метрики
Обычный способ оценки производительности алгоритмов сверхвысокого разрешения видео — использование нескольких показателей:
LPIPS (Learned Perceptual Image Patch Similarity) сравнивает перцептивное сходство кадров на основе структуры изображения высокого порядка.
tOF измеряет попиксельное сходство движения с опорной системой на основе оптического потока
tLP вычисляет, как LPIPS изменяется от кадра к кадру по сравнению с эталонной последовательностью
FSIM (индекс схожести характеристик качества изображения) использует фазовую конгруэнтность в качестве основного признака для измерения схожести между двумя соответствующими кадрами.
В настоящее время не так много объективных метрик для проверки способности метода видео сверхвысокого разрешения восстанавливать реальные детали. В настоящее время ведутся исследования в этой области.
Хотя подходы глубокого обучения видео сверхвысокого разрешения превосходят традиционные, крайне важно сформировать высококачественный набор данных для оценки. Важно проверить способность моделей восстанавливать мелкие детали, текст и объекты со сложной структурой, справляться с большим движением и шумом.
Сравнение наборов данных
Набор данных
Видео
Средняя продолжительность видео
Разрешение наземных данных
Движение в кадрах
Мелкие детали
Вид4
4
43 кадра
720×480
Без быстрого движения
Некоторые мелкие детали, без текста
СПМКС
30
31 кадр
960×540
Замедленная съемка
Множество мелких деталей
Vimeo-90K (тестовый набор SR)
7824
7 кадров
448×256
Много быстрых, сложных, разнообразных движений
Немного подробностей, текст в нескольких последовательностях
Xiph HD (полные комплекты)
70
2 секунды
от 640×360 до 4096×2160
Много быстрых, сложных, разнообразных движений
Немного подробностей, текст в нескольких последовательностях
Ультра видео набор данных 4K
16
10 секунд
4096×2160
Разнообразное движение
Немного подробностей, без текста
REDS (тест SR)
30
100 кадров
1280×720
Много быстрых, сложных, разнообразных движений
Немного подробностей, без текста
Пространство-Время SR
5
100 кадров
1280×720
Разнообразное движение
Без мелких деталей и текста
Гармонический
—
—
4096×2160
—
—
CDVL
—
—
1920×1080
—
—
Показатели
Несколько бенчмарков в области видео сверхвысокого разрешения были организованы компаниями и конференциями. Цель таких испытаний — сравнить различные алгоритмы и найти самые современные для решения задачи.
Сравнение показателей
Бенчмарк
Организатор
Набор данных
Фактор шкалы
Метрики
Вызов NTIRE 2019
CVPR (компьютерное зрение и распознавание образов)
Конкурс NTIRE 2019 был организован CVPR и предложил два трека для Video Super-Resolution: чистый (только бикубическая деградация) и размытие (размытие добавлено в первую очередь). В каждом треке участвовало более 100 человек, и было представлено 14 окончательных результатов. Для этого конкурса был собран набор данных REDS. Он состоит из 30 видео по 100 кадров в каждом. Разрешение кадров Ground-truth составляет 1280×720. Тестируемый масштабный коэффициент равен 4. Для оценки производительности моделей использовались PSNR и SSIM. Лучшие результаты участников представлены в таблице:
Лучшие команды
Команда
Название модели
PSNR (чистый путь)
SSIM (чистый путь)
PSNR (размытие дорожки)
SSIM (размытие дорожки)
Время выполнения на изображение в сек (чистая дорожка)
Время выполнения на изображение в сек. (размытие дорожки)
Платформа
ГПУ
С открытым исходным кодом
Привет, VSR
ЭДВР
31.79
0,8962
30.17
0,8647
2.788
3.562
PyTorch
ТИТАН Хр
ДА
UIUC-IFP
WDVR
30.81
0,8748
29.46
0,8430
0.980
0.980
PyTorch
Тесла V100
ДА
СуперРиор
ансамбль RDN, RCAN, DUF
31.13
0,8811
—
—
120.000
—
PyTorch
Тесла V100
НЕТ
CyberverseСан-Диего
РекНет
31.00
0,8822
27.71
0,8067
3.000
3.000
TensorFlow
RTX 2080 Ti
ДА
ТТИ
РБПН
30.97
0,8804
28.92
0,8333
1.390
1.390
PyTorch
ТИТАН X
ДА
NERCMS
НФНЛ
30.91
0,8782
28.98
0,8307
6.020
6.020
PyTorch
GTX 1080 Ti
ДА
XJTU-IAIR
FSTDN
—
—
28.86
0,8301
—
13.000
PyTorch
GTX 1080 Ti
НЕТ
Вызов Youku-VESR 2019
Youku-VESR Challenge был организован для проверки способности моделей справляться с деградацией и шумом, которые реальны для приложения для просмотра видео Youku в режиме онлайн. Предлагаемый набор данных состоит из 1000 видеороликов, длительность каждого из которых составляет 4–6 секунд. Разрешение кадров Ground-Truth составляет 1920×1080. Тестируемый масштабный коэффициент равен 4. Для оценки производительности использовались метрики PSNR и VMAF. Лучшие методы представлены в таблице:
Лучшие команды
Команда
ПСНР
ВМАФ
Мстители в сборе
37.851
41.617
НЮ_Л1
37.681
41.227
ALONG_NTES
37.632
40.405
Вызов AIM 2019
Испытание проводилось ECCV и включало два трека на видео экстремального сверхвысокого разрешения: первый трек проверяет точность с опорным кадром (измеренную PSNR и SSIM ). Второй трек проверяет качество восприятия видео ( MOS ). Набор данных состоит из 328 видеопоследовательностей по 120 кадров в каждой. Разрешение кадров наземной истины составляет 1920×1080. Тестируемый масштабный коэффициент равен 16. Лучшие методы представлены в таблице:
Лучшие команды
Команда
Название модели
ПСНР
ССИМ
МОС
Время выполнения на изображение в сек.
Платформа
Графический процессор/процессор
С открытым исходным кодом
fenglinglwb
на основе EDVR
22.53
0,64
первый результат
0,35
PyTorch
4× Титан X
НЕТ
NERCMS
НФНЛ
22.35
0,63
—
0,51
PyTorch
2×1080Ti
НЕТ
базовый уровень
РЛСП
21.75
0,60
—
0,09
TensorFlow
Титан Хр
НЕТ
HIT-XLab
на основе ЭДСР
21.45
0,60
второй результат
60.00
PyTorch
В100
НЕТ
Вызов AIM 2020
Условия испытания такие же, как и в испытании AIM 2019. Топовые методы представлены в таблице:
Лучшие команды
Команда
Название модели
Число параметров
ПСНР
ССИМ
Время выполнения на изображение в сек.
Графический процессор/процессор
С открытым исходным кодом
KirinUK
EVESRNet
45.29M
22.83
0,6450
6.1 с
1 × 2080 Ti 6
НЕТ
Команда-WVU
—
29.51M
22.48
0,6378
4,9 с
1 × Опыт Титана
НЕТ
BOE-IOT-AIBD
3D-МГБП
53М
22.48
0,6304
4,83 с
1 × 1080
НЕТ
ср ххх
на основе EDVR
—
22.43
0,6353
4 с
1 × V100
НЕТ
ЗЗХ
МАХА
31.14M
22.28
0,6321
4 с
1 × 1080 Ти
НЕТ
лил
FineNet
—
22.08
0,6256
13 сек.
—
НЕТ
ТТИ
на основе STARnet
—
21.91
0,6165
0,249 с
—
НЕТ
CET CVLab
—
21.77
0,6112
0,04 с
1 × P100
НЕТ
Тест сверхвысокого разрешения видео MSU
MSU Video Super-Resolution Benchmark был организован MSU и предложил три типа движения, два способа снижения разрешения и восемь типов контента в наборе данных. Разрешение кадров Ground-Truth составляет 1920×1280. Тестируемый масштабный коэффициент равен 4. Было протестировано 14 моделей. Для оценки производительности моделей использовались PSNR и SSIM с компенсацией сдвига. Также было предложено несколько новых метрик: ERQAv1.0, QRCRv1.0 и CRRMv1.0. [72] Лучшие методы представлены в таблице:
Лучшие методы
Название модели
Многокадровый
Субъективный
ERQAv1.0
ПСНР
ССИМ
QRCRv1.0
CRRMv1.0
Время выполнения на изображение в сек.
С открытым исходным кодом
ДБВСР
ДА
5.561
0,737
31.071
0,894
0,629
0,992
—
ДА
ЛГФН
ДА
5.040
0,740
31.291
0,898
0,629
0,996
1.499
ДА
DynaVSR-R
ДА
4.751
0,709
28.377
0,865
0,557
0,997
5.664
ДА
ТДАН
ДА
4.036
0,706
30.244
0,883
0,557
0,994
—
ДА
ДУФ-28Л
ДА
3.910
0,645
25.852
0,830
0,549
0,993
2.392
ДА
РРН-10Л
ДА
3.887
0,627
24.252
0.790
0,557
0,989
0.390
ДА
RealSR
НЕТ
3.749
0.690
25.989
0,767
0.000
0,886
—
ДА
MSU Super-Resolution для теста сжатия видео
MSU Super-Resolution for Video Compression Benchmark был организован MSU. Этот бенчмарк проверяет способность моделей работать со сжатыми видео. Набор данных состоит из 9 видео, сжатых с использованием различных стандартов видеокодеков и различных битрейтов . Модели ранжируются по BSQ-скорости [73] по субъективной оценке. Разрешение кадров Ground-truth составляет 1920×1080. Тестируемый масштабный коэффициент равен 4. Было протестировано 17 моделей. Для сжатия видео Ground-truth использовалось 5 видеокодеков. Лучшие комбинации методов Super-Resolution и видеокодеков представлены в таблице:
Лучшие методы
Название модели
BSQ-ставка (субъективная оценка)
BSQ-ставка (ERQAv2.0)
BSQ-ставка (VMAF)
BSQ-ставка (PSNR)
BSQ-ставка (MS-SSIM)
BSQ-ставка (LPIPS)
С открытым исходным кодом
RealSR + x264
0,196
0,770
0,775
0,675
0,487
0,591
ДА
ahq-11 + x264
0,271
0,883
0,753
0,873
0,719
0,656
НЕТ
SwinIR + x264
0,304
0,760
0,642
6.268
0,736
0,559
ДА
Реальный-ESRGAN + x264
0,335
5.580
0,698
7.874
0,881
0,733
ДА
SwinIR + x265
0,346
1.575
1.304
8.130
4.641
1.474
ДА
КОМИСР + x264
0,367
0,969
1.302
6.081
0,672
1.118
ДА
RealSR + x265
0,502
1.622
1.617
1.064
1.033
1.206
ДА
Приложение
Во многих областях, работая с видео, мы сталкиваемся с различными типами ухудшения качества видео, включая уменьшение масштаба. Разрешение видео может ухудшаться из-за несовершенства измерительных приборов, таких как оптическая деградация и ограниченный размер сенсоров камеры . Плохое освещение и погодные условия добавляют шум к видео. Движение объектов и камеры также снижает качество видео. Методы сверхвысокого разрешения помогают восстановить исходное видео. Это полезно в широком спектре приложений, таких как
видеонаблюдение (для улучшения качества видео, снятого камерой, и распознавания номеров автомобилей и лиц)
медицинская визуализация (для лучшего обнаружения некоторых органов или тканей для клинического анализа и медицинского вмешательства)
Видео сверхвысокого разрешения находит практическое применение в некоторых современных смартфонах и камерах, где оно используется для реконструкции цифровых фотографий.
Восстановление деталей на цифровых фотографиях — сложная задача, поскольку эти фотографии уже неполны: элементы сенсора камеры измеряют только интенсивность света, а не напрямую его цвет. Процесс, называемый демозаикингом, используется для восстановления фотографий из частичной цветовой информации. Один кадр не дает нам достаточно данных для заполнения недостающих цветов, однако мы можем получить часть недостающей информации из нескольких изображений, снятых одно за другим. Этот процесс известен как серийная фотография и может использоваться для восстановления одного изображения хорошего качества из нескольких последовательных кадров.
Когда мы делаем много последовательных фотографий с помощью смартфона или ручной камеры, между кадрами всегда присутствует некоторое движение из-за движения руки. Мы можем воспользоваться этим дрожанием руки, объединив информацию на этих изображениях. Мы выбираем одно изображение в качестве «базы» или опорного кадра и выравниваем каждый другой кадр относительно него.
Бывают ситуации, когда движение руки просто отсутствует, поскольку устройство стабилизировано (например, установлено на штативе). Существует способ имитировать естественное движение руки, намеренно слегка перемещая камеру. Движения чрезвычайно малы, поэтому они не мешают обычным фотографиям. Вы можете наблюдать эти движения на телефоне Google Pixel 3 [74] , удерживая его совершенно неподвижно (например, прижимая к окну) и максимально увеличивая видоискатель с помощью щипка.
^ Чан, Кельвин К.К. и др. «BasicVSR: Поиск основных компонентов в видео сверхвысокого разрешения и выше». Труды конференции IEEE/CVF по компьютерному зрению и распознаванию образов . 2021.
^ Ким, СП; Бозе, НК; Валенсуэла, ХМ (1989). «Реконструкция изображения с высоким разрешением из кадров с недостаточной выборкой шума». Lecture Notes in Control and Information Sciences . Vol. 129. Berlin/Heidelberg: Springer-Verlag. pp. 315–326 . doi :10.1007/bfb0042742. ISBN3-540-51424-4.
^ Бозе, НК; Ким, ХК; Чжоу, Б. (1994). "Анализ производительности алгоритма TLS для восстановления изображения из последовательности недостаточно дискретизированных зашумленных и размытых кадров". Труды 1-й Международной конференции по обработке изображений . Том 3. IEEE Comput. Soc. Press. С. 571– 574. doi :10.1109/icip.1994.413741. ISBN0-8186-6952-7.
^ Tekalp, AM; Ozkan, MK; Sezan, MI (1992). "Реконструкция изображений с высоким разрешением из последовательностей изображений с низким разрешением и восстановление изображений с переменным пространством". [Труды] ICASSP-92: 1992 IEEE Международная конференция по акустике, речи и обработке сигналов . IEEE. стр. 169–172 т.3. doi :10.1109/icassp.1992.226249. ISBN0-7803-0532-9.
^ Голдберг, Н.; Фейер, А.; Гудвин, Г. К. (2003). «Реконструкция со сверхвысоким разрешением с использованием пространственно-временной фильтрации». Журнал визуальной коммуникации и представления изображений . 14 (4). Elsevier BV: 508– 525. doi :10.1016/s1047-3203(03)00042-7. ISSN 1047-3203.
^ Маллат, С. (2010). «Суперразрешение с разреженными оценщиками смешивания». Труды IEEE по обработке изображений . 19 (11). Институт инженеров по электротехнике и электронике (IEEE): 2889– 2900. Bibcode : 2010ITIP...19.2889M. doi : 10.1109/tip.2010.2049927. ISSN 1057-7149. PMID 20457549. S2CID 856101.
^ Бозе, НК; Лертраттанапанич, С.; Чаппалли, МБ (2004). «Сверхразрешение с вейвлетами второго поколения». Обработка сигналов: передача изображений . 19 (5). Elsevier BV: 387– 391. doi :10.1016/j.image.2004.02.001. ISSN 0923-5965.
^ Коэн, Б.; Аврин, В.; Динштейн, И. (2000). «Многофазная обратная проекционная фильтрация для повышения разрешения последовательностей изображений». 2000 IEEE Международная конференция по акустике, речи и обработке сигналов. Труды (Кат. № 00CH37100) . Том 4. IEEE. С. 2171– 2174. doi :10.1109/icassp.2000.859267. ISBN0-7803-6293-4.
^ Katsaggelos, AK (1997). "Итеративный взвешенный регуляризованный алгоритм для улучшения разрешения видеопоследовательностей". Труды Международной конференции по обработке изображений . IEEE Comput. Soc. стр. 474– 477. doi :10.1109/icip.1997.638811. ISBN0-8186-8183-7.
^ Фарсиу, Сина; Элад, Майкл; Миланфар, Пейман (15.01.2006). «Практический подход к сверхразрешению». В Апостолопулос, Джон Г.; Саид, Амир (ред.). Визуальные коммуникации и обработка изображений 2006. Том 6077. SPIE. стр. 607703. doi :10.1117/12.644391.
^ Jing Tian; Kai-Kuang Ma (2005). "Новый подход к пространству состояний для реконструкции последовательности изображений с высоким разрешением". Международная конференция IEEE по обработке изображений 2005 г. IEEE. стр. I-881. doi :10.1109/icip.2005.1529892. ISBN0-7803-9134-9.
^ Коста, Гильерме Хольсбах; Бермудес, Хос Карлос Морейра (2007). «Статистический анализ алгоритма LMS, применяемого для реконструкции изображений сверхвысокого разрешения». Труды IEEE по обработке сигналов . 55 (5). Институт инженеров по электротехнике и электронике (IEEE): 2084– 2095. Bibcode : 2007ITSP...55.2084C. doi : 10.1109/tsp.2007.892704. ISSN 1053-587X. S2CID 52857681.
^ Элад, М.; Фейер, А. (1999). "Реконструкция непрерывных последовательностей изображений со сверхвысоким разрешением". Труды Международной конференции по обработке изображений 1999 г. (кат. 99CH36348) . Том 3. IEEE. стр. 459–463 . doi :10.1109/icip.1999.817156. ISBN0-7803-5467-2.
^ ab Elad, M.; Feuer, A. (1999). "Восстановление последовательности изображений со сверхвысоким разрешением: подход с адаптивной фильтрацией". IEEE Transactions on Image Processing . 8 (3). Институт инженеров по электротехнике и электронике (IEEE): 387– 395. Bibcode : 1999ITIP....8..387E. doi : 10.1109/83.748893. ISSN 1057-7149. PMID 18262881.
^ Pickering, M.; Frater, M.; Arnold, J. (2005). "Arobust approach to super-resolution sprite generation". Международная конференция IEEE по обработке изображений 2005 г. IEEE. стр. I-897. doi :10.1109/icip.2005.1529896. ISBN0-7803-9134-9.
^ Насонов, Андрей В.; Крылов, Андрей С. (2010). "Быстрое сверхразрешение с использованием взвешенной медианной фильтрации". 2010 20-я Международная конференция по распознаванию образов . IEEE. стр. 2230– 2233. doi :10.1109/icpr.2010.546. ISBN978-1-4244-7542-1.
^ Симонян, К.; Гришин, С.; Ватолин, Д.; Попов, Д. (2008). "Быстрое видеосверхразрешение с помощью классификации". 2008 15-я Международная конференция IEEE по обработке изображений . IEEE. стр. 349–352 . doi :10.1109/icip.2008.4711763. ISBN978-1-4244-1765-0.
^ Насир, Хайдавати; Станкович, Владимир; Маршалл, Стивен (2011). «Слияние на основе сингулярного разложения для реконструкции изображений с высоким разрешением». Международная конференция IEEE по приложениям обработки сигналов и изображений (ICSIPA) 2011 г. IEEE. стр. 393–398 . doi :10.1109/icsipa.2011.6144138. ISBN978-1-4577-0242-6.
^ Protter, M.; Elad, M.; Takeda, H.; Milanfar, P. (2009). «Обобщение нелокальных средних для реконструкции со сверхвысоким разрешением». Труды IEEE по обработке изображений . 18 (1). Институт инженеров по электротехнике и электронике (IEEE): 36– 51. Bibcode : 2009ITIP...18...36P. doi : 10.1109/tip.2008.2008067. ISSN 1057-7149. PMID 19095517. S2CID 2142115.
^ Чжо, Юэ; Лю, Цзяин ; Жэнь, Цзе; Го, Цзунмин (2012). «Нелокальное сверхразрешение с инвариантностью вращения и перемещением окна поиска». Международная конференция IEEE по акустике, речи и обработке сигналов (ICASSP) 2012 г. IEEE. стр. 853– 856. doi :10.1109/icassp.2012.6288018. ISBN978-1-4673-0046-9.
^ Чэн, Мин-Хуэй; Чэнь, Сюань-Ин; Леу, Цзинь-Джан (2011). «Реконструкция видео сверхвысокого разрешения с использованием стратегии мобильного поиска и адаптивного размера патча». Обработка сигналов . 91 (5). Elsevier BV: 1284– 1297. Bibcode : 2011SigPr..91.1284C. doi : 10.1016/j.sigpro.2010.12.016. ISSN 0165-1684. S2CID 17920263.
^ Huhle, Benjamin; Schairer, Timo; Jenke, Philipp; Straßer, Wolfgang (2010). «Объединение диапазонных и цветных изображений для шумоподавления и повышения разрешения с помощью нелокального фильтра». Computer Vision and Image Understanding . 114 (12). Elsevier BV: 1336– 1345. doi :10.1016/j.cviu.2009.11.004. ISSN 1077-3142.
^ Такеда, Хироюки; Фарсиу, Сина; Миланфар, Пейман (2007). «Ядерная регрессия для обработки и реконструкции изображений». Труды IEEE по обработке изображений . 16 (2). Институт инженеров по электротехнике и электронике (IEEE): 349– 366. Bibcode : 2007ITIP...16..349T. doi : 10.1109/tip.2006.888330. ISSN 1057-7149. PMID 17269630. S2CID 12116009.
^ Элад, М.; Фойер, А. (1997). «Восстановление одного изображения сверхвысокого разрешения из нескольких размытых, шумных и недостаточно дискретизированных измеренных изображений». Труды IEEE по обработке изображений . 6 (12). Институт инженеров по электротехнике и электронике (IEEE): 1646– 1658. Bibcode : 1997ITIP....6.1646E. doi : 10.1109/83.650118. ISSN 1057-7149. PMID 18285235.
^ Фарсиу, Сина; Робинсон, Дирк; Элад, Майкл; Миланфар, Пейман (2003-11-20). "Надежный подход к сверхразрешению с помощью сдвига и добавления". В Tescher, Andrew G. (ред.). Applications of Digital Image Processing XXVI . Vol. 5203. SPIE. p. 121. doi :10.1117/12.507194.
^ Chantas, GK; Galatsanos, NP; Woods, NA (2007). «Сверхразрешение на основе быстрой регистрации и максимальной апостериорной реконструкции». Труды IEEE по обработке изображений . 16 (7). Институт инженеров по электротехнике и электронике (IEEE): 1821– 1830. Bibcode : 2007ITIP...16.1821C. doi : 10.1109/tip.2007.896664. ISSN 1057-7149. PMID 17605380. S2CID 1811280.
^ Раджан, Д.; Чаудхури, С. (2001). «Генерация изображений сверхвысокого разрешения из размытых наблюдений с использованием марковских случайных полей». 2001 IEEE Международная конференция по акустике, речи и обработке сигналов. Труды (Кат. № 01CH37221) . Том 3. IEEE. С. 1837– 1840. doi :10.1109/icassp.2001.941300. ISBN0-7803-7041-4.
^ Zibetti, Marcelo Victor Wust; Mayer, Joceli (2006). "Outlier Robust and Edge-Preserving Simultaneous Super-Resolution". Международная конференция по обработке изображений 2006 г. IEEE. стр. 1741– 1744. doi :10.1109/icip.2006.312718. ISBN1-4244-0480-0.
^ Джоши, М. В.; Чаудхури, С.; Пануганти, Р. (2005). «Метод на основе обучения для сверхвысокого разрешения изображения из увеличенных наблюдений». Труды IEEE по системам, человеку и кибернетике — Часть B: Кибернетика . 35 (3). Институт инженеров по электротехнике и электронике (IEEE): 527– 537. doi : 10.1109/tsmcb.2005.846647. ISSN 1083-4419. PMID 15971920. S2CID 3162908.
^ Ляо, Жэньцзе; Тао, Синь; Ли, Руйюй; Ма, Цзыян; Цзя, Цзяя (2015). «Суперразрешение видео с помощью глубокого обучения ансамблем черновиков». Международная конференция IEEE по компьютерному зрению (ICCV) 2015 г. IEEE. стр. 531– 539. doi :10.1109/iccv.2015.68. ISBN978-1-4673-8391-2.
^ Каппелер, Армин; Ю, Сынхван; Дай, Цицинь; Катсаггелос, Аггелос К. (2016). «Сверхразрешение видео с использованием сверточных нейронных сетей». Труды IEEE по вычислительной визуализации . 2 (2). Институт инженеров по электротехнике и электронике (IEEE): 109– 122. doi :10.1109/tci.2016.2532323. ISSN 2333-9403. S2CID 9356783.
^ Кабальеро, Хосе; Ледиг, Кристиан; Эйткен, Эндрю; Акоста, Алехандро; Тотц, Йоханнес; Ван, Зехан; Ши, Вэньчжэ (16.11.2016). «Сверхвысокое разрешение видео в реальном времени с пространственно-временными сетями и компенсацией движения». arXiv : 1611.05250v2 [cs.CV].
^ Лю, Дин; Ван, Чжаовэнь; Фань, Юйчэнь; Лю, Сяньмин; Ван, Чжанян; Чан, Шиюй; Хуан, Томас (2017). «Надежное сверхвысокое разрешение видео с изученной временной динамикой». Международная конференция IEEE по компьютерному зрению (ICCV) 2017 г. IEEE. стр. 2526– 2534. doi :10.1109/iccv.2017.274. ISBN978-1-5386-1032-9.
^ Саджади, Мехди SM; Вемулапалли, Равитеджа; Браун, Мэтью (2018). «Frame-Recurrent Video Super-Resolution». Конференция IEEE/CVF 2018 года по компьютерному зрению и распознаванию образов . IEEE. стр. 6626–6634 . arXiv : 1801.04590 . doi : 10.1109/cvpr.2018.00693. ISBN978-1-5386-6420-9.
^ Ким, Тэ Хён; Саджади, Мехди SM; Хирш, Михаэль; Шёлькопф, Бернхард (2018). «Пространственно-временная трансформаторная сеть для восстановления видео». Computer Vision – ECCV 2018. Lecture Notes in Computer Science. Vol. 11207. Cham: Springer International Publishing. pp. 111– 127. doi :10.1007/978-3-030-01219-9_7. ISBN978-3-030-01218-2. ISSN 0302-9743.
^ Ван, Лунгуан; Го, Юйлань; Лю, Ли; Линь, Зайпин; Дэн, Синьпу; Ань, Вэй (2020). «Глубокое сверхвысокое разрешение видео с использованием оценки оптического потока высокого разрешения». Труды IEEE по обработке изображений . 29. Институт инженеров по электротехнике и электронике (IEEE): 4323– 4336. arXiv : 2001.02129 . Bibcode : 2020ITIP...29.4323W. doi : 10.1109/tip.2020.2967596. ISSN 1057-7149. PMID 31995491. S2CID 210023539.
^ Чу, Мэнъюй; Сье, Ю; Майер, Йонас; Леал-Тайше, Лора; Туэри, Нильс (2020-07-08). «Изучение временной когерентности с помощью самоконтроля для генерации видео на основе GAN». ACM Transactions on Graphics . 39 (4). Ассоциация вычислительной техники (ACM). arXiv : 1811.09393 . doi : 10.1145/3386569.3392457. ISSN 0730-0301. S2CID 209460786.
^ Сюэ, Тяньфань; Чэнь, Баян; У, Цзяцзюнь; Вэй, Донглай; Фримен, Уильям Т. (12.02.2019). «Улучшение видео с помощью ориентированного на задачи потока». Международный журнал компьютерного зрения . 127 (8). Springer Science and Business Media LLC: 1106– 1125. arXiv : 1711.09078 . doi : 10.1007/s11263-018-01144-2. ISSN 0920-5691. S2CID 40412298.
^ Ван, Чжунъюань; И, Пэн; Цзян, Куй; Цзян, Цзюньцзюнь; Хань, Чжэнь; Лу, Тао; Ма, Цзяи (2019). «Мультипамятная сверточная нейронная сеть для сверхвысокого разрешения видео». Труды IEEE по обработке изображений . 28 (5). Институт инженеров по электротехнике и электронике (IEEE): 2530– 2544. Bibcode : 2019ITIP...28.2530W. doi : 10.1109/tip.2018.2887017. ISSN 1057-7149. PMID 30571634. S2CID 58595890.
^ Харис, Мухаммад; Шахнарович, Грегори; Укита, Норимичи (2019). «Рекуррентная обратная проекционная сеть для сверхвысокого разрешения видео». Конференция IEEE/CVF 2019 года по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 3892–3901 . arXiv : 1903.10128 . doi : 10.1109/cvpr.2019.00402. ISBN978-1-7281-3293-8.
^ Бао, Вэньбо; Лай, Вэй-Шэн; Чжан, Сяоюнь; Гао, Чжиюн; Ян, Мин-Сюань (01.03.2021). «MEMC-Net: нейронная сеть на основе оценки и компенсации движения для интерполяции и улучшения видео». Труды IEEE по анализу шаблонов и машинному интеллекту . 43 (3). Институт инженеров по электротехнике и электронике (IEEE): 933–948 . arXiv : 1810.08768 . doi : 10.1109/tpami.2019.2941941. ISSN 0162-8828 . PMID 31722471. S2CID 53046739.
^ Bare, Bahetiyaer; Yan, Bo; Ma, Chenxi; Li, Ke (2019). «Суперразрешение видео в реальном времени с помощью оценки ядра свертки движения». Neurocomputing . 367. Elsevier BV: 236– 245. doi :10.1016/j.neucom.2019.07.089. ISSN 0925-2312. S2CID 201264266.
^ Kalarot, Ratheesh; Porikli, Fatih (2019). «MultiBoot Vsr: многоэтапная многоэтапная начальная загрузка для сверхвысокого разрешения видео». Конференция IEEE/CVF 2019 года по компьютерному зрению и распознаванию образов (CVPRW) . IEEE. стр. 2060–2069 . doi :10.1109/cvprw.2019.00258. ISBN978-1-7281-2506-0.
^ ab Chan, Kelvin CK; Wang, Xintao; Yu, Ke; Dong, Chao; Loy, Chen Change (2020-12-03). «BasicVSR: Поиск основных компонентов в сверхвысоком разрешении видео и за его пределами». arXiv : 2012.02181v1 [cs.CV].
^ Наото Чиче, Бенджамин; Фронтера-Понс, Джоана; Вуазель, Арно; Старк, Жан-Люк (2020-11-09). «Глубокая развернутая сеть для сверхвысокого разрешения видео». Десятая международная конференция по теории обработки изображений, инструментам и приложениям (IPTA) 2020 г. IEEE. стр. 1– 6. arXiv : 2102.11720 . doi :10.1109/ipta50016.2020.9286636. ISBN978-1-7281-8750-1.
^ Ван, Синьтао; Чан, Кельвин CK; Ю, Кэ; Дун, Чао; Лой, Чэнь Чан (2019-05-07). "EDVR: Восстановление видео с помощью усовершенствованных деформируемых сверточных сетей". arXiv : 1905.02716v1 [cs.CV].
^ Ван, Хуа; Су, Дэвэй; Лю, Чуанчуан; Цзинь, Лунцунь; Сан, Сяньфан; Пэн, Синьи (2019). «Деформируемая нелокальная сеть для сверхвысокого разрешения видео». IEEE Access . 7. Институт инженеров по электротехнике и электронике (IEEE): 177734– 177744. arXiv : 1909.10692 . Bibcode : 2019IEEEA...7q7734W. doi : 10.1109/access.2019.2958030 . ISSN 2169-3536.
^ Тянь, Япэн; Чжан, Юйлунь; Фу, Юнь; Сюй, Чэньлян (2020). «TDAN: Временно-деформируемая сеть выравнивания для сверхвысокого разрешения видео». Конференция IEEE/CVF 2020 года по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 3357–3366 . arXiv : 1812.02898 . doi : 10.1109/cvpr42600.2020.00342. ISBN978-1-7281-7168-5.
^ Song, Huihui; Xu, Wenjie; Liu, Dong; Liua, Bo; Liub, Qingshan; Metaxas, Dimitris N. (2021). «Многоступенчатая сеть слияния признаков для сверхвысокого разрешения видео». Труды IEEE по обработке изображений . 30. Институт инженеров по электротехнике и электронике (IEEE): 2923– 2934. Bibcode : 2021ITIP...30.2923S. doi : 10.1109/tip.2021.3056868. ISSN 1057-7149. PMID 33560986. S2CID 231864067.
^ Исобе, Такаши; Ли, Сунцзян; Цзя, Сюй; Юань, Шаньсинь; Слабо, Грегори; Сюй, Чуньцзин; Ли, Я-Ли; Ван, Шэнджин; Тянь, Ци (2020). «Суперразрешение видео с временным групповым вниманием». Конференция IEEE/CVF 2020 года по компьютерному зрению и распознаванию образов (CVPR) . IEEE. С. 8005–8014 . arXiv : 2007.10595 . doi : 10.1109/cvpr42600.2020.00803. ISBN978-1-7281-7168-5.
^ Лукас, Элис; Лопес-Тапия, Сантьяго; Молина, Рафаэль; Катсаггелос, Аггелос К. (2019). «Генеративно-состязательные сети и потери восприятия для сверхвысокого разрешения видео». Труды IEEE по обработке изображений . 28 (7). Институт инженеров по электротехнике и электронике (IEEE): 3312– 3327. arXiv : 1806.05764 . Bibcode : 2019ITIP...28.3312L. doi : 10.1109/tip.2019.2895768. ISSN 1057-7149. PMID 30714918. S2CID 73415655.
^ Янь, Бо; Линь, Чумин; Тан, Вэйминь (28.09.2019). «Суперразрешение видео в контексте кадра и объекта». arXiv : 1909.13057v1 [cs.CV].
^ Тянь, Чжицян; Ван, Юдяо; Ду, Шаои; Лань, Сюгуан (10 июля 2020 г.). Ян, Ю (ред.). «Многоуровневая генеративная состязательная сеть для сверхвысокого разрешения видео». PLOS ONE . 15 (7). Публичная научная библиотека (PLoS): e0235352. Bibcode : 2020PLoSO..1535352T. doi : 10.1371/journal.pone.0235352 . ISSN 1932-6203. PMC 7351143. PMID 32649694 .
^ Чжу, Сяобинь; Ли, Чжуанцзы; Лу, Чжунган; Шэнь, Цин (2021). «Видео сверхвысокое разрешение на основе пространственно-временной сети сопоставления». Распознавание образов . 110 : 107619. Bibcode : 2021PatRe.11007619Z. doi : 10.1016/j.patcog.2020.107619. ISSN 0031-3203. S2CID 225285804.
^ Ли, Вэньбо; Тао, Синь; Го, Тайан; Ци, Лу; Лу, Цзянбо; Цзя, Джиая (23 июля 2020 г.). «MuCAN: сеть агрегации мультикорреспонденции для видео сверхвысокого разрешения». arXiv : 2007.11803v1 [cs.CV].
^ Джо, Ёнхён; О, Сынг Вуг; Кан, Джеён; Ким, Сын Джу (2018). «Сеть сверхвысокого разрешения видео с использованием динамических фильтров повышающей дискретизации без явной компенсации движения». Конференция IEEE/CVF 2018 года по компьютерному зрению и распознаванию образов . IEEE. стр. 3224–3232 . doi :10.1109/cvpr.2018.00340. ISBN978-1-5386-6420-9.
^ Ли, Шэн; Он, Фэнсян; Ду, Бо; Чжан, Лефэй; Сюй, Юнхао; Тао, Дачэн (05 апреля 2019 г.). «Быстрая пространственно-временная остаточная сеть для сверхвысокого разрешения видео». arXiv : 1904.02870v1 [cs.CV].
^ Ким, Су Йе; Лим, Чонён; На, Тэён; Ким, Мунчхурл (2019). «Суперразрешение видео на основе 3D-CNNS с учетом изменения сцены». Международная конференция IEEE по обработке изображений (ICIP) 2019 г. стр. 2831– 2835. doi :10.1109/ICIP.2019.8803297. ISBN978-1-5386-6249-6. S2CID 202763112.
^ Ло, Цзяньпин; Хуан, Шаофэй; Юань, Юань (2020). «Видео сверхвысокое разрешение с использованием многомасштабных пирамидальных 3D сверточных сетей». Труды 28-й Международной конференции ACM по мультимедиа . стр. 1882–1890 . doi :10.1145/3394171.3413587. ISBN9781450379885. S2CID 222278621.
^ Чжан, Дуньян; Шао, Цзе; Лян, Чжэньвэнь; Лю, Сюэлян; Шэнь, Хэн Тао (2020). «Многоотраслевые сети для сверхвысокого разрешения видео с динамической стратегией реконструкции». Труды IEEE по схемам и системам для видеотехнологий . 31 (10): 3954– 3966. doi : 10.1109/TCSVT.2020.3044451. ISSN 1051-8215. S2CID 235057646.
^ Хуан, Янь; Ван, Вэй; Ван, Лян (2018). «Суперразрешение видео с помощью двунаправленных рекуррентных сверточных сетей». Труды IEEE по анализу шаблонов и машинному интеллекту . 40 (4): 1015– 1028. doi :10.1109/TPAMI.2017.2701380. ISSN 0162-8828. PMID 28489532. S2CID 136582.
^ Чжу, Сяобинь; Ли, Чжуанци; Чжан, Сяо-Ю; Ли, Чаншэн; Лю, Яци; Сюэ, Зию (2019). «Остаточная обратимая пространственно-временная сеть для сверхвысокого разрешения видео». Материалы конференции AAAI по искусственному интеллекту . 33 : 5981–5988 . doi : 10.1609/aaai.v33i01.33015981 . ISSN 2374-3468.
^ Ли, Диньи; Лю, Юй; Ван, Цзэнфу (2019). «Суперразрешение видео с использованием неодновременной полностью рекуррентной сверточной сети». Труды IEEE по обработке изображений . 28 (3): 1342– 1355. Bibcode : 2019ITIP...28.1342L. doi : 10.1109/TIP.2018.2877334. ISSN 1057-7149. PMID 30346282. S2CID 53044490.
^ Исобе, Такаши; Чжу, Фан; Цзя, Сюй; Ван, Шэнджин (13 августа 2020 г.). «Возвращаясь к временному моделированию для видео сверхвысокого разрешения». arXiv : 2008.05765v2 [eess.IV].
^ Хан, Лэй; Фань, Сьен; Ян, Йе; Цзоу, Лянь (2020). «Двунаправленные сети временного рекуррентного распространения для сверхвысокого разрешения видео». Электроника . 9 (12): 2085. doi : 10.3390/electronics9122085 . ISSN 2079-9292.
^ Фуоли, Дарио; Гу, Шухан; Тимофте, Раду (17.09.2019). «Эффективное сверхразрешение видео с помощью рекуррентного распространения в скрытом пространстве». arXiv : 1909.08080 [eess.IV].
^ Исобе, Такаши; Цзя, Сюй; Гу, Шухан; Ли, Сунцзян; Ван, Шэнджин; Тянь, Ци (02 августа 2020 г.). «Суперразрешение видео с рекуррентной сетью деталей структуры». arXiv : 2008.00455v1 [cs.CV].
^ Чжоу, Чао; Чэнь, Кан; Дин, Фэй; Чжан, Дэнъинь (2021). «Видео сверхвысокое разрешение с нелокальной сетью выравнивания». IET Image Processing . 15 (8): 1655–1667 . doi : 10.1049/ipr2.12134 . ISSN 1751-9659.
^ Yi, Peng; Wang, Zhongyuan; Jiang, Kui; Jiang, Junjun; Lu, Tao; Ma, Jiayi (2020). «Прогрессивная состязательная генеративная сеть Fusion для реалистичного и согласованного видеосверхразрешения». Труды IEEE по анализу шаблонов и машинному интеллекту . PP (5): 2264– 2280. doi : 10.1109/TPAMI.2020.3042298. ISSN 0162-8828. PMID 33270559. S2CID 227282569.
^ "Методология сравнительного анализа VSR MSU". Обработка видео . 2021-04-26 . Получено 2021-05-12 .
^ Звездакова, АВ; Куликов, ДЛ; Звездаков, СВ; Ватолин, ДС (2020). «BSQ-rate: новый подход к сравнению производительности видеокодеков и недостатки текущих решений». Программирование и программное обеспечение . 46 (3): 183– 194. doi :10.1134/S0361768820030111. S2CID 219157416.
^ «Видите лучше и дальше с Super Res Zoom на Pixel 3». Блог Google AI . 2018-10-15.