Сплаттинг по Гауссу — это метод объемного рендеринга , который занимается прямым рендерингом объемных данных без преобразования данных в поверхностные или линейные примитивы . [1] Первоначально метод был представлен как сплаттинг Ли Вестовером в начале 1990-х годов. [2]
С развитием компьютерной графики были разработаны новые методы, такие как 3D Gaussian splatting и 3D Temporal Gaussian splatting, которые обеспечивают визуализацию поля свечения в реальном времени и динамическую визуализацию сцен соответственно. [3] [4]
3D Гауссово разбрызгивание
3D-разбрызгивание Гаусса — это метод, используемый в области визуализации поля свечения в реальном времени . [3] Он позволяет создавать высококачественные сцены с новым видом в реальном времени путем объединения нескольких фотографий или видео, решая существенную проблему в этой области.
Метод представляет сцены с 3D-гауссианами, которые сохраняют свойства непрерывных объемных полей яркости, интегрируя разреженные точки, полученные во время калибровки камеры. Он вводит анизотропное представление, используя 3D-гауссианы для моделирования полей яркости, вместе с чередующейся оптимизацией и контролем плотности гауссиан. Также предлагается быстрый алгоритм визуализации с учетом видимости, поддерживающий анизотропное сплэттинг, рассчитанный на использование GPU. [3]
Метод
Метод включает в себя несколько ключевых этапов:
Входные данные: набор изображений статической сцены с указанием положений камер, выраженный в виде разреженного облака точек .
3D-гауссианы: определение среднего значения, ковариационной матрицы и непрозрачности для каждой гауссианы.
Представление цвета: использование сферических гармоник для моделирования внешнего вида, зависящего от вида.
Алгоритм оптимизации: Оптимизация параметров с использованием стохастического градиентного спуска для минимизации функции потерь, объединяющей потери L1 и D-SSIM, вдохновленной работой Пленоксела. [5]
Растеризатор: реализация растеризатора на основе плиток для быстрой сортировки и обратного прохода, обеспечивающего эффективное смешивание гауссовых компонентов.
Метод использует дифференцируемый 3D-гауссов сплаттинг, который является неструктурированным и явным, что позволяет быстро выполнять рендеринг и проекцию на 2D-сплаты. Ковариацию гауссианов можно рассматривать как конфигурации эллипсоида, которые можно математически разложить на матрицу масштабирования и матрицу вращения. Градиенты для всех параметров выводятся явно, чтобы преодолеть любые накладные расходы из-за autodiff .
Оптимизация создает плотный набор 3D-гауссианов, которые представляют сцену максимально точно. Каждый шаг рендеринга сопровождается сравнением с учебными представлениями, доступными в наборе данных.
Результаты и оценка
Авторы [ кто? ] протестировали свой алгоритм на 13 реальных сценах из ранее опубликованных наборов данных и синтетического набора данных Blender. [6] Они сравнили свой метод с современными технологиями, такими как Mip-NeRF360, [7] InstantNGP, [8] и Plenoxels. [5] В качестве количественных показателей оценки использовались PSNR, L-PIPS и SSIM.
Их полностью конвергентная модель (30 000 итераций) достигает качества на уровне или немного лучше, чем Mip-NeRF360, [7] , но со значительно сокращенным временем обучения (35–45 минут против 48 часов) и более быстрым рендерингом (в реальном времени против 10 секунд на кадр). При 7 000 итерациях (5–10 минут обучения) их метод достигает качества, сопоставимого с InstantNGP [8] и Plenoxels. [5]
Для синтетических ограниченных сцен (набор данных Blender [6] ) они достигли передовых результатов даже при случайной инициализации, начиная со 100 000 равномерно случайных гауссианов.
Ограничения
Некоторые ограничения метода включают в себя:
Удлиненные артефакты или «пятнистые» гауссовы распределения в некоторых областях.
Иногда возникают всплывающие артефакты из-за больших гауссианов, созданных оптимизацией, особенно в областях, внешний вид которых зависит от вида.
Более высокое потребление памяти по сравнению с решениями на основе NeRF, хотя все еще более компактно, чем предыдущие точечные подходы.
Для очень больших сцен может потребоваться настройка гиперпараметров (например, снижение скорости обучения положению).
Пиковое потребление памяти графического процессора во время обучения может быть высоким (более 20 ГБ) в текущем неоптимизированном прототипе.
Авторы [ кто? ] отмечают, что некоторые из этих ограничений потенциально могут быть устранены с помощью будущих улучшений, таких как более совершенные подходы к отсечению, сглаживание, регуляризация и методы сжатия.
3D временное гауссовское разбрызгивание
Расширяя 3D Gaussian splatting на динамические сцены, 3D Temporal Gaussian splatting включает временной компонент, что позволяет выполнять рендеринг динамических сцен в реальном времени с высоким разрешением. [4] Он представляет и рендерит динамические сцены, моделируя сложные движения, сохраняя при этом эффективность. Метод использует HexPlane для соединения соседних гауссианов, обеспечивая точное представление деформаций положения и формы. Используя только один набор канонических 3D Gaussian и предиктивную аналитику, он моделирует, как они движутся по разным временным меткам. [9]
Иногда его называют «4D Gaussian splatting»; однако это соглашение об именовании подразумевает использование 4D Gaussian примитивов (параметризованных средним значением 4×4 и ковариационной матрицей 4×4). Большинство работ в этой области по-прежнему используют 3D Gaussian примитивы, применяя временные ограничения в качестве дополнительного параметра оптимизации.
Достижения этой техники включают рендеринг в реальном времени на динамических сценах с высоким разрешением, сохраняя при этом качество. Она демонстрирует потенциальные приложения для будущих разработок в области кино и других медиа, хотя существуют текущие ограничения относительно продолжительности захваченного движения. [9]
Приложения
3D-технология Gaussian splatting была адаптирована и распространена в различных приложениях компьютерного зрения и графики, от динамического рендеринга сцен до моделирования автономного вождения и создания 4D-контента:
Текст в 3D с использованием гауссовского сплаттинга: применяет 3D-гауссов сплаттинг к генерации текста в 3D. [10]
Сквозное автономное вождение: упоминает 3D-гауссово разбрызгивание как метод моделирования датчиков на основе данных для автономного вождения, подчеркивая его способность генерировать реалистичные новые виды сцены. [11]
SuGaR: Предлагает метод извлечения точных и быстрых сеток из 3D-гауссовского сплаттинга. [12]
SplaTAM: применяет трехмерные поля яркости на основе гауссовых распределений к одновременной локализации и картированию (SLAM), используя возможности быстрого рендеринга и оптимизации для достижения самых современных результатов. [13]
Выровняйте свои гауссианы: использует динамические 3D-гауссианы для создания 4D-контента из текста. [14]
^ Вестовер, Ли Алан (июль 1991 г.). "SPLATTING: параллельный алгоритм рендеринга объёма с прямой связью" (PDF) . Получено 18 октября 2023 г. .
^ Хуан, Цзянь (весна 2002 г.). "Splatting" (PPT) . Получено 5 августа 2011 г.
^ abc Бернхард Кербл; Георгиос Копанас; Томас Леймкюлер; Джордж Дреттакис (8 августа 2023 г.). «3D-гауссовское разбрызгивание для рендеринга поля излучения в реальном времени». arXiv : 2308.04079 [cs.GR].
^ аб Гуаньцзюнь Ву; Таоран Йи; Цземин Фан; Линси Се; Сяопэн Чжан; Вэй Вэй; Вэньюй Лю; Ци Тянь; Синган Ван (12 октября 2023 г.). «4D Gaussian Splatting для динамического рендеринга сцен в реальном времени». arXiv : 2310.08528 [cs.CV].
^ abc Фридович-Кейл, Сара; Ю, Алекс; Танчик, Мэтью; Чен, Циньхун; Рехт, Бенджамин; Каназава, Анджу (июнь 2022 г.). «Plenoxels: Radiance Fields without Neural Networks». Конференция IEEE/CVF 2022 года по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 5491–5500 . arXiv : 2112.05131 . doi : 10.1109/cvpr52688.2022.00542. ISBN978-1-6654-6946-3.
^ ab Mildenhall, Ben; Srinivasan, Pratul P.; Tancik, Matthew; Barron, Jonathan T.; Ramamoorthi, Ravi; Ng, Ren (2020), «NeRF: представление сцен в виде полей нейронного излучения для синтеза представлений», Lecture Notes in Computer Science , Cham: Springer International Publishing, стр. 405–421 , doi :10.1007/978-3-030-58452-8_24, ISBN978-3-030-58451-1, получено 2024-09-25
^ ab Barron, Jonathan T.; Mildenhall, Ben; Verbin, Dor; Srinivasan, Pratul P.; Hedman, Peter (июнь 2022 г.). «Mip-NeRF 360: Неограниченные сглаженные поля нейронного излучения». Конференция IEEE/CVF 2022 г. по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 5460–5469 . arXiv : 2111.12077 . doi : 10.1109/cvpr52688.2022.00539. ISBN978-1-6654-6946-3.
^ ab Мюллер, Томас; Эванс, Алекс; Шид, Кристоф; Келлер, Александр (июль 2022 г.). «Мгновенные нейронные графические примитивы с многоразрешающим хэш-кодированием». ACM Transactions on Graphics . 41 (4): 1– 15. arXiv : 2201.05989 . doi : 10.1145/3528223.3530127. ISSN 0730-0301.
^ ab Franzen, Carl (16 октября 2023 г.). «Худшие опасения актеров сбываются? Новый метод 3D Temporal Gaussian Splatting фиксирует движение человека». venturebeat.com . VentureBeat . Получено 18 октября 2023 г. .
^ Чэнь, Зилонг; Ван, Фэн; Ван, Икай; Лю, Хуапин (2024-06-16). «Текст-в-3D с использованием гауссовского сплаттинга». Конференция IEEE/CVF 2024 года по компьютерному зрению и распознаванию образов (CVPR) . Том abs/2211.0 1324. IEEE. стр. 21401– 21412. arXiv : 2309.16585 . doi :10.1109/cvpr52733.2024.02022. ISBN979-8-3503-5300-6.
^ Чен, Ли; У, Пэнхао; Читта, Кашьяп; Йегер, Бернхард; Гейгер, Андреас; Ли, Хунъян (2024). «Сквозное автономное вождение: вызовы и границы». Труды IEEE по анализу шаблонов и машинному интеллекту . PP (12): 10164– 10183. arXiv : 2306.16927 . doi : 10.1109/tpami.2024.3435937. ISSN 0162-8828. PMID 39078757.
^ Гедон, Антуан; Лепети, Винсент (2024-06-16). «SuGaR: поверхностно-выровненный гауссов сплаттинг для эффективной реконструкции 3D-сетки и высококачественного рендеринга сетки». Конференция IEEE/CVF 2024 года по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 5354–5363 . arXiv : 2311.12775 . doi : 10.1109/cvpr52733.2024.00512. ISBN979-8-3503-5300-6.
^ Keetha, Nikhil; Karhade, Jay; Jatavallabhula, Krishna Murthy; Yang, Gengshan; Scherer, Sebastian; Ramanan, Deva; Luiten, Jonathon (2024-06-16). "SplaTAM: Splat, Track & Map 3D Gaussians для плотного RGB-D SLAM". Конференция IEEE/CVF 2024 года по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 21357– 21366. doi :10.1109/cvpr52733.2024.02018. ISBN979-8-3503-5300-6.
^ Линг, Хуан; Ким, Сын Вук; Торральба, Антонио; Фидлер, Санджа; Крейс, Карстен (2024-06-16). «Выровняйте свои гауссианы: текст в 4D с динамическими 3D гауссианами и составными моделями диффузии». Конференция IEEE/CVF 2024 года по компьютерному зрению и распознаванию образов (CVPR) . IEEE. стр. 8576–8588 . arXiv : 2312.13763 . doi : 10.1109/cvpr52733.2024.00819. ISBN979-8-3503-5300-6.