DreamBooth — это модель генерации глубокого обучения , используемая для персонализации существующих моделей преобразования текста в изображение путем тонкой настройки . Она была разработана исследователями из Google Research и Бостонского университета в 2022 году. Первоначально разработанная с использованием собственной модели преобразования текста в изображение Imagen от Google , реализация DreamBooth может применяться к другим моделям преобразования текста в изображение, где она может позволить модели генерировать более точно настроенные и персонализированные результаты после обучения на трех-пяти изображениях субъекта. [1] [2] [3]
Предварительно обученные модели диффузии текста в изображение , хотя часто и способны предлагать широкий спектр различных типов выходных изображений, не обладают специфичностью, необходимой для генерации изображений менее известных предметов, и ограничены в своей способности отображать известные предметы в различных ситуациях и контекстах. [1] Методология, используемая для запуска реализаций DreamBooth, включает тонкую настройку полного компонента UNet модели диффузии с использованием нескольких изображений (обычно 3-5), изображающих определенный предмет. Изображения сочетаются с текстовыми подсказками, содержащими имя класса, к которому принадлежит предмет, плюс уникальный идентификатор. Например, a photograph of a [Nissan R34 GTR] car
, где car
является классом); применяется специфичная для класса априорная потеря сохранения, чтобы побудить модель генерировать различные экземпляры предмета на основе того, на чем модель уже обучена для исходного класса. [1] Пары изображений с низким и высоким разрешением, взятые из набора входных изображений, используются для тонкой настройки компонентов сверхвысокого разрешения , что позволяет сохранять мельчайшие детали предмета. [1]
DreamBooth можно использовать для тонкой настройки таких моделей, как Stable Diffusion , где он может устранить распространенный недостаток Stable Diffusion, заключающийся в том, что он не может адекватно генерировать изображения конкретных людей. [4] Однако такой вариант использования требует больших затрат на видеопамять и, следовательно, является неподъемным для пользователей-любителей. [4] Адаптация Stable Diffusion DreamBooth, в частности, выпускается как бесплатный проект с открытым исходным кодом, основанный на технологии, описанной в оригинальной статье, опубликованной Руисом и др. в 2022 году. [5] Высказывались опасения относительно возможности злоумышленников использовать DreamBooth для генерации вводящих в заблуждение изображений в вредоносных целях, а также относительно того, что его открытый исходный код позволяет любому использовать или даже вносить улучшения в технологию. [6] Кроме того, художники выразили свои опасения относительно этичности использования DreamBooth для обучения контрольных точек моделей, которые специально направлены на имитацию определенных стилей искусства, связанных с художниками-людьми; Одним из таких критиков является Холли Менгерт, иллюстратор Disney и Penguin Random House , чей художественный стиль был преобразован в модель контрольной точки с помощью DreamBooth и опубликован в Интернете без ее согласия. [7] [8]
米Google. Исследования.した...数枚の被写体画像とテキスト入力を使って、与えられた被写体が溶け込んだ新たな合成画像を作成すПреобразование текста в изображение.[... разработано исследовательской группой Google Research и Бостонский университет — это тематически ориентированная модель преобразования текста в изображение, которая берет несколько изображений объекта и текстовые подсказки для создания новых изображений, содержащих этот объект.]
Недавно Google выпустила Dream Booth — альтернативный, более сложный метод внедрения определенных людей, объектов или даже стилей искусства в системы ИИ для преобразования текста в изображение.
Стабильно. Diffusionは、一般に個人の写真や特定の人物を出すのが苦手だが、自分のペットや友人の写真をわずかな枚数から学習させる「Dreambooth」という技術が開発され、これも話題を呼んだ。ただし、Dreamboothでは、巨大なGPUメモリが必要になり、個人ユーザーが趣味の範囲で買えるGPUでは事実上実行不可能なのがネックとされていた。[Stable Diffusion, как правило, не подходит для создания личных фотографий или конкретных людей, однако разработка "Dreambooth" позволяет проводить обучение на небольшом количестве фотографий с вашими питомцами или друзьями, что вызывает большой ажиотаж. Однако недостатком является то, что Dreambooth требует большого объема памяти GPU, что делает его практически невозможным для запуска на GPU, которые отдельные пользователи могут себе позволить в рамках своего любительского ценового диапазона.]
Но вскоре после анонса кто-то адаптировал технику Dreambooth для работы со Stable Diffusion и выпустил код в свободном доступе как проект с открытым исходным кодом.
Например, DreamBooth можно использовать для копирования подписей или официальных вывесок для поддельных документов, создания вводящих в заблуждение фотографий или видео политиков, производства порно мести отдельных лиц и многого другого... Конкретная проблема с DreamBooth и Stable Diffusion заключается в том, что они имеют открытый исходный код, продолжил Гупта. В отличие от централизованных моделей генерации ИИ, которые могут налагать правила и барьеры на создание изображений, децентрализованные модели, такие как DreamBooth, означают, что любой может получить доступ к технологии и улучшить ее.
Иллюстратор Холли Менгерт, чьи работы использовались для обучения модели ИИ без ее согласия, публично выступила против практики обучения моделей ИИ на работах художников без разрешения.
Так, совсем недавно известная художница и иллюстратор Холли Менгерт стала своеобразным датасетом для новой нейросети (не обязательно по протоколу)... «В первую очередь мне показалось бестактным то, что мое имя фигурировало в этом инструменте. Я ничего о нем не знал и меня об этом не спрашивали. А если бы меня спросили, можно ли это сделать, я бы не согласилась».[Итак, совсем недавно художница и иллюстратор Холли Менгерт стала источником данных для новой нейронной сети (не давая ей согласия)... «Моей первой реакцией было то, что мое имя было в этом инструменте показалось мне агрессивным, я ничего об этом не знал, и меня об этом не спрашивали. Если бы меня спросили, могут ли они это сделать, я бы не сказал «да».]