DreamBooth

Модель генерации глубокого обучения

Демонстрация использования DreamBooth для тонкой настройки модели диффузии Stable Diffusion v1.5 с использованием данных обучения, полученных из Category:Jimmy Wales на Wikimedia Commons . Здесь представлены алгоритмически сгенерированные изображения Джимми Уэйлса , соучредителя Wikipedia, выполняющего упражнения по жиму лежа в фитнес-зале.

DreamBooth — это модель генерации глубокого обучения , используемая для персонализации существующих моделей преобразования текста в изображение путем тонкой настройки . Она была разработана исследователями из Google Research и Бостонского университета в 2022 году. Первоначально разработанная с использованием собственной модели преобразования текста в изображение Imagen от Google , реализация DreamBooth может применяться к другим моделям преобразования текста в изображение, где она может позволить модели генерировать более точно настроенные и персонализированные результаты после обучения на трех-пяти изображениях субъекта. [1] [2] [3]

Технологии

Предварительно обученные модели диффузии текста в изображение , хотя часто и способны предлагать широкий спектр различных типов выходных изображений, не обладают специфичностью, необходимой для генерации изображений менее известных предметов, и ограничены в своей способности отображать известные предметы в различных ситуациях и контекстах. [1] Методология, используемая для запуска реализаций DreamBooth, включает тонкую настройку полного компонента UNet модели диффузии с использованием нескольких изображений (обычно 3-5), изображающих определенный предмет. Изображения сочетаются с текстовыми подсказками, содержащими имя класса, к которому принадлежит предмет, плюс уникальный идентификатор. Например, a photograph of a [Nissan R34 GTR] car, где carявляется классом); применяется специфичная для класса априорная потеря сохранения, чтобы побудить модель генерировать различные экземпляры предмета на основе того, на чем модель уже обучена для исходного класса. [1] Пары изображений с низким и высоким разрешением, взятые из набора входных изображений, используются для тонкой настройки компонентов сверхвысокого разрешения , что позволяет сохранять мельчайшие детали предмета. [1]

Использование

DreamBooth можно использовать для тонкой настройки таких моделей, как Stable Diffusion , где он может устранить распространенный недостаток Stable Diffusion, заключающийся в том, что он не может адекватно генерировать изображения конкретных людей. [4] Однако такой вариант использования требует больших затрат на видеопамять и, следовательно, является неподъемным для пользователей-любителей. [4] Адаптация Stable Diffusion DreamBooth, в частности, выпускается как бесплатный проект с открытым исходным кодом, основанный на технологии, описанной в оригинальной статье, опубликованной Руисом и др. в 2022 году. [5] Высказывались опасения относительно возможности злоумышленников использовать DreamBooth для генерации вводящих в заблуждение изображений в вредоносных целях, а также относительно того, что его открытый исходный код позволяет любому использовать или даже вносить улучшения в технологию. [6] Кроме того, художники выразили свои опасения относительно этичности использования DreamBooth для обучения контрольных точек моделей, которые специально направлены на имитацию определенных стилей искусства, связанных с художниками-людьми; Одним из таких критиков является Холли Менгерт, иллюстратор Disney и Penguin Random House , чей художественный стиль был преобразован в модель контрольной точки с помощью DreamBooth и опубликован в Интернете без ее согласия. [7] [8]

Ссылки

  1. ^ abcd Руис, Натаниэль; Ли, Юаньчжэнь; Джампани, Варун; Притч, Яэль; Рубинштейн, Майкл; Аберман, Кфир (25 августа 2022 г.). «DreamBooth: тонкая настройка моделей диффузии текста в изображение для предметно-ориентированной генерации». arXiv : 2208.12242 [cs.CV].
  2. Юки Ямасита (1 сентября 2022 г.). «愛犬の合成画像を生成できるAI 文章で指示するだけでコスプレ 米Googleが開発». ITmedia Inc. (на японском языке). Архивировано из оригинала 31 августа 2022 г.米Google. Исследования.した...数枚の被写体画像とテキスト入力を使って、与えられた被写体が溶け込んだ新たな合成画像を作成すПреобразование текста в изображение. [... разработано исследовательской группой Google Research и Бостонский университет — это тематически ориентированная модель преобразования текста в изображение, которая берет несколько изображений объекта и текстовые подсказки для создания новых изображений, содержащих этот объект.]
  3. ^ Брендан Мерфи (13 октября 2022 г.). «Создание изображений с помощью ИИ развивается с астрономической скоростью. Можем ли мы все еще определить, является ли фотография подделкой?». The Conversation . Архивировано из оригинала 30 октября 2022 г. Недавно Google выпустила Dream Booth — альтернативный, более сложный метод внедрения определенных людей, объектов или даже стилей искусства в системы ИИ для преобразования текста в изображение.
  4. ↑ Аб Рё Симидзу (26 октября 2022 г.). «まさに「世界変革」──この2カ月で画像生成AIに何が起きたのか?». Yahoo! Новости Японии (на японском языке). Архивировано из оригинала 26 октября 2022 года. Стабильно. Diffusionは、一般に個人の写真や特定の人物を出すのが苦手だが、自分のペットや友人の写真をわずかな枚数から学習させる「Dreambooth」という技術が開発され、これも話題を呼んだ。ただし、Dreamboothでは、巨大なGPUメモリが必要になり、個人ユーザーが趣味の範囲で買えるGPUでは事実上実行不可能なのがネックとされていた。 [Stable Diffusion, как правило, не подходит для создания личных фотографий или конкретных людей, однако разработка "Dreambooth" позволяет проводить обучение на небольшом количестве фотографий с вашими питомцами или друзьями, что вызывает большой ажиотаж. Однако недостатком является то, что Dreambooth требует большого объема памяти GPU, что делает его практически невозможным для запуска на GPU, которые отдельные пользователи могут себе позволить в рамках своего любительского ценового диапазона.]
  5. ^ Бендж Эдвардс (9 декабря 2022 г.). «Технология генерации изображений на основе ИИ теперь может с легкостью создавать разрушительные дипфейки». Ars Technica . Архивировано из оригинала 12 декабря 2022 г. Но вскоре после анонса кто-то адаптировал технику Dreambooth для работы со Stable Diffusion и выпустил код в свободном доступе как проект с открытым исходным кодом.
  6. ^ Кевин Цзян (1 декабря 2022 г.). «Эти изображения ИИ выглядят точь-в-точь как я. Что это значит для будущего дипфейков?». Toronto Star . Архивировано из оригинала 8 декабря 2022 г. Например, DreamBooth можно использовать для копирования подписей или официальных вывесок для поддельных документов, создания вводящих в заблуждение фотографий или видео политиков, производства порно мести отдельных лиц и многого другого... Конкретная проблема с DreamBooth и Stable Diffusion заключается в том, что они имеют открытый исходный код, продолжил Гупта. В отличие от централизованных моделей генерации ИИ, которые могут налагать правила и барьеры на создание изображений, децентрализованные модели, такие как DreamBooth, означают, что любой может получить доступ к технологии и улучшить ее.
  7. ^ Изабель Бервик; София Смит (14 декабря 2022 г.). «Заменит ли ИИ работников-людей?» . Financial Times . Иллюстратор Холли Менгерт, чьи работы использовались для обучения модели ИИ без ее согласия, публично выступила против практики обучения моделей ИИ на работах художников без разрешения.
  8. ^ «Генеративные нейросети и этика: Появилась модель, копирующая стиль конкретного художника». ДТФ (на русском языке). 9 ноября 2022 года. Архивировано из оригинала 9 ноября 2022 года. Так, совсем недавно известная художница и иллюстратор Холли Менгерт стала своеобразным датасетом для новой нейросети (не обязательно по протоколу)... «В первую очередь мне показалось бестактным то, что мое имя фигурировало в этом инструменте. Я ничего о нем не знал и меня об этом не спрашивали. А если бы меня спросили, можно ли это сделать, я бы не согласилась». [Итак, совсем недавно художница и иллюстратор Холли Менгерт стала источником данных для новой нейронной сети (не давая ей согласия)... «Моей первой реакцией было то, что мое имя было в этом инструменте показалось мне агрессивным, я ничего об этом не знал, и меня об этом не спрашивали. Если бы меня спросили, могут ли они это сделать, я бы не сказал «да».]
Взято с "https://en.wikipedia.org/w/index.php?title=DreamBooth&oldid=1262616890"