Персонализация текста в изображение

Алгоритм генерации изображения

Персонализация текста в изображение — это задача глубокого обучения для компьютерной графики , которая дополняет предварительно обученные генеративные модели преобразования текста в изображение . В этой задаче генеративная модель, обученная на больших объемах данных (обычно базовая модель ), адаптируется таким образом, чтобы она могла генерировать изображения новых, предоставленных пользователем концепций. [1] [2] Эти концепции обычно не видны во время обучения и могут представлять собой конкретные объекты (например, домашнее животное пользователя) или более абстрактные категории (новый художественный стиль [3] или объектные отношения [4] ).

Методы персонализации Text-to-Image обычно связывают новую (личную) концепцию с новыми словами в словаре модели. Эти слова затем могут использоваться в будущих подсказках для вызова концепции для предметно-ориентированной генерации, [5] inpainting , переноса стиля [6] и даже для исправления предубеждений в модели. Для этого модели либо оптимизируют встраивание слов , либо настраивают саму генеративную модель, либо используют смесь обоих подходов.

Технологии

Персонализация текста в изображение была впервые предложена в августе 2022 года двумя параллельными работами: Textual Inversion [7] и DreamBooth [8] .

В обоих случаях пользователь предоставляет несколько изображений (обычно 3–5) концепции, например, собственной собаки, вместе с грубым описанием класса концепции (например, слово «собака»). Затем модель учится представлять субъект с помощью цели, основанной на реконструкции, где подсказки, ссылающиеся на субъект, должны реконструировать изображения из обучающего набора.

В текстовой инверсии персонализированные концепции вводятся в модель «текст-изображение» путем добавления новых слов в словарь модели. Типичные модели «текст-изображение» представляют слова (а иногда и части слов) как токены или индексы в предопределенном словаре. Во время генерации входная подсказка преобразуется в такие токены, каждый из которых преобразуется в «внедрение слова»: непрерывное векторное представление, которое изучается для каждого токена в рамках обучения модели. Текстовая инверсия предлагает оптимизировать новый вектор встраивания слова для представления новой концепции. Затем этот новый вектор встраивания может быть назначен выбранной пользователем строке и вызываться всякий раз, когда подсказка пользователя содержит эту строку. [7]

В DreamBooth вместо оптимизации нового вектора слов настраивается сама полная генеративная модель. Сначала пользователь выбирает существующий токен, обычно тот, который редко появляется в подсказках. Затем сам субъект представляется строкой, содержащей этот токен, за которым следует грубый дескриптор класса субъекта. Подсказка, описывающая субъект, затем принимает форму: «Фото <токена> <класс>» (например, «фото кота sks» при обучении представлению определенного кота). Затем модель преобразования текста в изображение настраивается таким образом, что подсказки этой формы будут генерировать изображения субъекта. [8]

Текстовая инверсия

Основная идея текстовой инверсии заключается в добавлении нового термина в словарь модели диффузии, который соответствует новой (персонализированной) концепции. Текстовая инверсия оптимизирует векторное встраивание этого нового термина таким образом, что использование его в качестве входного текстового приглашения будет генерировать изображения, которые похожи на заданные примеры изображений концепции. Полученная модель чрезвычайно легкая для каждой концепции: всего 1 Кб в длину, но успешно кодирует подробные визуальные свойства концепции.

Расширения

Было предложено несколько подходов для усовершенствования и улучшения исходных методов. Они включают в себя следующее.

  1. Адаптация низкого ранга (LoRA) — метод на основе адаптера для эффективной тонкой настройки моделей. [9] В случае моделей «текст-изображение» LoRA обычно используется для изменения слоев перекрестного внимания модели диффузии . [10]
  2. Перфузия — метод обновления низкого ранга, который также блокирует активации ключевой матрицы в перекрестных слоях внимания модели диффузии для грубого класса концепции. [11]
  3. Расширенная текстовая инверсия — метод, который изучает индивидуальное вложение слов для каждого слоя в сети шумоподавления диффузионной модели. [12]
  4. Методы на основе кодировщика, которые используют другую нейронную сеть для быстрой персонализации модели [13] [14]

Проблемы и ограничения

Методы персонализации текста в изображение должны бороться с несколькими проблемами. В их основе лежит цель достижения высокой точности персональной концепции при сохранении высокого соответствия между новыми подсказками, содержащими тему, и сгенерированными изображениями (обычно называемыми «редактируемостью»).

Еще одна проблема, с которой приходится сталкиваться методам персонализации, — это требования к памяти. Первоначальные реализации методов персонализации требовали более 20 гигабайт памяти GPU, а более поздние подходы сообщали о требованиях более 40 гигабайт. [13] Однако оптимизации, такие как Flash Attention [15], с тех пор значительно снизили это требование.

Подходы, которые настраивают всю генеративную модель, могут также создавать контрольные точки размером в несколько гигабайт, что затрудняет совместное использование или хранение многих моделей. Подходы, основанные на встраивании, требуют всего несколько килобайт, но обычно испытывают трудности с сохранением идентичности при сохранении возможности редактирования. Более поздние подходы предложили гибридные цели настройки, которые оптимизируют как встраивание, так и подмножество сетевых весов. Они могут снизить требования к хранению до всего лишь 100 килобайт, достигая при этом качества, сопоставимого с методами полной настройки. [11]

Наконец, процессы оптимизации могут быть длительными, требуя нескольких минут настройки для каждой новой концепции. Методы кодирования и быстрой настройки направлены на сокращение этого времени до секунд или меньше. [16]

Ссылки

  1. ^ Мерфи, Брендан Пол (12.10.2022). «Создание изображений с помощью ИИ развивается с астрономической скоростью. Можем ли мы все еще определить, является ли фотография подделкой?». The Conversation . Получено 14.09.2023 .
  2. ^ "「好きなキャラに近い絵をAIが量産」――ある概念を"単語"に圧縮し入力テキストに使える技術». ITmedia NEWS (на японском языке) . Проверено 14 сентября 2023 г.
  3. ^ Байо, Энди (2022-11-01). «Инвазивная диффузия: как один невольный иллюстратор превратился в модель ИИ». Waxy.org . Получено 2023-09-14 .
  4. ^ Хуан, Цзыци; У, Тяньсин; Цзян, Юмин; Чан, Кельвин С.К.; Лю, Цивэй (2023). «ReVersion: инверсия отношений на основе диффузии из изображений». arXiv : 2303.13495 [cs.CV].
  5. ^ Младший, Эдвард Онгвесо (2022-10-14). «Люди теперь делают фейковые селфи с помощью ИИ». Vice . Получено 20-09-2023 .
  6. ^ Дэйв Джеймс (2022-12-27). «Я 8 часов подряд долбил RTX 4090, тренируя Stable Diffusion, чтобы рисовать, как мой дядя Герман». PC Gamer . Получено 20 сентября 2023 г.
  7. ^ ab Gal, Rinon; Alaluf, Yuval; Atzmon, Yuval; Patashnik, Or; Bermano, Amit Haim; Chechik, Gal; Cohen-or, Daniel (29.09.2022). «Изображение стоит одного слова: персонализация преобразования текста в изображение с помощью текстовой инверсии». arXiv : 2208.01618 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  8. ^ ab Руиз, Натаниэль; Ли, Юаньчжэнь; Джампани, Варун; Притч, Яэль; Рубинштейн, Майкл; Аберман, Кфир (2023). «DreamBooth: тонкая настройка моделей диффузии текста в изображение для генерации, управляемой субъектом»: 22500–22510. arXiv : 2208.12242 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  9. ^ Сингх, Нихарика (2023-02-18). "HuggingFace публикует сценарии LoRA для эффективной стабильной тонкой настройки диффузии". MarkTechPost . Получено 2023-09-14 .
  10. ^ Ху, Эдвард Дж.; Шен, Йелун; Уоллис, Филипп; Аллен-Чжу, Цзэюань; Ли, Юаньчжи; Ван, Шин; Ван, Лу; Чен, Вэйчжу (06 октября 2021 г.). «LoRA: низкоранговая адаптация больших языковых моделей». arXiv : 2106.09685 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  11. ^ ab Tewel, Yoad; Gal, Rinon; Chechik, Gal; Atzmon, Yuval (2023-07-23). ​​"Key-Locked Rank One Editing for Text-to-Image Personalization". Special Interest Group on Computer Graphics and Interactive Techniques Conference Proceedings . SIGGRAPH '23. Нью-Йорк, штат Нью-Йорк, США: Association for Computing Machinery. стр. 1–11. arXiv : 2305.01644 . doi :10.1145/3588432.3591506. ISBN 979-8-4007-0159-7. S2CID  258436985.
  12. ^ Лоренци, Даниэль (22.07.2023). «Знакомьтесь, P+: богатое пространство вложений для расширенной текстовой инверсии при генерации текста в изображение». MarkTechPost . Получено 29.08.2023 .
  13. ^ ab Гал, Ринон; Арар, Моаб; Ацмон, Ювал; Бермано, Амит Х.; Чечик, Гал; Коэн-Ор, Дэниел (2023-07-26). «Настройка домена на основе кодировщика для быстрой персонализации моделей преобразования текста в изображение». ACM Transactions on Graphics . 42 (4): 150:1–150:13. arXiv : 2302.12228 . doi : 10.1145/3592133. ISSN  0730-0301. S2CID  257364757.
  14. ^ Вэй, Юйсян; Чжан, Ябо; Цзи, Чжилун; Бай, Цзиньфэн; Чжан, Лей; Цзо, Ванмэн (2023). «ELITE: кодирование визуальных концепций в текстовые встраивания для индивидуального преобразования текста в изображение». arXiv : 2302.13848 [cs.CV].
  15. ^ Дао, Три; Фу, Дэниел Ю.; Эрмон, Стефано; Рудра, Атри; Ре, Кристофер (2022). «FlashAttention: быстрое и эффективное для памяти точное внимание с IO-Awareness». arXiv : 2205.14135 [cs.LG].
  16. ^ Ши, Цзин; Сюн, Вэй; Линь, Чжэ; Юнг, Хён Джун (2023). «InstantBooth: персонализированная генерация текста в изображение без тонкой настройки во время тестирования». arXiv : 2304.03411 [cs.CV].
Получено с "https://en.wikipedia.org/w/index.php?title=Персонализация_текста-в-изображение&oldid=1231086545"