Персонализация текста в изображение

Алгоритм генерации изображения

Персонализация текста в изображение — это задача глубокого обучения для компьютерной графики , которая дополняет предварительно обученные генеративные модели преобразования текста в изображение . В этой задаче генеративная модель, обученная на больших объемах данных (обычно базовая модель ), адаптируется таким образом, чтобы она могла генерировать изображения новых, предоставленных пользователем концепций. ^[1]^[2] Эти концепции обычно не видны во время обучения и могут представлять собой конкретные объекты (например, домашнее животное пользователя) или более абстрактные категории (новый художественный стиль ^[3] или объектные отношения ^[4] ).

Методы персонализации Text-to-Image обычно связывают новую (личную) концепцию с новыми словами в словаре модели. Эти слова затем могут использоваться в будущих подсказках для вызова концепции для предметно-ориентированной генерации, ^[5] inpainting , переноса стиля ^[6] и даже для исправления предубеждений в модели. Для этого модели либо оптимизируют встраивание слов , либо настраивают саму генеративную модель, либо используют смесь обоих подходов.

Технологии

Персонализация текста в изображение была впервые предложена в августе 2022 года двумя параллельными работами: Textual Inversion ^[7] и DreamBooth ^[8] .

В обоих случаях пользователь предоставляет несколько изображений (обычно 3–5) концепции, например, собственной собаки, вместе с грубым описанием класса концепции (например, слово «собака»). Затем модель учится представлять субъект с помощью цели, основанной на реконструкции, где подсказки, ссылающиеся на субъект, должны реконструировать изображения из обучающего набора.

В текстовой инверсии персонализированные концепции вводятся в модель «текст-изображение» путем добавления новых слов в словарь модели. Типичные модели «текст-изображение» представляют слова (а иногда и части слов) как токены или индексы в предопределенном словаре. Во время генерации входная подсказка преобразуется в такие токены, каждый из которых преобразуется в «внедрение слова»: непрерывное векторное представление, которое изучается для каждого токена в рамках обучения модели. Текстовая инверсия предлагает оптимизировать новый вектор встраивания слова для представления новой концепции. Затем этот новый вектор встраивания может быть назначен выбранной пользователем строке и вызываться всякий раз, когда подсказка пользователя содержит эту строку. ^[7]

В DreamBooth вместо оптимизации нового вектора слов настраивается сама полная генеративная модель. Сначала пользователь выбирает существующий токен, обычно тот, который редко появляется в подсказках. Затем сам субъект представляется строкой, содержащей этот токен, за которым следует грубый дескриптор класса субъекта. Подсказка, описывающая субъект, затем принимает форму: «Фото <токена> <класс>» (например, «фото кота sks» при обучении представлению определенного кота). Затем модель преобразования текста в изображение настраивается таким образом, что подсказки этой формы будут генерировать изображения субъекта. ^[8]

Текстовая инверсия

Основная идея текстовой инверсии заключается в добавлении нового термина в словарь модели диффузии, который соответствует новой (персонализированной) концепции. Текстовая инверсия оптимизирует векторное встраивание этого нового термина таким образом, что использование его в качестве входного текстового приглашения будет генерировать изображения, которые похожи на заданные примеры изображений концепции. Полученная модель чрезвычайно легкая для каждой концепции: всего 1 Кб в длину, но успешно кодирует подробные визуальные свойства концепции.

Расширения

Было предложено несколько подходов для усовершенствования и улучшения исходных методов. Они включают в себя следующее.

Адаптация низкого ранга (LoRA) — метод на основе адаптера для эффективной тонкой настройки моделей. ^[9] В случае моделей «текст-изображение» LoRA обычно используется для изменения слоев перекрестного внимания модели диффузии . ^[10]
Перфузия — метод обновления низкого ранга, который также блокирует активации ключевой матрицы в перекрестных слоях внимания модели диффузии для грубого класса концепции. ^[11]
Расширенная текстовая инверсия — метод, который изучает индивидуальное вложение слов для каждого слоя в сети шумоподавления диффузионной модели. ^[12]
Методы на основе кодировщика, которые используют другую нейронную сеть для быстрой персонализации модели ^[13]^[14]

Проблемы и ограничения

Методы персонализации текста в изображение должны бороться с несколькими проблемами. В их основе лежит цель достижения высокой точности персональной концепции при сохранении высокого соответствия между новыми подсказками, содержащими тему, и сгенерированными изображениями (обычно называемыми «редактируемостью»).

Еще одна проблема, с которой приходится сталкиваться методам персонализации, — это требования к памяти. Первоначальные реализации методов персонализации требовали более 20 гигабайт памяти GPU, а более поздние подходы сообщали о требованиях более 40 гигабайт. ^[13] Однако оптимизации, такие как Flash Attention ^[15], с тех пор значительно снизили это требование.

Подходы, которые настраивают всю генеративную модель, могут также создавать контрольные точки размером в несколько гигабайт, что затрудняет совместное использование или хранение многих моделей. Подходы, основанные на встраивании, требуют всего несколько килобайт, но обычно испытывают трудности с сохранением идентичности при сохранении возможности редактирования. Более поздние подходы предложили гибридные цели настройки, которые оптимизируют как встраивание, так и подмножество сетевых весов. Они могут снизить требования к хранению до всего лишь 100 килобайт, достигая при этом качества, сопоставимого с методами полной настройки. ^[11]

Наконец, процессы оптимизации могут быть длительными, требуя нескольких минут настройки для каждой новой концепции. Методы кодирования и быстрой настройки направлены на сокращение этого времени до секунд или меньше. ^[16]

Ссылки

^ Мерфи, Брендан Пол (12.10.2022). «Создание изображений с помощью ИИ развивается с астрономической скоростью. Можем ли мы все еще определить, является ли фотография подделкой?». The Conversation . Получено 14.09.2023 .
^ "「好きなキャラに近い絵をAIが量産」――ある概念を"単語"に圧縮し入力テキストに使える技術». ITmedia NEWS (на японском языке) . Проверено 14 сентября 2023 г.
^ Байо, Энди (2022-11-01). «Инвазивная диффузия: как один невольный иллюстратор превратился в модель ИИ». Waxy.org . Получено 2023-09-14 .
^ Хуан, Цзыци; У, Тяньсин; Цзян, Юмин; Чан, Кельвин С.К.; Лю, Цивэй (2023). «ReVersion: инверсия отношений на основе диффузии из изображений». arXiv : 2303.13495 [cs.CV].
^ Младший, Эдвард Онгвесо (2022-10-14). «Люди теперь делают фейковые селфи с помощью ИИ». Vice . Получено 20-09-2023 .
^ Дэйв Джеймс (2022-12-27). «Я 8 часов подряд долбил RTX 4090, тренируя Stable Diffusion, чтобы рисовать, как мой дядя Герман». PC Gamer . Получено 20 сентября 2023 г.
^ ab Gal, Rinon; Alaluf, Yuval; Atzmon, Yuval; Patashnik, Or; Bermano, Amit Haim; Chechik, Gal; Cohen-or, Daniel (29.09.2022). «Изображение стоит одного слова: персонализация преобразования текста в изображение с помощью текстовой инверсии». arXiv : 2208.01618 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ ab Руиз, Натаниэль; Ли, Юаньчжэнь; Джампани, Варун; Притч, Яэль; Рубинштейн, Майкл; Аберман, Кфир (2023). «DreamBooth: тонкая настройка моделей диффузии текста в изображение для генерации, управляемой субъектом»: 22500–22510. arXiv : 2208.12242 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Сингх, Нихарика (2023-02-18). "HuggingFace публикует сценарии LoRA для эффективной стабильной тонкой настройки диффузии". MarkTechPost . Получено 2023-09-14 .
^ Ху, Эдвард Дж.; Шен, Йелун; Уоллис, Филипп; Аллен-Чжу, Цзэюань; Ли, Юаньчжи; Ван, Шин; Ван, Лу; Чен, Вэйчжу (06 октября 2021 г.). «LoRA: низкоранговая адаптация больших языковых моделей». arXiv : 2106.09685 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ ab Tewel, Yoad; Gal, Rinon; Chechik, Gal; Atzmon, Yuval (2023-07-23). "Key-Locked Rank One Editing for Text-to-Image Personalization". Special Interest Group on Computer Graphics and Interactive Techniques Conference Proceedings . SIGGRAPH '23. Нью-Йорк, штат Нью-Йорк, США: Association for Computing Machinery. стр. 1–11. arXiv : 2305.01644 . doi :10.1145/3588432.3591506. ISBN 979-8-4007-0159-7. S2CID 258436985.
^ Лоренци, Даниэль (22.07.2023). «Знакомьтесь, P+: богатое пространство вложений для расширенной текстовой инверсии при генерации текста в изображение». MarkTechPost . Получено 29.08.2023 .
^ ab Гал, Ринон; Арар, Моаб; Ацмон, Ювал; Бермано, Амит Х.; Чечик, Гал; Коэн-Ор, Дэниел (2023-07-26). «Настройка домена на основе кодировщика для быстрой персонализации моделей преобразования текста в изображение». ACM Transactions on Graphics . 42 (4): 150:1–150:13. arXiv : 2302.12228 . doi : 10.1145/3592133. ISSN 0730-0301. S2CID 257364757.
^ Вэй, Юйсян; Чжан, Ябо; Цзи, Чжилун; Бай, Цзиньфэн; Чжан, Лей; Цзо, Ванмэн (2023). «ELITE: кодирование визуальных концепций в текстовые встраивания для индивидуального преобразования текста в изображение». arXiv : 2302.13848 [cs.CV].
^ Дао, Три; Фу, Дэниел Ю.; Эрмон, Стефано; Рудра, Атри; Ре, Кристофер (2022). «FlashAttention: быстрое и эффективное для памяти точное внимание с IO-Awareness». arXiv : 2205.14135 [cs.LG].
^ Ши, Цзин; Сюн, Вэй; Линь, Чжэ; Юнг, Хён Джун (2023). «InstantBooth: персонализированная генерация текста в изображение без тонкой настройки во время тестирования». arXiv : 2304.03411 [cs.CV].

[1] Мерфи, Брендан Пол (12.10.2022). «Создание изображений с помощью ИИ развивается с астрономической скоростью. Можем ли мы все еще определить, является ли фотография подделкой?». The Conversation . Получено 14.09.2023 .

[2] "「好きなキャラに近い絵をAIが量産」――ある概念を"単語"に圧縮し入力テキストに使える技術». ITmedia NEWS (на японском языке) . Проверено 14 сентября 2023 г.

[3] Байо, Энди (2022-11-01). «Инвазивная диффузия: как один невольный иллюстратор превратился в модель ИИ». Waxy.org . Получено 2023-09-14 .

[4] Хуан, Цзыци; У, Тяньсин; Цзян, Юмин; Чан, Кельвин С.К.; Лю, Цивэй (2023). «ReVersion: инверсия отношений на основе диффузии из изображений». arXiv : 2303.13495 [cs.CV].

[5] Младший, Эдвард Онгвесо (2022-10-14). «Люди теперь делают фейковые селфи с помощью ИИ». Vice . Получено 20-09-2023 .

[6] Дэйв Джеймс (2022-12-27). «Я 8 часов подряд долбил RTX 4090, тренируя Stable Diffusion, чтобы рисовать, как мой дядя Герман». PC Gamer . Получено 20 сентября 2023 г.

[:0-7] Gal, Rinon; Alaluf, Yuval; Atzmon, Yuval; Patashnik, Or; Bermano, Amit Haim; Chechik, Gal; Cohen-or, Daniel (29.09.2022). «Изображение стоит одного слова: персонализация преобразования текста в изображение с помощью текстовой инверсии». arXiv : 2208.01618 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )

[:1-8] Руиз, Натаниэль; Ли, Юаньчжэнь; Джампани, Варун; Притч, Яэль; Рубинштейн, Майкл; Аберман, Кфир (2023). «DreamBooth: тонкая настройка моделей диффузии текста в изображение для генерации, управляемой субъектом»: 22500–22510. arXiv : 2208.12242 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )

[9] Сингх, Нихарика (2023-02-18). "HuggingFace публикует сценарии LoRA для эффективной стабильной тонкой настройки диффузии". MarkTechPost . Получено 2023-09-14 .

[10] Ху, Эдвард Дж.; Шен, Йелун; Уоллис, Филипп; Аллен-Чжу, Цзэюань; Ли, Юаньчжи; Ван, Шин; Ван, Лу; Чен, Вэйчжу (06 октября 2021 г.). «LoRA: низкоранговая адаптация больших языковых моделей». arXiv : 2106.09685 . {{cite journal}}: Цитировать журнал требует |journal=( помощь )

[:2-11] Tewel, Yoad; Gal, Rinon; Chechik, Gal; Atzmon, Yuval (2023-07-23). "Key-Locked Rank One Editing for Text-to-Image Personalization". Special Interest Group on Computer Graphics and Interactive Techniques Conference Proceedings . SIGGRAPH '23. Нью-Йорк, штат Нью-Йорк, США: Association for Computing Machinery. стр. 1–11. arXiv : 2305.01644 . doi :10.1145/3588432.3591506. ISBN 979-8-4007-0159-7. S2CID 258436985.

[12] Лоренци, Даниэль (22.07.2023). «Знакомьтесь, P+: богатое пространство вложений для расширенной текстовой инверсии при генерации текста в изображение». MarkTechPost . Получено 29.08.2023 .

[:3-13] Гал, Ринон; Арар, Моаб; Ацмон, Ювал; Бермано, Амит Х.; Чечик, Гал; Коэн-Ор, Дэниел (2023-07-26). «Настройка домена на основе кодировщика для быстрой персонализации моделей преобразования текста в изображение». ACM Transactions on Graphics . 42 (4): 150:1–150:13. arXiv : 2302.12228 . doi : 10.1145/3592133. ISSN 0730-0301. S2CID 257364757.

[14] Вэй, Юйсян; Чжан, Ябо; Цзи, Чжилун; Бай, Цзиньфэн; Чжан, Лей; Цзо, Ванмэн (2023). «ELITE: кодирование визуальных концепций в текстовые встраивания для индивидуального преобразования текста в изображение». arXiv : 2302.13848 [cs.CV].

[15] Дао, Три; Фу, Дэниел Ю.; Эрмон, Стефано; Рудра, Атри; Ре, Кристофер (2022). «FlashAttention: быстрое и эффективное для памяти точное внимание с IO-Awareness». arXiv : 2205.14135 [cs.LG].

[16] Ши, Цзин; Сюн, Вэй; Линь, Чжэ; Юнг, Хён Джун (2023). «InstantBooth: персонализированная генерация текста в изображение без тонкой настройки во время тестирования». arXiv : 2304.03411 [cs.CV].