Разработчик(и) | OpenAI |
---|---|
Первоначальный выпуск | 5 января 2021 г. ( 2021-01-05 ) |
Стабильный релиз | ДАЛЛ-Э 3/10 августа 2023 г ( 2023-08-10 ) |
Тип | Модель «текст-изображение» |
Веб-сайт | labs.openai.com |
Часть серии статей о |
Искусственный интеллект (ИИ) |
---|
DALL-E , DALL-E 2 и DALL-E 3 (стилизованное DALL·E и произносимое как DOLL-E) — это модели преобразования текста в изображение, разработанные OpenAI с использованием методов глубокого обучения для генерации цифровых изображений из описаний на естественном языке, известных как подсказки .
Первая версия DALL-E была анонсирована в январе 2021 года. В следующем году был выпущен ее преемник DALL-E 2. DALL-E 3 был выпущен изначально в ChatGPT для клиентов ChatGPT Plus и ChatGPT Enterprise в октябре 2023 года [1] с доступностью через API OpenAI [2] и платформу «Labs», предоставленную в начале ноября. [3] Microsoft реализовала модель в инструменте Bing Image Creator и планирует внедрить ее в свое приложение Designer. [4]
DALL-E был представлен компанией OpenAI в сообщении в блоге 5 января 2021 года и использует версию GPT-3 [5], модифицированную для генерации изображений.
6 апреля 2022 года OpenAI анонсировала DALL-E 2, преемника, разработанного для создания более реалистичных изображений с более высоким разрешением, которые «могут объединять концепции, атрибуты и стили». [6] 20 июля 2022 года DALL-E 2 вступил в бета-фазу, и приглашения были отправлены 1 миллиону лиц, внесенных в список ожидания; [7] пользователи могли бесплатно генерировать определенное количество изображений каждый месяц и могли покупать больше. [8] Ранее доступ был ограничен предварительно выбранными пользователями для предварительного просмотра исследования из-за проблем этики и безопасности. [9] [10] 28 сентября 2022 года DALL-E 2 был открыт для всех, и требование о наличии списка ожидания было снято. [11] В сентябре 2023 года OpenAI анонсировала свою последнюю модель изображения, DALL-E 3, способную понимать «значительно больше нюансов и деталей», чем предыдущие итерации. [12] В начале ноября 2022 года OpenAI выпустила DALL-E 2 как API , что позволило разработчикам интегрировать модель в свои собственные приложения. Microsoft представила свою реализацию DALL-E 2 в своем приложении Designer и инструменте Image Creator, включенном в Bing и Microsoft Edge . [13] API работает по принципу оплаты за изображение, при этом цены варьируются в зависимости от разрешения изображения. Компаниям, работающим с корпоративной командой OpenAI, доступны скидки за объем. [14]
Название программы представляет собой комбинацию имён персонажа анимационного робота Pixar ВАЛЛ-И и каталонского художника-сюрреалиста Сальвадора Дали . [15] [5]
В феврале 2024 года OpenAI начала добавлять водяные знаки к изображениям, созданным с помощью DALL-E, содержащим метаданные в стандарте C2PA (Коалиция за происхождение и подлинность контента), продвигаемом Инициативой по подлинности контента . [16]
Первая генеративная предобученная модель трансформатора (GPT) была первоначально разработана OpenAI в 2018 году [17] с использованием архитектуры Transformer . Первая итерация, GPT-1, [18] была масштабирована для создания GPT-2 в 2019 году; [19] в 2020 году она была снова масштабирована для создания GPT-3 с 175 миллиардами параметров. [20] [5] [21]
DALL-E состоит из трех компонентов: дискретного VAE , авторегрессионного декодера Transformer (12 миллиардов параметров), аналогичного GPT-3, и пары CLIP, состоящей из кодировщика изображений и текстового кодировщика. [22]
Дискретный VAE может преобразовать изображение в последовательность токенов и наоборот, преобразовать последовательность токенов обратно в изображение. Это необходимо, поскольку Transformer не обрабатывает данные изображения напрямую. [22]
Входные данные для модели Transformer — это последовательность токенизированных подписей к изображениям, за которыми следуют токенизированные фрагменты изображений. Подпись к изображению на английском языке, токенизирована кодировкой пар байтов (размер словаря 16384) и может быть длиной до 256 токенов. Каждое изображение — это изображение RGB размером 256×256, разделенное на 32×32 фрагмента по 4×4 каждый. Затем каждый фрагмент преобразуется дискретным вариационным автокодировщиком в токен (размер словаря 8192). [22]
DALL-E была разработана и представлена публике совместно с CLIP (Contrastive Language-Image Pre-training) . [23] CLIP — это отдельная модель, основанная на контрастном обучении , которая была обучена на 400 миллионах пар изображений с текстовыми подписями, взятыми из Интернета. Ее роль заключается в «понимании и ранжировании» выходных данных DALL-E путем прогнозирования того, какая подпись из списка из 32 768 подписей, случайно выбранных из набора данных (из которых одна была правильным ответом), наиболее подходит для изображения. [24]
Обученная пара CLIP используется для фильтрации большего начального списка изображений, сгенерированного DALL-E, чтобы выбрать изображение, наиболее близкое к текстовой подсказке. [22]
DALL-E 2 использует 3,5 миллиарда параметров, что меньше, чем у его предшественника. [22] Вместо авторегрессионного Transformer, DALL-E 2 использует модель диффузии , обусловленную вложениями изображений CLIP, которые во время вывода генерируются из вложений текста CLIP предыдущей моделью. [22] Это та же архитектура, что и у Stable Diffusion , выпущенной несколькими месяцами позже.
DALL-E может генерировать изображения в различных стилях, включая фотореалистичные изображения, картины и эмодзи . [5] Он может «манипулировать и переставлять» объекты на своих изображениях, [5] и может правильно размещать элементы дизайна в новых композициях без явных инструкций. Том Данн, пишущий для BoingBoing, заметил, что «например, когда его просят нарисовать редьку дайкон, сморкающуюся, потягивающую латте или едущую на одноколесном велосипеде, DALL-E часто рисует платок, руки и ноги в правдоподобных местах». [25] DALL-E продемонстрировал способность «заполнять пробелы», чтобы вывести соответствующие детали без конкретных подсказок, таких как добавление рождественских образов к подсказкам, обычно связанным с празднованием, [26] и соответствующим образом размещенные тени к изображениям, которые не упоминают их. [27] Кроме того, DALL-E демонстрирует широкое понимание визуальных и дизайнерских тенденций. [ необходима цитата ]
DALL-E может создавать изображения для широкого спектра произвольных описаний с различных точек зрения [28] с редкими сбоями. [15] Марк Ридл, доцент Школы интерактивных вычислений Технологического института Джорджии , обнаружил, что DALL-E может смешивать концепции (описано как ключевой элемент человеческого творчества ). [29] [30]
Его способности к визуальному мышлению достаточны для решения матриц Равена (визуальные тесты, часто применяемые к людям для измерения интеллекта). [31] [32]
DALL-E 3 следует сложным подсказкам с большей точностью и детализацией, чем его предшественники, и способен генерировать более связный и точный текст. [33] [12] DALL-E 3 интегрирован в ChatGPT Plus. [12]
При наличии существующего изображения DALL-E 2 может создавать «вариации» изображения в виде отдельных выходных данных на основе оригинала, а также редактировать изображение, чтобы изменить или расширить его. «Вписывание» и «выписывание» DALL-E 2 используют контекст изображения для заполнения отсутствующих областей с помощью среды, соответствующей оригиналу, следуя заданной подсказке.
Например, это можно использовать для вставки нового объекта в изображение или расширения изображения за пределы его исходных границ. [34] Согласно OpenAI, «Outpainting учитывает существующие визуальные элементы изображения — включая тени, отражения и текстуры — для сохранения контекста исходного изображения». [35]
Понимание языка DALL-E 2 имеет ограничения. Иногда он не может отличить «Желтую книгу и красную вазу» от «Красной книги и желтой вазы» или «Панда делает латте-арт» от «Латте-арт панды». [36] Он генерирует изображения «астронавта, едущего на лошади», когда ему предъявляют подсказку «лошадь, едущая на астронавте». [37] Он также не может генерировать правильные изображения в различных обстоятельствах. Запрос более трех объектов, отрицания, чисел и связанных предложений может привести к ошибкам, а характеристики объекта могут отображаться на неправильном объекте. [28] Дополнительные ограничения включают обработку текста — который, даже с разборчивыми буквами, почти неизменно приводит к сновидной тарабарщине — и его ограниченную способность обращаться к научной информации, такой как астрономия или медицинские изображения. [38]
Зависимость DALL-E 2 от общедоступных наборов данных влияет на его результаты и в некоторых случаях приводит к алгоритмической предвзятости , например, к генерации большего количества мужчин, чем женщин для запросов, в которых не упоминается пол. [38] Обучающие данные DALL-E 2 были отфильтрованы для удаления жестоких и сексуальных изображений, но было обнаружено, что это увеличивает предвзятость в некоторых случаях, например, уменьшая частоту генерации женщин. [39] OpenAI выдвигает гипотезу, что это может быть связано с тем, что женщины с большей вероятностью подвергались сексуализации в обучающих данных, что привело к влиянию фильтра на результаты. [39] В сентябре 2022 года OpenAI подтвердила The Verge , что DALL-E незаметно вставляет фразы в подсказки пользователей, чтобы устранить предвзятость в результатах; например, «чернокожий мужчина» и «азиатская женщина» вставляются в подсказки, в которых не указан пол или раса. [40]
Проблема DALL-E 2 и подобных моделей генерации изображений заключается в том, что они могут использоваться для распространения дипфейков и других форм дезинформации. [41] [42] В попытке смягчить это программное обеспечение отклоняет подсказки, включающие публичные фигуры, и загрузки, содержащие человеческие лица. [43] Подсказки, содержащие потенциально нежелательный контент, блокируются, а загруженные изображения анализируются для обнаружения оскорбительных материалов. [44] Недостатком фильтрации на основе подсказок является то, что ее легко обойти, используя альтернативные фразы, которые приводят к аналогичному выводу. Например, слово «кровь» фильтруется, а «кетчуп» и «красная жидкость» — нет. [45] [44]
Еще одна проблема, связанная с DALL-E 2 и аналогичными моделями, заключается в том, что они могут вызвать технологическую безработицу среди художников, фотографов и графических дизайнеров из-за своей точности и популярности. [46] [47] DALL-E 3 разработан, чтобы не дать пользователям создавать произведения искусства в стиле ныне живущих художников. [12]
В 2023 году Microsoft предложила Министерству обороны США использовать модели DALL-E для обучения системы управления полем боя . [48] В январе 2024 года OpenAI сняла полный запрет на использование в военных целях и в военных целях из своих политик использования. [49]
Большая часть освещения DALL-E фокусируется на небольшом подмножестве «сюрреалистических» [23] или «причудливых» [29] результатов. Результат DALL-E для «иллюстрации молодого дайкона в пачке, выгуливающего собаку» упоминался в статьях из Input , [50] NBC , [51] Nature , [52] и других публикаций. [5] [53] [54] Его результат для «кресла в форме авокадо» также широко освещался. [23] [30]
ExtremeTech заявила: «Вы можете попросить DALL-E сделать фотографию телефона или пылесоса за определенный период времени, и он поймет, как изменились эти объекты». [26] Engadget также отметила его необычную способность «понимать, как телефоны и другие объекты меняются со временем». [27]
Согласно MIT Technology Review , одной из целей OpenAI было «дать языковым моделям лучшее понимание повседневных концепций, которые люди используют для осмысления вещей» [23] .
Инвесторы Уолл-стрит положительно восприняли DALL-E 2, и некоторые фирмы посчитали, что это может стать поворотным моментом для будущей многотриллионной индустрии. К середине 2019 года OpenAI уже получила более 1 миллиарда долларов финансирования от Microsoft и Khosla Ventures, [55] [56] [57] а в январе 2023 года, после запуска DALL-E 2 и ChatGPT, получила дополнительно 10 миллиардов долларов финансирования от Microsoft. [58]
Аниме- сообщество Японии негативно отреагировало на DALL-E 2 и подобные модели. [59] [60] [61] Художники обычно выдвигают два аргумента против программного обеспечения. Первый заключается в том, что искусство ИИ не является искусством, поскольку оно не создано человеком с намерением. «Сопоставление изображений, созданных ИИ, с их собственными работами унижает и подрывает время и мастерство, которые вложены в их искусство. Инструменты генерации изображений на основе ИИ подвергаются резкой критике со стороны художников, поскольку они обучаются на искусстве, созданном человеком, взятом из сети». [7] Вторая проблема заключается в проблемах с законом об авторском праве и данными, на которых обучаются модели преобразования текста в изображение. OpenAI не опубликовала информацию о том, какие наборы данных использовались для обучения DALL-E 2, что вызвало у некоторых опасения, что работы художников использовались для обучения без разрешения. Законы об авторском праве, касающиеся этих тем, на данный момент не являются окончательными. [8]
После интеграции DALL-E 3 в Bing Chat и ChatGPT, Microsoft и OpenAI подверглись критике за чрезмерную фильтрацию контента, при этом критики заявили, что DALL-E был «лоботомирован». [62] В качестве доказательства приводилась пометка изображений, созданных подсказками, такими как «человек ломает серверную стойку кувалдой». Сообщалось, что в течение первых дней запуска фильтрация была усилена до такой степени, что изображения, созданные некоторыми из собственных предложенных подсказок Bing, блокировались. [62] [63] TechRadar утверждал, что слишком большой наклон в сторону осторожности может ограничить ценность DALL-E как творческого инструмента. [63]
Поскольку OpenAI не выпустила исходный код ни для одной из трех моделей, было предпринято несколько попыток создать модели с открытым исходным кодом, предлагающие аналогичные возможности. [64] [65] Выпущенная в 2022 году на платформе Spaces компании Hugging Face , Craiyon (ранее DALL-E Mini, пока OpenAI не запросила смену названия в июне 2022 года) представляет собой модель ИИ, основанную на оригинальной DALL-E, которая была обучена на неотфильтрованных данных из Интернета. Она привлекла значительное внимание СМИ в середине 2022 года после своего выпуска из-за своей способности создавать юмористические образы. [66] [67] [68]