ДАЛЛ-И

ДАЛЛ-И
	Водяной знак присутствует на изображениях DALL-E
	Изображение, сгенерированное DALL-E 2, из подсказкиTeddy bears working on new AI research underwater with 1990s technology
Разработчик(и)	OpenAI
Первоначальный выпуск	5 января 2021 г. ; 4 года назад ( 2021-01-05 )
Стабильный релиз	ДАЛЛ-Э 3/10 августа 2023 г .; 17 месяцев назад ( 2023-08-10 )
Тип	Модель «текст-изображение»
Веб-сайт	labs.openai.com

Модель глубокого обучения, генерирующая изображения

DALL-E , DALL-E 2 и DALL-E 3 (стилизованное DALL·E и произносимое как DOLL-E) — это модели преобразования текста в изображение, разработанные OpenAI с использованием методов глубокого обучения для генерации цифровых изображений из описаний на естественном языке, известных как подсказки .

Первая версия DALL-E была анонсирована в январе 2021 года. В следующем году был выпущен ее преемник DALL-E 2. DALL-E 3 был выпущен изначально в ChatGPT для клиентов ChatGPT Plus и ChatGPT Enterprise в октябре 2023 года ^[1] с доступностью через API OpenAI ^[2] и платформу «Labs», предоставленную в начале ноября. ^[3] Microsoft реализовала модель в инструменте Bing Image Creator и планирует внедрить ее в свое приложение Designer. ^[4]

История и предыстория

DALL-E был представлен компанией OpenAI в сообщении в блоге 5 января 2021 года и использует версию GPT-3 ^[5], модифицированную для генерации изображений.

6 апреля 2022 года OpenAI анонсировала DALL-E 2, преемника, разработанного для создания более реалистичных изображений с более высоким разрешением, которые «могут объединять концепции, атрибуты и стили». ^[6] 20 июля 2022 года DALL-E 2 вступил в бета-фазу, и приглашения были отправлены 1 миллиону лиц, внесенных в список ожидания; ^[7] пользователи могли бесплатно генерировать определенное количество изображений каждый месяц и могли покупать больше. ^[8] Ранее доступ был ограничен предварительно выбранными пользователями для предварительного просмотра исследования из-за проблем этики и безопасности. ^[9]^[10] 28 сентября 2022 года DALL-E 2 был открыт для всех, и требование о наличии списка ожидания было снято. ^[11] В сентябре 2023 года OpenAI анонсировала свою последнюю модель изображения, DALL-E 3, способную понимать «значительно больше нюансов и деталей», чем предыдущие итерации. ^[12] В начале ноября 2022 года OpenAI выпустила DALL-E 2 как API , что позволило разработчикам интегрировать модель в свои собственные приложения. Microsoft представила свою реализацию DALL-E 2 в своем приложении Designer и инструменте Image Creator, включенном в Bing и Microsoft Edge . ^[13] API работает по принципу оплаты за изображение, при этом цены варьируются в зависимости от разрешения изображения. Компаниям, работающим с корпоративной командой OpenAI, доступны скидки за объем. ^[14]

Название программы представляет собой комбинацию имён персонажа анимационного робота Pixar ВАЛЛ-И и каталонского художника-сюрреалиста Сальвадора Дали . ^[15]^[5]

В феврале 2024 года OpenAI начала добавлять водяные знаки к изображениям, созданным с помощью DALL-E, содержащим метаданные в стандарте C2PA (Коалиция за происхождение и подлинность контента), продвигаемом Инициативой по подлинности контента . ^[16]

Технологии

Первая генеративная предобученная модель трансформатора (GPT) была первоначально разработана OpenAI в 2018 году ^[17] с использованием архитектуры Transformer . Первая итерация, GPT-1, ^[18] была масштабирована для создания GPT-2 в 2019 году; ^[19] в 2020 году она была снова масштабирована для создания GPT-3 с 175 миллиардами параметров. ^[20]^[5]^[21]

ДАЛЛ-И

DALL-E состоит из трех компонентов: дискретного VAE , авторегрессионного декодера Transformer (12 миллиардов параметров), аналогичного GPT-3, и пары CLIP, состоящей из кодировщика изображений и текстового кодировщика. ^[22]

Дискретный VAE может преобразовать изображение в последовательность токенов и наоборот, преобразовать последовательность токенов обратно в изображение. Это необходимо, поскольку Transformer не обрабатывает данные изображения напрямую. ^[22]

Входные данные для модели Transformer — это последовательность токенизированных подписей к изображениям, за которыми следуют токенизированные фрагменты изображений. Подпись к изображению на английском языке, токенизирована кодировкой пар байтов (размер словаря 16384) и может быть длиной до 256 токенов. Каждое изображение — это изображение RGB размером 256×256, разделенное на 32×32 фрагмента по 4×4 каждый. Затем каждый фрагмент преобразуется дискретным вариационным автокодировщиком в токен (размер словаря 8192). ^[22]

DALL-E была разработана и представлена публике совместно с CLIP (Contrastive Language-Image Pre-training) . ^[23] CLIP — это отдельная модель, основанная на контрастном обучении , которая была обучена на 400 миллионах пар изображений с текстовыми подписями, взятыми из Интернета. Ее роль заключается в «понимании и ранжировании» выходных данных DALL-E путем прогнозирования того, какая подпись из списка из 32 768 подписей, случайно выбранных из набора данных (из которых одна была правильным ответом), наиболее подходит для изображения. ^[24]

Обученная пара CLIP используется для фильтрации большего начального списка изображений, сгенерированного DALL-E, чтобы выбрать изображение, наиболее близкое к текстовой подсказке. ^[22]

ДАЛЛ-И 2

DALL-E 2 использует 3,5 миллиарда параметров, что меньше, чем у его предшественника. ^[22] Вместо авторегрессионного Transformer, DALL-E 2 использует модель диффузии , обусловленную вложениями изображений CLIP, которые во время вывода генерируются из вложений текста CLIP предыдущей моделью. ^[22] Это та же архитектура, что и у Stable Diffusion , выпущенной несколькими месяцами позже.

Возможности

DALL-E может генерировать изображения в различных стилях, включая фотореалистичные изображения, картины и эмодзи . ^[5] Он может «манипулировать и переставлять» объекты на своих изображениях, ^[5] и может правильно размещать элементы дизайна в новых композициях без явных инструкций. Том Данн, пишущий для BoingBoing, заметил, что «например, когда его просят нарисовать редьку дайкон, сморкающуюся, потягивающую латте или едущую на одноколесном велосипеде, DALL-E часто рисует платок, руки и ноги в правдоподобных местах». ^[25] DALL-E продемонстрировал способность «заполнять пробелы», чтобы вывести соответствующие детали без конкретных подсказок, таких как добавление рождественских образов к подсказкам, обычно связанным с празднованием, ^[26] и соответствующим образом размещенные тени к изображениям, которые не упоминают их. ^[27] Кроме того, DALL-E демонстрирует широкое понимание визуальных и дизайнерских тенденций. ^{[ необходима цитата ]}

DALL-E может создавать изображения для широкого спектра произвольных описаний с различных точек зрения ^[28] с редкими сбоями. ^[15] Марк Ридл, доцент Школы интерактивных вычислений Технологического института Джорджии , обнаружил, что DALL-E может смешивать концепции (описано как ключевой элемент человеческого творчества ). ^[29]^[30]

Его способности к визуальному мышлению достаточны для решения матриц Равена (визуальные тесты, часто применяемые к людям для измерения интеллекта). ^[31]^[32]

DALL-E 3 следует сложным подсказкам с большей точностью и детализацией, чем его предшественники, и способен генерировать более связный и точный текст. ^[33]^[12] DALL-E 3 интегрирован в ChatGPT Plus. ^[12]

Модификация изображения

Две «вариации» « Девушки с жемчужной сережкой», созданные с помощью DALL-E 2

При наличии существующего изображения DALL-E 2 может создавать «вариации» изображения в виде отдельных выходных данных на основе оригинала, а также редактировать изображение, чтобы изменить или расширить его. «Вписывание» и «выписывание» DALL-E 2 используют контекст изображения для заполнения отсутствующих областей с помощью среды, соответствующей оригиналу, следуя заданной подсказке.

Например, это можно использовать для вставки нового объекта в изображение или расширения изображения за пределы его исходных границ. ^[34] Согласно OpenAI, «Outpainting учитывает существующие визуальные элементы изображения — включая тени, отражения и текстуры — для сохранения контекста исходного изображения». ^[35]

Технические ограничения

Понимание языка DALL-E 2 имеет ограничения. Иногда он не может отличить «Желтую книгу и красную вазу» от «Красной книги и желтой вазы» или «Панда делает латте-арт» от «Латте-арт панды». ^[36] Он генерирует изображения «астронавта, едущего на лошади», когда ему предъявляют подсказку «лошадь, едущая на астронавте». ^[37] Он также не может генерировать правильные изображения в различных обстоятельствах. Запрос более трех объектов, отрицания, чисел и связанных предложений может привести к ошибкам, а характеристики объекта могут отображаться на неправильном объекте. ^[28] Дополнительные ограничения включают обработку текста — который, даже с разборчивыми буквами, почти неизменно приводит к сновидной тарабарщине — и его ограниченную способность обращаться к научной информации, такой как астрономия или медицинские изображения. ^[38]

Этические проблемы

Зависимость DALL-E 2 от общедоступных наборов данных влияет на его результаты и в некоторых случаях приводит к алгоритмической предвзятости , например, к генерации большего количества мужчин, чем женщин для запросов, в которых не упоминается пол. ^[38] Обучающие данные DALL-E 2 были отфильтрованы для удаления жестоких и сексуальных изображений, но было обнаружено, что это увеличивает предвзятость в некоторых случаях, например, уменьшая частоту генерации женщин. ^[39] OpenAI выдвигает гипотезу, что это может быть связано с тем, что женщины с большей вероятностью подвергались сексуализации в обучающих данных, что привело к влиянию фильтра на результаты. ^[39] В сентябре 2022 года OpenAI подтвердила The Verge , что DALL-E незаметно вставляет фразы в подсказки пользователей, чтобы устранить предвзятость в результатах; например, «чернокожий мужчина» и «азиатская женщина» вставляются в подсказки, в которых не указан пол или раса. ^[40]

Проблема DALL-E 2 и подобных моделей генерации изображений заключается в том, что они могут использоваться для распространения дипфейков и других форм дезинформации. ^[41]^[42] В попытке смягчить это программное обеспечение отклоняет подсказки, включающие публичные фигуры, и загрузки, содержащие человеческие лица. ^[43] Подсказки, содержащие потенциально нежелательный контент, блокируются, а загруженные изображения анализируются для обнаружения оскорбительных материалов. ^[44] Недостатком фильтрации на основе подсказок является то, что ее легко обойти, используя альтернативные фразы, которые приводят к аналогичному выводу. Например, слово «кровь» фильтруется, а «кетчуп» и «красная жидкость» — нет. ^[45]^[44]

Еще одна проблема, связанная с DALL-E 2 и аналогичными моделями, заключается в том, что они могут вызвать технологическую безработицу среди художников, фотографов и графических дизайнеров из-за своей точности и популярности. ^[46]^[47] DALL-E 3 разработан, чтобы не дать пользователям создавать произведения искусства в стиле ныне живущих художников. ^[12]

В 2023 году Microsoft предложила Министерству обороны США использовать модели DALL-E для обучения системы управления полем боя . ^[48] В январе 2024 года OpenAI сняла полный запрет на использование в военных целях и в военных целях из своих политик использования. ^[49]

Прием

Большая часть освещения DALL-E фокусируется на небольшом подмножестве «сюрреалистических» ^[23] или «причудливых» ^[29] результатов. Результат DALL-E для «иллюстрации молодого дайкона в пачке, выгуливающего собаку» упоминался в статьях из Input , ^[50] NBC , ^[51] Nature , ^[52] и других публикаций. ^[5]^[53]^[54] Его результат для «кресла в форме авокадо» также широко освещался. ^[23]^[30]

ExtremeTech заявила: «Вы можете попросить DALL-E сделать фотографию телефона или пылесоса за определенный период времени, и он поймет, как изменились эти объекты».^[26] Engadget также отметила его необычную способность «понимать, как телефоны и другие объекты меняются со временем».^[27]

Согласно MIT Technology Review , одной из целей OpenAI было «дать языковым моделям лучшее понимание повседневных концепций, которые люди используют для осмысления вещей» ^{[23] .}

Инвесторы Уолл-стрит положительно восприняли DALL-E 2, и некоторые фирмы посчитали, что это может стать поворотным моментом для будущей многотриллионной индустрии. К середине 2019 года OpenAI уже получила более 1 миллиарда долларов финансирования от Microsoft и Khosla Ventures, ^[55]^[56]^[57] а в январе 2023 года, после запуска DALL-E 2 и ChatGPT, получила дополнительно 10 миллиардов долларов финансирования от Microsoft. ^[58]

Аниме- сообщество Японии негативно отреагировало на DALL-E 2 и подобные модели. ^[59]^[60]^[61] Художники обычно выдвигают два аргумента против программного обеспечения. Первый заключается в том, что искусство ИИ не является искусством, поскольку оно не создано человеком с намерением. «Сопоставление изображений, созданных ИИ, с их собственными работами унижает и подрывает время и мастерство, которые вложены в их искусство. Инструменты генерации изображений на основе ИИ подвергаются резкой критике со стороны художников, поскольку они обучаются на искусстве, созданном человеком, взятом из сети». ^[7] Вторая проблема заключается в проблемах с законом об авторском праве и данными, на которых обучаются модели преобразования текста в изображение. OpenAI не опубликовала информацию о том, какие наборы данных использовались для обучения DALL-E 2, что вызвало у некоторых опасения, что работы художников использовались для обучения без разрешения. Законы об авторском праве, касающиеся этих тем, на данный момент не являются окончательными. ^[8]

После интеграции DALL-E 3 в Bing Chat и ChatGPT, Microsoft и OpenAI подверглись критике за чрезмерную фильтрацию контента, при этом критики заявили, что DALL-E был «лоботомирован». ^[62] В качестве доказательства приводилась пометка изображений, созданных подсказками, такими как «человек ломает серверную стойку кувалдой». Сообщалось, что в течение первых дней запуска фильтрация была усилена до такой степени, что изображения, созданные некоторыми из собственных предложенных подсказок Bing, блокировались. ^[62]^[63] TechRadar утверждал, что слишком большой наклон в сторону осторожности может ограничить ценность DALL-E как творческого инструмента. ^[63]

Реализации с открытым исходным кодом

Поскольку OpenAI не выпустила исходный код ни для одной из трех моделей, было предпринято несколько попыток создать модели с открытым исходным кодом, предлагающие аналогичные возможности. ^[64]^[65] Выпущенная в 2022 году на платформе Spaces компании Hugging Face , Craiyon (ранее DALL-E Mini, пока OpenAI не запросила смену названия в июне 2022 года) представляет собой модель ИИ, основанную на оригинальной DALL-E, которая была обучена на неотфильтрованных данных из Интернета. Она привлекла значительное внимание СМИ в середине 2022 года после своего выпуска из-за своей способности создавать юмористические образы. ^[66]^[67]^[68]

Смотрите также

Ссылки

^ Дэвид, Эмилия (20 сентября 2023 г.). «OpenAI выпускает третью версию DALL-E». The Verge . Архивировано из оригинала 20 сентября 2023 г. . Получено 21 сентября 2023 г. .
^ "OpenAI Platform". platform.openai.com . Архивировано из оригинала 20 марта 2023 г. Получено 10 ноября 2023 г.
^ Niles, Raymond (10 ноября 2023 г.) [Обновлено на этой неделе]. "DALL-E 3 API". Справочный центр OpenAI . Архивировано из оригинала 10 ноября 2023 г. Получено 10 ноября 2023 г.
^ Мехди, Юсуф (21 сентября 2023 г.). «Представляем Microsoft Copilot, вашего повседневного спутника ИИ». Официальный блог Microsoft . Архивировано из оригинала 21 сентября 2023 г. Получено 21 сентября 2023 г.
^ abcdef Джонсон, Хари (5 января 2021 г.). «OpenAI дебютирует с DALL-E для генерации изображений из текста». VentureBeat. Архивировано из оригинала 5 января 2021 г. . Получено 5 января 2021 г. .
^ "DALL·E 2". OpenAI . Архивировано из оригинала 6 апреля 2022 г. Получено 6 июля 2022 г.
^ ab "DALL·E теперь доступен в бета-версии". OpenAI . 20 июля 2022 г. Архивировано из оригинала 20 июля 2022 г. Получено 20 июля 2022 г.
^ ab Allyn, Bobby (20 июля 2022 г.). «Сюрреалистично или слишком реально? Захватывающий инструмент искусственного интеллекта DALL-E выводит свои изображения на более широкую сцену». NPR . Архивировано из оригинала 20 июля 2022 г. Получено 20 июля 2022 г.
^ "DALL·E Waitlist". labs.openai.com . Архивировано из оригинала 4 июля 2022 г. . Получено 6 июля 2022 г. .
^ «От Trump Nevermind babies до deep fakes: DALL-E и этика искусства ИИ». The Guardian . 18 июня 2022 г. Архивировано из оригинала 6 июля 2022 г. Получено 6 июля 2022 г.
^ "DALL·E теперь доступен без списка ожидания". OpenAI . 28 сентября 2022 г. Архивировано из оригинала 4 октября 2022 г. Получено 5 октября 2022 г.
^ abcd "DALL·E 3". OpenAI . Архивировано из оригинала 20 сентября 2023 г. Получено 21 сентября 2023 г.
^ "DALL·E API теперь доступен в публичной бета-версии". OpenAI . 3 ноября 2022 г. Архивировано из оригинала 19 ноября 2022 г. Получено 19 ноября 2022 г.
^ Wiggers, Kyle (3 ноября 2022 г.). «Теперь любой может создавать приложения, использующие DALL-E 2 для генерации изображений». TechCrunch . Архивировано из оригинала 19 ноября 2022 г. . Получено 19 ноября 2022 г. .
^ ab Coldewey, Devin (5 января 2021 г.). «DALL-E от OpenAI создает правдоподобные изображения буквально всего, о чем вы его попросите». Архивировано из оригинала 6 января 2021 г. Получено 5 января 2021 г.
^ Growcoot, Matt (8 февраля 2024 г.). «ИИ-изображения, созданные на DALL-E, теперь содержат тег подлинности контента». PetaPixel . Получено 4 апреля 2024 г.
^ Рэдфорд, Алек; Нарасимхан, Картик; Салиманс, Тим; Суцкевер, Илья (11 июня 2018 г.). «Улучшение понимания языка с помощью генеративного предварительного обучения» (PDF) . OpenAI . стр. 12. Архивировано (PDF) из оригинала 26 января 2021 г. . Получено 23 января 2021 г. .
^ "GPT-1 to GPT-4: Каждая из моделей GPT OpenAI объяснена и сравнена". 11 апреля 2023 г. Архивировано из оригинала 15 апреля 2023 г. Получено 29 апреля 2023 г.
^ Рэдфорд, Алек; Ву, Джеффри; Чайлд, Ревон; и др. (14 февраля 2019 г.). «Языковые модели — это неконтролируемые многозадачные ученики» (PDF) . cdn.openai.com . 1 (8). Архивировано (PDF) из оригинала 6 февраля 2021 г. . Получено 19 декабря 2020 г. .
^ Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; и др. (22 июля 2020 г.). «Языковые модели — это малоопытные ученики». arXiv : 2005.14165 [cs.CL].
^ Рамеш, Адитья; Павлов, Михаил; Гох, Габриэль; и др. (24 февраля 2021 г.). «Генерация текста в изображение с нуля». arXiv : 2102.12092 [cs.LG].
^ abcdef Рамеш, Адитья; Дхаривал, Прафулла; Никол, Алекс; Чу, Кейси; Чен, Марк (12 апреля 2022 г.). «Генерация иерархических текстовых условных изображений с использованием латентных значений CLIP». arXiv : 2204.06125 [cs.CV].
^ abcd Heaven, Уилл Дуглас (5 января 2021 г.). «Это кресло из авокадо может стать будущим ИИ». MIT Technology Review. Архивировано из оригинала 5 января 2021 г. Получено 5 января 2021 г.
^ Рэдфорд, Алек; Ким, Чон Вук; Халласи, Крис; и др. (1 июля 2021 г.). Изучение переносимых визуальных моделей с помощью естественного языкового надзора. Труды 38-й Международной конференции по машинному обучению. PMLR. С. 8748–8763 .
^ Данн, Том (10 февраля 2021 г.). «Эта нейронная сеть ИИ преобразует текстовые подписи в искусство, как медуза Пикачу». BoingBoing . Архивировано из оригинала 22 февраля 2021 г. . Получено 2 марта 2021 г. .
^ ab Whitwam, Ryan (6 января 2021 г.). «OpenAI's 'DALL-E' Generates Images From Text Descriptions». ExtremeTech . Архивировано из оригинала 28 января 2021 г. . Получено 2 марта 2021 г. .
^ ab Dent, Steve (6 января 2021 г.). «Приложение OpenAI DALL-E генерирует изображения только по описанию». Engadget . Архивировано из оригинала 27 января 2021 г. . Получено 2 марта 2021 г. .
^ ab Маркус, Гэри; Дэвис, Эрнест; Ааронсон, Скотт (2 мая 2022 г.). «Очень предварительный анализ DALL-E 2». arXiv : 2204.13807 [cs.CV].
^ ab Shead, Sam (8 января 2021 г.). «Почему все говорят о генераторе изображений, выпущенном лабораторией искусственного интеллекта, поддерживаемой Илоном Маском». CNBC . Архивировано из оригинала 16 июля 2022 г. Получено 2 марта 2021 г.
^ ab Wakefield, Jane (6 января 2021 г.). «ИИ рисует выгуливающего собаку младенца-редиска в пачке». British Broadcasting Corporation . Архивировано из оригинала 2 марта 2021 г. . Получено 3 марта 2021 г. .
^ Марковиц, Дейл (10 января 2021 г.). «Вот как работает волшебный генератор изображений DALL-E от OpenAI». TheNextWeb . Архивировано из оригинала 23 февраля 2021 г. Получено 2 марта 2021 г.
^ "DALL·E: Создание изображений из текста". OpenAI . 5 января 2021 г. Архивировано из оригинала 27 марта 2021 г. Получено 13 августа 2022 г.
^ Эдвардс, Бендж (20 сентября 2023 г.). «Новый генератор изображений на основе ИИ от OpenAI расширяет границы детализации и обеспечивает точность». Ars Technica . Архивировано из оригинала 21 сентября 2023 г. Получено 21 сентября 2023 г.
^ Колдьюи, Девин (6 апреля 2022 г.). «Новый инструмент OpenAI рисует что угодно, больше и лучше, чем когда-либо». TechCrunch . Архивировано из оригинала 6 мая 2023 г. Получено 26 ноября 2022 г.
^ "DALL·E: Знакомство с Outpainting". OpenAI . 31 августа 2022 г. Архивировано из оригинала 26 ноября 2022 г. Получено 26 ноября 2022 г.
^ Сахария, Читван; Чан, Уильям; Саксена, Саурабх; и др. (23 мая 2022 г.). «Фотореалистичные модели диффузии текста в изображение с глубоким пониманием языка». arXiv : 2205.11487 [cs.CV].
^ Маркус, Гэри (28 мая 2022 г.). «Лошадь едет на астронавте». Дорога к ИИ, которому мы можем доверять . Архивировано из оригинала 19 июня 2022 г. Получено 18 июня 2022 г.
^ ab Strickland, Eliza (14 июля 2022 г.). «DALL-E 2's Failures Are the Most Interesting Thing About It». IEEE Spectrum . Архивировано из оригинала 15 июля 2022 г. Получено 16 августа 2022 г.
^ ab "DALL·E 2 Pre-Training Mitigations". OpenAI . 28 июня 2022 г. Архивировано из оригинала 19 июля 2022 г. Получено 18 июля 2022 г.
^ Джеймс Винсент (29 сентября 2022 г.). «Генератор изображений DALL-E от OpenAI доступен для немедленного использования любым желающим». The Verge . Архивировано из оригинала 29 сентября 2022 г. . Получено 29 сентября 2022 г. .
^ Тейлор, Джош (18 июня 2022 г.). «От Trump Nevermind babies до deep fakes: DALL-E и этика искусства ИИ». The Guardian . Архивировано из оригинала 6 июля 2022 г. Получено 2 августа 2022 г.
↑ Найт, Уилл (13 июля 2022 г.). «Когда ИИ создает искусство, люди зажигают творческую искру». Wired . Архивировано из оригинала 2 августа 2022 г. Получено 2 августа 2022 г.
^ Роуз, Янус (24 июня 2022 г.). «DALL-E теперь генерирует реалистичные лица поддельных людей». Vice . Архивировано из оригинала 30 июля 2022 г. . Получено 2 августа 2022 г. .
^ ab OpenAI (19 июня 2022 г.). "DALL·E 2 Preview – Risks and Limitations". GitHub . Архивировано из оригинала 2 августа 2022 г. . Получено 2 августа 2022 г. .
↑ Лейн, Лора (1 июля 2022 г.). «DALL-E, Make Me Another Picasso, Please». The New Yorker . Архивировано из оригинала 2 августа 2022 г. Получено 2 августа 2022 г.
^ Голдман, Шарон (26 июля 2022 г.). «OpenAI: убьет ли DALL-E 2 творческие карьеры?». Архивировано из оригинала 15 августа 2022 г. . Получено 16 августа 2022 г. .
^ Блейн, Лоз (29 июля 2022 г.). «DALL-E 2: Инструмент мечты и экзистенциальная угроза визуальным художникам». Архивировано из оригинала 17 августа 2022 г. . Получено 16 августа 2022 г. .
^ Биддл, Сэм (10 апреля 2024 г.). «Microsoft представила DALL-E от OpenAI в качестве боевого инструмента для армии США». The Intercept .
^ Биддл, Сэм (12 января 2024 г.). «OpenAI тихо отменяет запрет на использование ChatGPT для «военных целей и военных действий»». The Intercept .
^ Касана, Мехрин (7 января 2021 г.). «Этот ИИ превращает текст в сюрреалистическое искусство, основанное на предположениях». Ввод. Архивировано из оригинала 29 января 2021 г. . Получено 2 марта 2021 г. .
^ Эренкранц, Мелани (27 января 2021 г.). «Вот DALL-E: алгоритм, научившийся рисовать все, что вы ему скажете». NBC News . Архивировано из оригинала 20 февраля 2021 г. Получено 2 марта 2021 г.
^ Стоув, Эмма (5 февраля 2021 г.). «Цирк тихоходок и дерево жизни — лучшие научные изображения января». Nature . Архивировано из оригинала 8 марта 2021 г. . Получено 2 марта 2021 г. .
^ Найт, Уилл (26 января 2021 г.). «Этот ИИ может перейти от „искусства“ к управлению самоуправляемым автомобилем». Wired . Архивировано из оригинала 21 февраля 2021 г. Получено 2 марта 2021 г.
^ Метц, Рэйчел (2 февраля 2021 г.). «Редиска в пачке выгуливает собаку? Этот ИИ может нарисовать ее очень хорошо». CNN. Архивировано из оригинала 16 июля 2022 г. Получено 2 марта 2021 г.
^ Лесвинг, Киф (8 октября 2022 г.). «Почему Кремниевая долина так взволнована неловкими рисунками, сделанными искусственным интеллектом». CNBC . Архивировано из оригинала 29 июля 2023 г. Получено 1 декабря 2022 г.
^ Этерингтон, Даррелл (22 июля 2019 г.). «Microsoft инвестирует 1 миллиард долларов в OpenAI в рамках нового многолетнего партнерства». TechCrunch . Архивировано из оригинала 22 июля 2019 г. Получено 21 сентября 2023 г.
^ "Первый венчурный инвестор OpenAI высказался о генеративном ИИ" Fortune . Архивировано из оригинала 23 октября 2023 г. Получено 21 сентября 2023 г.
^ Метц, Кейд; Вайс, Карен (23 января 2023 г.). «Microsoft инвестирует 10 миллиардов долларов в OpenAI, создателя ChatGPT». The New York Times . ISSN 0362-4331. Архивировано из оригинала 21 сентября 2023 г. . Получено 21 сентября 2023 г. .
^ «Искусство, созданное искусственным интеллектом, вызвало яростную реакцию японского аниме-сообщества». Остальной мир . 27 октября 2022 г. Архивировано из оригинала 31 декабря 2022 г. Получено 3 января 2023 г.
^ Руз, Кевин (2 сентября 2022 г.). «Картина, созданная с помощью искусственного интеллекта, выиграла художественную премию. Художники недовольны». The New York Times . ISSN 0362-4331. Архивировано из оригинала 31 мая 2023 г. Получено 3 января 2023 г.
^ Доус, Райан (15 декабря 2022 г.). «ArtStation backlash increase following AI art protest response» (Реакция протеста со стороны ИИ на арт-протест). AI News . Архивировано из оригинала 3 января 2023 г. Получено 3 января 2023 г.
^ ab Corden, Jez (8 октября 2023 г.). «Создание образа Bing Dall-E 3 было отличным в течение нескольких дней, но теперь Microsoft предсказуемо лоботомировала его». Windows Central . Архивировано из оригинала 10 октября 2023 г. Получено 11 октября 2023 г.
^ ab Allan, Darren (9 октября 2023 г.). «Microsoft ограничивает возможности Bing AI Image Creator – и результаты не имеют особого смысла». TechRadar . Архивировано из оригинала 10 октября 2023 г. . Получено 11 октября 2023 г. .
^ Сахар Мор, Stripe (16 апреля 2022 г.). «Как DALL-E 2 может решить основные проблемы компьютерного зрения». VentureBeat . Архивировано из оригинала 24 мая 2022 г. Получено 15 июня 2022 г.
^ "jina-ai/dalle-flow". Jina AI. 17 июня 2022 г. Архивировано из оригинала 17 июня 2022 г. Получено 17 июня 2022 г.
^ Карсон, Эрин (14 июня 2022 г.). «Все, что нужно знать о Dall-E Mini, творце ИИ-искусства, поражающем воображение». CNET . Архивировано из оригинала 15 июня 2022 г. Получено 15 июня 2022 г.
^ Шредер, Одра (9 июня 2022 г.). «Программа искусственного интеллекта DALL-E mini выдает некоторые поистине проклятые изображения». Daily Dot . Архивировано из оригинала 10 июня 2022 г. Получено 15 июня 2022 г.
^ Диас, Ана (15 июня 2022 г.). «Люди используют DALL-E mini, чтобы создавать мемные мерзости — вроде мопса Пикачу». Polygon . Архивировано из оригинала 15 июня 2022 г. . Получено 15 июня 2022 г. .

Внешние ссылки

Рамеш, Адитья; Павлов, Михаил; Гох, Габриэль; Грей, Скотт; Восс, Челси; Рэдфорд, Алек; Чен, Марк; Суцкевер, Илья (26 февраля 2021 г.). «Генерация текста в изображение с нуля». arXiv : 2102.12092 [cs.CV].. Оригинальный отчет о DALL-E.
Системная карта DALL-E 3
Статья DALL-E 3 от OpenAI
Сайт DALL-E 2
Сайт Craiyon

[David-2023-1] Дэвид, Эмилия (20 сентября 2023 г.). «OpenAI выпускает третью версию DALL-E». The Verge . Архивировано из оригинала 20 сентября 2023 г. . Получено 21 сентября 2023 г. .

[platform.openai.com-2] "OpenAI Platform". platform.openai.com . Архивировано из оригинала 20 марта 2023 г. Получено 10 ноября 2023 г.

[Niles-2023-3] Niles, Raymond (10 ноября 2023 г.) [Обновлено на этой неделе]. "DALL-E 3 API". Справочный центр OpenAI . Архивировано из оригинала 10 ноября 2023 г. Получено 10 ноября 2023 г.

[Mehdi-2023-4] Мехди, Юсуф (21 сентября 2023 г.). «Представляем Microsoft Copilot, вашего повседневного спутника ИИ». Официальный блог Microsoft . Архивировано из оригинала 21 сентября 2023 г. Получено 21 сентября 2023 г.

[vb-5] Джонсон, Хари (5 января 2021 г.). «OpenAI дебютирует с DALL-E для генерации изображений из текста». VentureBeat. Архивировано из оригинала 5 января 2021 г. . Получено 5 января 2021 г. .

[OpenAI-2-6] "DALL·E 2". OpenAI . Архивировано из оригинала 6 апреля 2022 г. Получено 6 июля 2022 г.

[OpenAI-2022b-7] "DALL·E теперь доступен в бета-версии". OpenAI . 20 июля 2022 г. Архивировано из оригинала 20 июля 2022 г. Получено 20 июля 2022 г.

[Allyn-2022-8] Allyn, Bobby (20 июля 2022 г.). «Сюрреалистично или слишком реально? Захватывающий инструмент искусственного интеллекта DALL-E выводит свои изображения на более широкую сцену». NPR . Архивировано из оригинала 20 июля 2022 г. Получено 20 июля 2022 г.

[labs.openai.com-9] "DALL·E Waitlist". labs.openai.com . Архивировано из оригинала 4 июля 2022 г. . Получено 6 июля 2022 г. .

[Guardian-2022-10] «От Trump Nevermind babies до deep fakes: DALL-E и этика искусства ИИ». The Guardian . 18 июня 2022 г. Архивировано из оригинала 6 июля 2022 г. Получено 6 июля 2022 г.

[OpenAI-2022c-11] "DALL·E теперь доступен без списка ожидания". OpenAI . 28 сентября 2022 г. Архивировано из оригинала 4 октября 2022 г. Получено 5 октября 2022 г.

[OpenAI-12] "DALL·E 3". OpenAI . Архивировано из оригинала 20 сентября 2023 г. Получено 21 сентября 2023 г.

[OpenAI-2022d-13] "DALL·E API теперь доступен в публичной бета-версии". OpenAI . 3 ноября 2022 г. Архивировано из оригинала 19 ноября 2022 г. Получено 19 ноября 2022 г.

[Wiggers-2022-14] Wiggers, Kyle (3 ноября 2022 г.). «Теперь любой может создавать приложения, использующие DALL-E 2 для генерации изображений». TechCrunch . Архивировано из оригинала 19 ноября 2022 г. . Получено 19 ноября 2022 г. .

[tc-15] Coldewey, Devin (5 января 2021 г.). «DALL-E от OpenAI создает правдоподобные изображения буквально всего, о чем вы его попросите». Архивировано из оригинала 6 января 2021 г. Получено 5 января 2021 г.

[16] Growcoot, Matt (8 февраля 2024 г.). «ИИ-изображения, созданные на DALL-E, теперь содержат тег подлинности контента». PetaPixel . Получено 4 апреля 2024 г.

[Radford-2018-17] Рэдфорд, Алек; Нарасимхан, Картик; Салиманс, Тим; Суцкевер, Илья (11 июня 2018 г.). «Улучшение понимания языка с помощью генеративного предварительного обучения» (PDF) . OpenAI . стр. 12. Архивировано (PDF) из оригинала 26 января 2021 г. . Получено 23 января 2021 г. .

[GPT-2023-18] "GPT-1 to GPT-4: Каждая из моделей GPT OpenAI объяснена и сравнена". 11 апреля 2023 г. Архивировано из оригинала 15 апреля 2023 г. Получено 29 апреля 2023 г.

[Radford-2019-19] Рэдфорд, Алек; Ву, Джеффри; Чайлд, Ревон; и др. (14 февраля 2019 г.). «Языковые модели — это неконтролируемые многозадачные ученики» (PDF) . cdn.openai.com . 1 (8). Архивировано (PDF) из оригинала 6 февраля 2021 г. . Получено 19 декабря 2020 г. .

[Brown-2020-20] Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; и др. (22 июля 2020 г.). «Языковые модели — это малоопытные ученики». arXiv : 2005.14165 [cs.CL].

[dallepaper-21] Рамеш, Адитья; Павлов, Михаил; Гох, Габриэль; и др. (24 февраля 2021 г.). «Генерация текста в изображение с нуля». arXiv : 2102.12092 [cs.LG].

[Ramesh-2022-22] Рамеш, Адитья; Дхаривал, Прафулла; Никол, Алекс; Чу, Кейси; Чен, Марк (12 апреля 2022 г.). «Генерация иерархических текстовых условных изображений с использованием латентных значений CLIP». arXiv : 2204.06125 [cs.CV].

[Heaven-2021-23] Heaven, Уилл Дуглас (5 января 2021 г.). «Это кресло из авокадо может стать будущим ИИ». MIT Technology Review. Архивировано из оригинала 5 января 2021 г. Получено 5 января 2021 г.

[24] Рэдфорд, Алек; Ким, Чон Вук; Халласи, Крис; и др. (1 июля 2021 г.). Изучение переносимых визуальных моделей с помощью естественного языкового надзора. Труды 38-й Международной конференции по машинному обучению. PMLR. С. 8748–8763 .

[boing-25] Данн, Том (10 февраля 2021 г.). «Эта нейронная сеть ИИ преобразует текстовые подписи в искусство, как медуза Пикачу». BoingBoing . Архивировано из оригинала 22 февраля 2021 г. . Получено 2 марта 2021 г. .

[extreme-26] Whitwam, Ryan (6 января 2021 г.). «OpenAI's 'DALL-E' Generates Images From Text Descriptions». ExtremeTech . Архивировано из оригинала 28 января 2021 г. . Получено 2 марта 2021 г. .

[engadget-27] Dent, Steve (6 января 2021 г.). «Приложение OpenAI DALL-E генерирует изображения только по описанию». Engadget . Архивировано из оригинала 27 января 2021 г. . Получено 2 марта 2021 г. .

[Marcus-2022-28] Маркус, Гэри; Дэвис, Эрнест; Ааронсон, Скотт (2 мая 2022 г.). «Очень предварительный анализ DALL-E 2». arXiv : 2204.13807 [cs.CV].

[cnbc-29] Shead, Sam (8 января 2021 г.). «Почему все говорят о генераторе изображений, выпущенном лабораторией искусственного интеллекта, поддерживаемой Илоном Маском». CNBC . Архивировано из оригинала 16 июля 2022 г. Получено 2 марта 2021 г.

[bbc-30] Wakefield, Jane (6 января 2021 г.). «ИИ рисует выгуливающего собаку младенца-редиска в пачке». British Broadcasting Corporation . Архивировано из оригинала 2 марта 2021 г. . Получено 3 марта 2021 г. .

[dale-31] Марковиц, Дейл (10 января 2021 г.). «Вот как работает волшебный генератор изображений DALL-E от OpenAI». TheNextWeb . Архивировано из оригинала 23 февраля 2021 г. Получено 2 марта 2021 г.

[OpenAI-2021-32] "DALL·E: Создание изображений из текста". OpenAI . 5 января 2021 г. Архивировано из оригинала 27 марта 2021 г. Получено 13 августа 2022 г.

[Edwards-2023-33] Эдвардс, Бендж (20 сентября 2023 г.). «Новый генератор изображений на основе ИИ от OpenAI расширяет границы детализации и обеспечивает точность». Ars Technica . Архивировано из оригинала 21 сентября 2023 г. Получено 21 сентября 2023 г.

[Coldewey-2022-34] Колдьюи, Девин (6 апреля 2022 г.). «Новый инструмент OpenAI рисует что угодно, больше и лучше, чем когда-либо». TechCrunch . Архивировано из оригинала 6 мая 2023 г. Получено 26 ноября 2022 г.

[OpenAI-2022-35] "DALL·E: Знакомство с Outpainting". OpenAI . 31 августа 2022 г. Архивировано из оригинала 26 ноября 2022 г. Получено 26 ноября 2022 г.

[Saharia-2022-36] Сахария, Читван; Чан, Уильям; Саксена, Саурабх; и др. (23 мая 2022 г.). «Фотореалистичные модели диффузии текста в изображение с глубоким пониманием языка». arXiv : 2205.11487 [cs.CV].

[Marcus-2022a-37] Маркус, Гэри (28 мая 2022 г.). «Лошадь едет на астронавте». Дорога к ИИ, которому мы можем доверять . Архивировано из оригинала 19 июня 2022 г. Получено 18 июня 2022 г.

[Strickland-2022-38] Strickland, Eliza (14 июля 2022 г.). «DALL-E 2's Failures Are the Most Interesting Thing About It». IEEE Spectrum . Архивировано из оригинала 15 июля 2022 г. Получено 16 августа 2022 г.

[OpenAI-2022a-39] "DALL·E 2 Pre-Training Mitigations". OpenAI . 28 июня 2022 г. Архивировано из оригинала 19 июля 2022 г. Получено 18 июля 2022 г.

[Vincent-2022-40] Джеймс Винсент (29 сентября 2022 г.). «Генератор изображений DALL-E от OpenAI доступен для немедленного использования любым желающим». The Verge . Архивировано из оригинала 29 сентября 2022 г. . Получено 29 сентября 2022 г. .

[Taylor-41] Тейлор, Джош (18 июня 2022 г.). «От Trump Nevermind babies до deep fakes: DALL-E и этика искусства ИИ». The Guardian . Архивировано из оригинала 6 июля 2022 г. Получено 2 августа 2022 г.

[Knight-2022-42] Найт, Уилл (13 июля 2022 г.). «Когда ИИ создает искусство, люди зажигают творческую искру». Wired . Архивировано из оригинала 2 августа 2022 г. Получено 2 августа 2022 г.

[vice-43] Роуз, Янус (24 июня 2022 г.). «DALL-E теперь генерирует реалистичные лица поддельных людей». Vice . Архивировано из оригинала 30 июля 2022 г. . Получено 2 августа 2022 г. .

[docs-44] OpenAI (19 июня 2022 г.). "DALL·E 2 Preview – Risks and Limitations". GitHub . Архивировано из оригинала 2 августа 2022 г. . Получено 2 августа 2022 г. .

[Lane-2022-45] Лейн, Лора (1 июля 2022 г.). «DALL-E, Make Me Another Picasso, Please». The New Yorker . Архивировано из оригинала 2 августа 2022 г. Получено 2 августа 2022 г.

[Goldman-2022-46] Голдман, Шарон (26 июля 2022 г.). «OpenAI: убьет ли DALL-E 2 творческие карьеры?». Архивировано из оригинала 15 августа 2022 г. . Получено 16 августа 2022 г. .

[Blain-2022-47] Блейн, Лоз (29 июля 2022 г.). «DALL-E 2: Инструмент мечты и экзистенциальная угроза визуальным художникам». Архивировано из оригинала 17 августа 2022 г. . Получено 16 августа 2022 г. .

[48] Биддл, Сэм (10 апреля 2024 г.). «Microsoft представила DALL-E от OpenAI в качестве боевого инструмента для армии США». The Intercept .

[49] Биддл, Сэм (12 января 2024 г.). «OpenAI тихо отменяет запрет на использование ChatGPT для «военных целей и военных действий»». The Intercept .

[input-50] Касана, Мехрин (7 января 2021 г.). «Этот ИИ превращает текст в сюрреалистическое искусство, основанное на предположениях». Ввод. Архивировано из оригинала 29 января 2021 г. . Получено 2 марта 2021 г. .

[nbc-51] Эренкранц, Мелани (27 января 2021 г.). «Вот DALL-E: алгоритм, научившийся рисовать все, что вы ему скажете». NBC News . Архивировано из оригинала 20 февраля 2021 г. Получено 2 марта 2021 г.

[nature-52] Стоув, Эмма (5 февраля 2021 г.). «Цирк тихоходок и дерево жизни — лучшие научные изображения января». Nature . Архивировано из оригинала 8 марта 2021 г. . Получено 2 марта 2021 г. .

[Knight-2021-53] Найт, Уилл (26 января 2021 г.). «Этот ИИ может перейти от „искусства“ к управлению самоуправляемым автомобилем». Wired . Архивировано из оригинала 21 февраля 2021 г. Получено 2 марта 2021 г.

[cnn-54] Метц, Рэйчел (2 февраля 2021 г.). «Редиска в пачке выгуливает собаку? Этот ИИ может нарисовать ее очень хорошо». CNN. Архивировано из оригинала 16 июля 2022 г. Получено 2 марта 2021 г.

[Leswing-2022-55] Лесвинг, Киф (8 октября 2022 г.). «Почему Кремниевая долина так взволнована неловкими рисунками, сделанными искусственным интеллектом». CNBC . Архивировано из оригинала 29 июля 2023 г. Получено 1 декабря 2022 г.

[Etherington-2019-56] Этерингтон, Даррелл (22 июля 2019 г.). «Microsoft инвестирует 1 миллиард долларов в OpenAI в рамках нового многолетнего партнерства». TechCrunch . Архивировано из оригинала 22 июля 2019 г. Получено 21 сентября 2023 г.

[Fortune-57] "Первый венчурный инвестор OpenAI высказался о генеративном ИИ" Fortune . Архивировано из оригинала 23 октября 2023 г. Получено 21 сентября 2023 г.

[Metz-2023-58] Метц, Кейд; Вайс, Карен (23 января 2023 г.). «Microsoft инвестирует 10 миллиардов долларов в OpenAI, создателя ChatGPT». The New York Times . ISSN 0362-4331. Архивировано из оригинала 21 сентября 2023 г. . Получено 21 сентября 2023 г. .

[Rest_of_World-2022-59] «Искусство, созданное искусственным интеллектом, вызвало яростную реакцию японского аниме-сообщества». Остальной мир . 27 октября 2022 г. Архивировано из оригинала 31 декабря 2022 г. Получено 3 января 2023 г.

[Roose-2022-60] Руз, Кевин (2 сентября 2022 г.). «Картина, созданная с помощью искусственного интеллекта, выиграла художественную премию. Художники недовольны». The New York Times . ISSN 0362-4331. Архивировано из оригинала 31 мая 2023 г. Получено 3 января 2023 г.

[Daws-2022-61] Доус, Райан (15 декабря 2022 г.). «ArtStation backlash increase following AI art protest response» (Реакция протеста со стороны ИИ на арт-протест). AI News . Архивировано из оригинала 3 января 2023 г. Получено 3 января 2023 г.

[Corden-2023-62] Corden, Jez (8 октября 2023 г.). «Создание образа Bing Dall-E 3 было отличным в течение нескольких дней, но теперь Microsoft предсказуемо лоботомировала его». Windows Central . Архивировано из оригинала 10 октября 2023 г. Получено 11 октября 2023 г.

[TechRadar-63] Allan, Darren (9 октября 2023 г.). «Microsoft ограничивает возможности Bing AI Image Creator – и результаты не имеют особого смысла». TechRadar . Архивировано из оригинала 10 октября 2023 г. . Получено 11 октября 2023 г. .

[Mor-2022-64] Сахар Мор, Stripe (16 апреля 2022 г.). «Как DALL-E 2 может решить основные проблемы компьютерного зрения». VentureBeat . Архивировано из оригинала 24 мая 2022 г. Получено 15 июня 2022 г.

[Jina-2022-65] "jina-ai/dalle-flow". Jina AI. 17 июня 2022 г. Архивировано из оригинала 17 июня 2022 г. Получено 17 июня 2022 г.

[CNETmini-66] Карсон, Эрин (14 июня 2022 г.). «Все, что нужно знать о Dall-E Mini, творце ИИ-искусства, поражающем воображение». CNET . Архивировано из оригинала 15 июня 2022 г. Получено 15 июня 2022 г.

[DailyDotmini-67] Шредер, Одра (9 июня 2022 г.). «Программа искусственного интеллекта DALL-E mini выдает некоторые поистине проклятые изображения». Daily Dot . Архивировано из оригинала 10 июня 2022 г. Получено 15 июня 2022 г.

[Polygonmini-68] Диас, Ана (15 июня 2022 г.). «Люди используют DALL-E mini, чтобы создавать мемные мерзости — вроде мопса Пикачу». Polygon . Архивировано из оригинала 15 июня 2022 г. . Получено 15 июня 2022 г. .