DALL-E 3 может поднять генерацию изображений с помощью искусственного интеллекта на новый уровень | ENBLE

DALL-E 3 поднимает генерацию изображений с помощью ИИ на новый уровень | ENBLE

OpenAI

OpenAI, возможно, готовит следующую версию своего генератора изображений на основе текста DALL-E AI с помощью серии альфа-тестов, которые сейчас стали доступными широкой публике, согласно Decoder.

Анонимный пользователь Discord поделился деталями своего опыта, имея доступ к предстоящей модели изображений OpenAI, которая называется DALL-E 3. Он впервые появился в мае и рассказал в интересном для него канале Discord, что он принимал участие в альфа-тесте OpenAI, испытывая новую модель искусственного интеллекта для генерации изображений. Он поделился сгенерированными им изображениями на тот момент.

В мае альфа-тестовая версия имела возможность генерировать изображения с разными соотношениями сторон внутри модели изображения. Затем ютубер MattVidPro AI продемонстрировал несколько изображений, сгенерированных в соотношении сторон 16:9. Эта версия также показала высокое качество генерации текста, что остается проблемой для конкурирующих моделей, даже для таких лидирующих генераторов, как Stable Diffusion и Midjourney.

Некоторые примеры включали изображения, в которых текст сливался с кирпичной стеной, неоновый знак из слов, рекламный щит в городе, украшение торта и имя, вырезанное на горе. Модель поддерживает, что DALL-E хорошо справляется с генерацией изображений людей. Одно из таких изображений показывает женщину, едущую на вечеринке и едящую спагетти, снятое с точки зрения рыбьего глаза.

В середине июля этот пользователь вернулся в канал Discord с новыми деталями и изображениями. Он заявил, что он был частью “закрытого альфа-теста”, в котором участвовало около 400 человек. Он добавил, что был приглашен на испытания по электронной почте и также принимал участие в тестировании оригинальной версии DALL-E и DALL-E 2. Это привело к заключению, что альфа-тест может быть предназначен для DALL-E 3, хотя это не подтверждено.

Модель существенно обновилась с мая по июль. Это было продемонстрировано путем публикации изображений, сгенерированных на основе одного и того же задания, которые показывают, насколько мощным стал DALL-E 3 со временем. Задание звучит так: картина розового шута, давшего пятерку панде во время велогонки. Велосипеды сделаны из сыра, а земля очень грязная. Они едут по туманному лесу. Панда злая.

Майская альфа-версия создает общую сцену, соответствующую большинству элементов задания. Есть небольшое искажение в соединении рук, и колеса велосипедов желтые, а не сделаны из сыра. Однако июльская альфа-версия намного более детализирована, с розовым шутом и пандой, явно давшими пятерку, и колеса велосипедов, сделанными из сыра в нескольких поколениях.

Тем временем, в Midjourney, шут отсутствует на сцене, панды на мотоциклах, а не на велосипедах. Есть дороги вместо грязи. Панды счастливы, а не злые.

Существует целый ряд примеров изображений DALL-E 3 из июльской альфа-версии, которые показывают потенциал модели. Однако, так как альфа-тесты нецензурированы, пользователь отметил, что модель также может генерировать сцены “насилия и наготы, а также авторский материал, такой как логотипы компаний”.

Некоторые примеры включают кровавую аниме-девушку, персонажа из “Игры престолов”, обложку Grand Theft Auto V, зомби Иисуса, поедающего бутерброд Subway, а также намекающие на умеренное насилие, и Шрека, который был найден при археологических раскопках, среди других.

MattVidPro AI отметил, что модель генерирует изображения в определенном стиле.

DALL-E 2 был запущен в апреле 2022 года, но был сильно регулирован с помощью списка ожидания из-за своей популярности и опасений в отношении этики и безопасности. Генератор изображений на основе искусственного интеллекта стал доступным для широкой публики в сентябре 2022 года.