OpenAI только что представила DALL-E 3, свой новейший генератор изображений

OpenAI представила DALL-E 3, новый генератор изображений

OpenAI, материнская компания ChatGPT, впервые представила свою официальную публичную предварительную версию DALL-E 3, своей последней модели генерации изображений. DALL-E 3 был запущен в среду на небольшом мероприятии для журналистов и позиционируется как инструмент, который полностью понимает сложные текстовые запросы и создает соответствующие им изображения по сложности.

Как указано на новой информационной странице о DALL-E 3 на сайте OpenAI: “Современные системы преобразования текста в изображение имеют тенденцию игнорировать слова или описания, заставляя пользователей изучать инженерию запросов. DALL-E 3 представляет собой существенный прогресс в нашей способности генерировать изображения, которые точно соответствуют предоставленному вами тексту”.

Возможные изображения из незавершенной версии DALL-E 3 были утечены в Discord раньше этого лета, и они показали огромный потенциал в соответствии с представленными в пресс-превью линиями. Лицемер утверждал, что он подал DALL-E 3 длинный запрос “картина розового шута, давшего пять другому панде во время гонки на велосипедах. Велосипеды сделаны из сыра, а земля очень грязная. Они едут по туманному лесу. Панда злая”. Полученное изображение было поразительным в своей верности этому запросу.

Генераторы изображений, такие как Midjourney и Stable Diffusion, способны имитировать фотореализм и создавать представления широкого спектра объектов, стилей и людей (сопровождаемых не малым количеством контроверз), но они, безусловно, столкнутся с трудностями при создании чего-либо такого сложного.

Такие генераторы изображений, а также собственные предложения OpenAI в этой области, известны своей неспособностью создавать изображения с текстом – обычно выдавая сбитый бред в лучшем случае и смешные описки в худшем. DALL-E 3, как показано в опубликованном на X карикатуре главы исполнительного директора OpenAI Сэма Альтмана, кажется гораздо более способным включать связный текст в изображения.

Твит мог быть удален

OpenAI говорит, что DALL-E 3 будет непосредственно интегрирован в ChatGPT и настоятельно намекает на то, что чат-бот перейдет от одной модели к другой в зависимости от содержания запроса. ChatGPT, ранее являющийся удобным средством вывода текста из модели GPT-3.5, быстро развивается – включая сторонние плагины с возможностью извлечения текста из других источников, включая Интернет. Этот шаг дополнительно расширяет возможности ChatGPT, расширяя уже напряженное определение термина “чат-бот”.

Согласно Альтману, DALL-E 3 “будет внедрен для всех пользователей ChatGPT+ в течение следующих нескольких недель”. На сайте OpenAI говорится, что все клиенты ChatGPT Plus и ChatGPT Enterprise смогут использовать его “в начале октября”, и OpenAI не будет предъявлять никаких авторских требований к результатам модели. Однако, если вы планируете создать что-то с помощью DALL-E 3 и защитить его авторским правом, это уже другая история.