ChatGPT Images 2.0: не понравилась картинка? Скажи ИИ, что бесит — и он исправит мгновенно

Изображения теперь можно править голосом. Не нужно перегенерировать с нуля.

OpenAI решила, что генерация картинок не должна сводиться к схеме ввел запрос, получил результат, начал заново. Компания представила ChatGPT Images 2.0 и явно двигает продукт в сторону более удобной и управляемой работы с изображением. Теперь пользователь не просто запускает генерацию, а может последовательно доводить результат до нужного вида в диалоге.

В OpenAI называют релиз крупным обновлением image-модели. Главные изменения касаются точности следования инструкциям, качества текста внутри изображения, компоновки сложных сцен и общей пригодности результата для практических задач, а не только для быстрых экспериментов. В техническом описании компания отдельно отмечает лучшее понимание запросов, более уверенную работу с деталями и более стабильную сборку сложных макетов.

У новой версии два режима. Instant рассчитан на быстрый результат, когда картинка нужна сразу. Thinking работает медленнее и сначала тратит больше времени на построение сцены. В справке OpenAI говорится, что images with thinking доступны на платных тарифах ChatGPT при выборе Thinking и Pro models, а сама ChatGPT Images 2.0 доступна на всех планах.

Разница между режимами не только в скорости, но и в типе задач. Thinking рассчитан на случаи, где важно сохранить персонажей, предметы и логику сцены от кадра к кадру. OpenAI показывает, что модель лучше справляется с многошаговым визуальным повествованием, страницами манги, сторибордами, листами персонажей и сериями изображений, где ранние генераторы часто теряли лицо героя, детали одежды или связность сюжета.

Самое заметное изменение касается самого процесса работы. OpenAI больше не подает генерацию как разовое действие по одному промпту. Изображение можно дорабатывать в разговоре: приблизить нужную область, поменять отдельные элементы, перестроить композицию, сохранить контекст прошлых правок и продолжить без постоянного перезапуска с нуля. В материалах OpenAI отдельно подчеркивается, что ChatGPT позволяет быстро делать вариации, менять композицию и размер и адаптировать изображение под разные форматы и задачи.

Компания отдельно делает упор на те места, где генераторы раньше часто ошибались. В первую очередь речь о тексте внутри изображения и о языках за пределами латиницы. OpenAI пишет, что Images 2.0 заметно лучше работает с японским, корейским, китайским, хинди и бенгальским письмом. Для афиш, интерфейсных макетов, комиксов, игровых материалов и других подобных задач это важное изменение: модель начинает увереннее справляться не только с картинкой, но и с надписями.

Есть и технические обновления, которые прямо влияют на практическое использование. Модель поддерживает разные соотношения сторон от 3:1 до 1:3, умеет выдавать изображения до 2K и может сгенерировать до восьми вариантов за один запуск. По сути OpenAI подталкивает продукт к более рабочему формату, где за один проход можно получить сразу несколько версий под баннер, постер, вертикальный экран или сторис.

Отдельная часть обновления связана не только с картинкой, но и с логикой работы модели. В описании релиза OpenAI пишет, что система умеет рассуждать над задачей, проверять результат и при необходимости подтягивать внешнюю информацию. На практике компания показывает связку из исследования, анализа и визуализации в одном цикле, когда модель не просто рисует по запросу, а сначала разбирается с контекстом, а потом превращает его в готовый визуальный материал.

На фоне того, как текстовые модели у крупных лабораторий постепенно сближаются по качеству, такой ход выглядит вполне понятным. Конкуренция все сильнее смещается в сторону мультимодальности. OpenAI, судя по запуску Images 2.0, делает серьезную ставку именно на изображения как на следующий важный формат работы с ИИ, где пользователь не переключается между поиском, редактором, генератором и дизайнерским инструментом, а решает всю цепочку задач в одном окне.

Компания уже запустила ChatGPT Images 2.0 в веб-версии ChatGPT, а для разработчиков добавила новый image-модельный слой в API. Формально речь идет об очередном обновлении генератора, но по смыслу OpenAI показывает другой подход: изображение больше не выглядит второстепенной функцией внутри чата. Картинка постепенно становится одним из основных способов работы с самим ChatGPT.