Лица больше не из пластика, а буквы — не из кошмаров. Qwen-Image-2512 обещает реализм, который сложно отличить от фото

Декабрьское обновление модели обещает меньше «нейросетевого блеска» и лучшее качество деталей.

Картинки из нейросетей все еще легко узнать по двум мелочам: у людей иногда появляется «пластиковое» лицо, а любая надпись превращается в лотерею. Команда Qwen утверждает, что в свежем обновлении их модели генерации изображений эти слабые места заметно подтянули. Они выпустили Qwen-Image-2512, декабрьскую версию базовой Qwen-Image, и обещают больше реализма, деталей и аккуратнее текст внутри кадра.

Главный акцент сделали на «человечности» кадров: модель должна реже выдавать тот самый узнаваемый «AI-вид» и лучше держать мелкие признаки вроде фактуры кожи, морщин и возрастных деталей, а также более убедительно рисовать волосы и фоновые объекты. В примерах разработчики отдельно подчеркивают, что улучшения заметны именно в мелочах, которые раньше чаще всего «плыли» при близких портретах.

Вторая заметная правка касается природы и фактур. В Qwen-Image-2512 обещают более тонкую прорисовку воды, тумана, листвы, шерсти и материалов, то есть всего того, что быстро выдаёт генерацию, если деталей не хватает или они размазаны.

Третья часть обновления, пожалуй, самая практичная для «обычных» задач: рендеринг текста и компоновка. Qwen-Image изначально продвигали как модель, которая умеет рисовать надписи и макеты, а теперь заявляют, что в версии 2512 повысили точность, улучшили раскладку и согласованность текста с изображением. В качестве типичного примера приводят генерацию слайдов и постеров, где важно не просто «написать слова», а нормально встроить их в дизайн.

Разработчики также ссылаются на внутренние слепые сравнения в AI Arena: по их данным, Qwen-Image-2512 прошла более 10 000 раундов таких оценок и сейчас выглядит сильнейшей среди открытых моделей, оставаясь конкурентоспособной и на фоне закрытых решений.

Модель выложили в открытый доступ на Hugging Face под лицензией Apache 2.0, то есть ее можно использовать и в коммерческих проектах. Запустить генерацию предлагают через diffusers, а для тех, кто работает в визуальных пайплайнах, уже появились готовые инструкции и шаблоны под ComfyUI, включая рекомендованные варианты весов и типовые разрешения для популярных соотношений сторон.