Apr 22, 2026 · 9 мин чтения

Как на самом деле работает GPT-image-2 (практическое руководство для авторов)

GPT-image-2 — новейшая модель изображений от OpenAI. Это практический путеводитель для авторов: что изменилось по сравнению с DALL·E 3, что нового внутри и как правильно подбирать промпты.

OpenAI выпустила gpt-image-2 21 апреля 2026 года — преемницу серии DALL·E. В отличие от DALL·E 3, тесно интегрированной с ChatGPT, gpt-image-2 в ту же неделю стала полноценной API-моделью с публичным релизом. Это влияет на качество, на доступные элементы управления и на круг задач, которые модель решает лучше всего.

Что нового по сравнению с DALL·E 3

Более высокое нативное разрешение: 1024² по умолчанию, со встроенным режимом 2K HD по запросу.
Лучшее следование промпту: сложные запросы (несколько объектов, пространственные отношения) реально работают.
Высокая точность работы с входными изображениями — загруженные референсы не уменьшаются перед чтением.
Тарификация по токенам: $8/M на ввод изображений, $30/M на вывод — предсказуемо и масштабируемо.

Три уровня качества, три ценовые точки

GPT-image-2 предлагает настройки качества «low», «medium» и «high». Каждой соответствует своя цена за изображение: $0.006 / $0.053 / $0.211 при разрешении 1024². Для повседневных задач почти всегда подойдёт medium — high даёт разницу между «чёткой картинкой для веба» и «обложкой журнала». Low годится для генерации идей: дёшево и быстро, но с шероховатостями.

Редактирование изображений действительно работает

DALL·E 3 умела только генерировать. GPT-image-2 принимает загруженное изображение вместе с промптом и возвращает связную правку. Модель сама обрабатывает маски, освещение и согласованность перспективы — ControlNet и инпейнтинг-пайплайны не нужны. Маска по-прежнему помогает для точечных правок, но это уже опционально.

Пять привычек в составлении промптов, которые окупаются

Начинайте с объекта. «Лис-астронавт на Марсе.» А не «Сгенерируй мне изображение, на котором есть лис…»
Дальше указывайте камеру и свет: «35mm, мягкий контровый свет, золотой час».
В конце добавляйте якоря стиля: «editorial photography», «Studio Ghibli», «flat illustration».
Избегайте отрицательных промптов на естественном языке («не включай…») — лучше опишите, что вы ХОТИТЕ видеть.
Для HD будьте конкретнее. У модели больше запаса и она следует указаниям буквальнее.

Когда GPT-image-2 НЕ подходит

Если вам нужен конкретный аниме-файнтюн, определённая Lora или полный локальный контроль — Stable Diffusion остаётся правильным выбором. Если вы уже платите за Midjourney и любите его фирменный стиль, оставайтесь там. Сила GPT-image-2 — в надёжности: модель делает то, что вы описываете.

Сколько это стоит

Типичный автор, который генерирует 100 стандартных изображений в месяц, тратит около $5.30 в чистом тарифе OpenAI. На управляемом сервисе вроде gptimage2.plus это превращается примерно в $10/мес — разница покрывает инфраструктуру, поддержку, модерацию контента и (в нашем случае) бесплатное хранение истории генераций.