Apr 22, 2026 · 9 мин чтения
Как на самом деле работает GPT-image-2 (практическое руководство для авторов)
GPT-image-2 — новейшая модель изображений от OpenAI. Это практический путеводитель для авторов: что изменилось по сравнению с DALL·E 3, что нового внутри и как правильно подбирать промпты.
OpenAI выпустила gpt-image-2 21 апреля 2026 года — преемницу серии DALL·E. В отличие от DALL·E 3, тесно интегрированной с ChatGPT, gpt-image-2 в ту же неделю стала полноценной API-моделью с публичным релизом. Это влияет на качество, на доступные элементы управления и на круг задач, которые модель решает лучше всего.
Что нового по сравнению с DALL·E 3
- Более высокое нативное разрешение: 1024² по умолчанию, со встроенным режимом 2K HD по запросу.
- Лучшее следование промпту: сложные запросы (несколько объектов, пространственные отношения) реально работают.
- Высокая точность работы с входными изображениями — загруженные референсы не уменьшаются перед чтением.
- Тарификация по токенам: $8/M на ввод изображений, $30/M на вывод — предсказуемо и масштабируемо.
Три уровня качества, три ценовые точки
GPT-image-2 предлагает настройки качества «low», «medium» и «high». Каждой соответствует своя цена за изображение: $0.006 / $0.053 / $0.211 при разрешении 1024². Для повседневных задач почти всегда подойдёт medium — high даёт разницу между «чёткой картинкой для веба» и «обложкой журнала». Low годится для генерации идей: дёшево и быстро, но с шероховатостями.
Редактирование изображений действительно работает
DALL·E 3 умела только генерировать. GPT-image-2 принимает загруженное изображение вместе с промптом и возвращает связную правку. Модель сама обрабатывает маски, освещение и согласованность перспективы — ControlNet и инпейнтинг-пайплайны не нужны. Маска по-прежнему помогает для точечных правок, но это уже опционально.
Пять привычек в составлении промптов, которые окупаются
- Начинайте с объекта. «Лис-астронавт на Марсе.» А не «Сгенерируй мне изображение, на котором есть лис…»
- Дальше указывайте камеру и свет: «35mm, мягкий контровый свет, золотой час».
- В конце добавляйте якоря стиля: «editorial photography», «Studio Ghibli», «flat illustration».
- Избегайте отрицательных промптов на естественном языке («не включай…») — лучше опишите, что вы ХОТИТЕ видеть.
- Для HD будьте конкретнее. У модели больше запаса и она следует указаниям буквальнее.
Когда GPT-image-2 НЕ подходит
Если вам нужен конкретный аниме-файнтюн, определённая Lora или полный локальный контроль — Stable Diffusion остаётся правильным выбором. Если вы уже платите за Midjourney и любите его фирменный стиль, оставайтесь там. Сила GPT-image-2 — в надёжности: модель делает то, что вы описываете.
Сколько это стоит
Типичный автор, который генерирует 100 стандартных изображений в месяц, тратит около $5.30 в чистом тарифе OpenAI. На управляемом сервисе вроде gptimage2.plus это превращается примерно в $10/мес — разница покрывает инфраструктуру, поддержку, модерацию контента и (в нашем случае) бесплатное хранение истории генераций.