Apr 22, 2026 · 阅读约 9 分钟
GPT-image-2 到底是怎么工作的(创作者实用指南)
GPT-image-2 是 OpenAI 最新的图像模型。这是一份给创作者的实用指南 — 相比 DALL·E 3 改了什么、底层有哪些新东西,以及怎么写提示词才管用。
OpenAI 在 2026 年 4 月 21 日发布了 gpt-image-2,作为 DALL·E 系列的继任者。和与 ChatGPT 深度绑定的 DALL·E 3 不同,gpt-image-2 在公开发布的同一周就以一等公民的身份登陆 API。这件事影响很大 — 影响画质、影响你能控制什么,也影响它最擅长哪类工作。
相比 DALL·E 3 有哪些新变化
- 原生分辨率更高:开箱即用 1024²,按需可切到 2K HD。
- 提示词还原度更好:复杂提示(多主体、空间关系)真的能跑通。
- 图像输入是高保真的 — 上传的参考图不会被先压缩再读取。
- 按 Token 计费:图像输入 $8/M、图像输出 $30/M — 可预测、可扩展。
三档画质,三种价格
GPT-image-2 提供 'low'、'medium'、'high' 三档画质设置。每档对应不同的单图成本:1024² 下分别是 $0.006 / $0.053 / $0.211。日常工作几乎都该用 medium — high 是 '清晰网图' 和 '杂志封面' 的差距。low 适合做创意发散:便宜、快,接受粗糙边角。
图像编辑这次真的能用了
DALL·E 3 只能生成。GPT-image-2 接受上传图片加提示词,返回连贯的编辑结果。模型在内部处理好了遮罩、光照和透视一致性 — 你不需要 ControlNet 或 inpainting 工作流。要做手术刀级别的修改时,涂个遮罩仍然有帮助,但不是必须。
五个值得养成的提示词习惯
- 先写主体。'A fox astronaut on Mars.' 而不是 '帮我生成一张里面有只狐狸的图……'
- 接着写镜头和光线:'35mm,柔和轮廓光,黄金时刻'。
- 最后用风格锚定收尾:'editorial photography'、'吉卜力工作室'、'扁平插画'。
- 别用大白话写否定式('不要包含……')— 直接说你想要什么。
- 做 HD 时要更具体。模型有更大的发挥空间,会更字面地照做。
什么时候不要用 GPT-image-2
如果你需要某个特定的二次元微调模型、某个特定的 Lora,或完全的本地控制,Stable Diffusion 仍然是更合适的选择。如果你已经在为 Midjourney 付费,而且喜欢它那种家族风格,那就继续待在那。GPT-image-2 的强项是可靠 — 你描述什么,它就给什么。
成本参考
一个一般的创作者每月生成 100 张标准图,OpenAI 原始成本大约 $5.30。在 gptimage2.plus 这类托管服务上,大约会变成每月 $10 — 差额覆盖了基础设施、客服、内容审核,以及(在我们这边)免费托管的生成历史。