Apr 22, 2026 · 閱讀約 9 分鐘

GPT-image-2 到底怎麼運作(創作者實用指南)

GPT-image-2 是 OpenAI 最新的圖像模型。這是一份創作者的實用指南 — 它和 DALL·E 3 差在哪、底層做了哪些更新、實際上要怎麼下提示詞。

OpenAI 在 2026 年 4 月 21 日發表 gpt-image-2,接棒 DALL·E 系列。和 DALL·E 3 緊綁在 ChatGPT 不同,gpt-image-2 一推出就以一級 API 模型形式上線,當週同步公開。這件事影響很大 — 影響畫質、影響你能控制什麼、也影響它擅長處理哪些工作。

和 DALL·E 3 比有什麼新東西

原生解析度更高:預設就是 1024²,還可隨選內建 2K HD。
提示詞還原度更好:複雜提示(多主體、空間關係)是真的能跑出來。
圖像輸入支援高保真 — 你上傳的參考圖在被讀取前不會被壓縮。
Token 計費:圖像輸入 $8/M、圖像輸出 $30/M — 可預期、可規模化。

三段畫質、三個價位

GPT-image-2 提供「low」、「medium」、「high」三種畫質設定。每段對應不同的單張成本:1024² 下分別是 $0.006 / $0.053 / $0.211。日常用途幾乎都選 medium 就好 — high 是「網頁清晰圖」和「雜誌封面」之間的差距。low 適合發想階段:便宜又快,但邊角會比較粗糙。

圖像編輯是真的能用

DALL·E 3 只能生圖。GPT-image-2 接受上傳的圖像加提示詞,直接給你一張前後一致的編輯結果。模型內部會處理遮罩、打光與透視一致性 — 你不需要 ControlNet 或 inpainting 流程。要做精準局部修改時塗個遮罩還是有用,但只是選配。

五個有回報的下提示詞習慣

主體先行。「火星上的狐狸太空人」就好。不要寫「幫我生一張圖,圖裡有一隻狐狸…」
接著說鏡頭和打光:「35mm,柔和輪廓光,黃金時刻」。
結尾放風格錨點:「編輯級攝影」、「吉卜力風」、「扁平插畫」。
別用白話寫負面提示詞(「不要有…」)— 直接說你要的是什麼。
拍 HD 時要寫得更具體。模型有更多空間,也會更照字面執行你的指示。

什麼時候不要選 GPT-image-2

如果你需要特定動漫微調模型、特定 Lora,或要在本地完整掌控,Stable Diffusion 還是首選。如果你已經付 Midjourney 還很愛它的家族風格,留著就好。GPT-image-2 的強項是穩定 — 你描述什麼,它就照做。

成本概估

一個典型創作者每月生 100 張標準圖,直接打 OpenAI 大概是 $5.30。透過 gptimage2.plus 這類代管服務,落在約 $10/月 — 中間的差價包了基礎建設、客服、內容審核,還有(我們的情況)免費的雲端生成紀錄。