Apr 22, 2026 · 読了 9 分
GPT-image-2 の仕組みを実用的に解説(クリエイター向けガイド)
GPT-image-2 は OpenAI の最新画像モデルです。DALL·E 3 から何が変わったのか、内部で何が新しくなったのか、実際にどうプロンプトを書けばよいのか — 実践的なガイドをお届けします。
OpenAI は 2026 年 4 月 21 日に gpt-image-2 をリリースしました。DALL·E シリーズの後継にあたるモデルです。ChatGPT と密に統合されていた DALL·E 3 とは異なり、gpt-image-2 は一般公開と同じ週にファーストクラスの API モデルとして登場しました。これは品質、コントロールできる範囲、そして得意な作業の種類すべてに影響しています。
DALL·E 3 からの変更点
- ネイティブ解像度の向上:標準で 1024² 出力、必要に応じて 2K HD も内蔵。
- プロンプト忠実度の改善:複数被写体や空間関係を含む複雑なプロンプトもきちんと機能します。
- 画像入力は高忠実度対応 — アップロードした参照画像が読み込み前にダウンサンプリングされません。
- トークンベースの料金体系:画像入力 100 万トークンあたり $8、画像出力 100 万トークンあたり $30 — 予測しやすく、スケールにも対応。
3 段階の品質、3 段階の価格
GPT-image-2 では「low」「medium」「high」の品質設定が選べます。それぞれ 1024² で 1 枚あたり $0.006 / $0.053 / $0.211 のコストに対応します。日常的な用途ではほぼ medium で十分です — high は「クリアな Web 画像」と「雑誌の表紙」の差にあたります。low はアイデア出し用:速くて安価、粗さはある程度受け入れる前提で。
画像編集が実用レベルに
DALL·E 3 は生成専用でした。GPT-image-2 はアップロード画像とプロンプトを受け取り、一貫性のある編集結果を返します。マスク、ライティング、パースの整合性はモデルが内部で処理してくれるので、ControlNet やインペイントのワークフローは不要です。ピンポイントの編集ではマスクを塗ると有効ですが、必須ではありません。
効果の高いプロンプトの 5 つの習慣
- 被写体から書き始める。「火星にいるキツネの宇宙飛行士。」「キツネが…の画像を生成して」ではなく。
- 次にカメラとライティングを書く:「35mm、柔らかなリムライト、ゴールデンアワー」。
- 最後にスタイルのアンカーを置く:「エディトリアル写真」「スタジオジブリ」「フラットイラスト」。
- 平叙文での否定プロンプト(「~を含めないで」)は避け、代わりに「欲しい要素」を明示する。
- HD ではより具体的に書く。モデルの余裕が増え、指示をより文字通りに反映します。
GPT-image-2 を使うべきでない場面
特定のアニメ系ファインチューンや特定の Lora を使いたい、ローカルでフルコントロールしたいという場合は、いまでも Stable Diffusion が正解です。すでに Midjourney に課金していて、そのハウススタイルが好きなら、そのままで構いません。GPT-image-2 の強みは信頼性 — 書いた通りに動くことです。
コストの目安
標準画像を月 100 枚ほど生成する典型的なクリエイターなら、OpenAI の素のコストで月およそ $5.30 です。gptimage2.plus のようなマネージドサービスでは、これがおよそ月 $10 になります — 差額はインフラ、サポート、コンテンツモデレーション、そして(当社の場合は)生成履歴のホスティングを無料で提供する分です。