
GPT Image 2で何が変わった?日本語テキスト描画・バナー制作・アバター生成の実例とOpenAI公式プロンプト指針
はじめに
2026年4月21日、OpenAI は新しい画像生成モデル gpt-image-2(消費者向け表記は「ChatGPT Images 2.0」)を公開しました。注目すべきは「日本語を含む非ラテン文字の描画精度が大きく上がった」点で、ポスターやバナーなど 本文内に日本語の文字列が含まれる画像 が、ようやく一発でそのまま使えるレベルに到達したという評価が広がっています。
ZenChAIne でもクライアントワーク向けのバナー・LP 用ビジュアル制作で gpt-image-2 を試しており、本記事ではモデルの公式仕様、前世代 gpt-image-1.5 との差分、競合の Google Nano Banana 2 との位置づけ、そして 広告バナー・販促画像・アバター生成で実際に効くプロンプトの組み立て方 を、OpenAI 公式ガイドに沿って整理します。
この記事のポイント
- gpt-image-2 はラテン文字/日本語・中国語・韓国語・ヒンディー・ベンガル語のテキスト描画精度が 第三者検証で約99% とされ、推奨解像度は最大2K(4K相当は実験的)、1プロンプトで 最大10枚生成、APIの参照画像入力は 最大16枚、thinking モードで描画前にレイアウトを計画する
- 前世代 gpt-image-1.5 は「速く・安く・細部編集に強い」、gpt-image-2 は「描画前に計画を立てる」方向の進化。DALL-E 2/3 は2026年5月12日にAPIから削除(推奨代替は gpt-image-1 / gpt-image-1-mini)
- Google の Nano Banana 2 は写実性と速度で強く、gpt-image-2 は 構造制御・テキスト・初稿の完成度 で優位(外部メディアの10件ブラインド比較で 48/50 vs 40/50 という結果が報告)
- バナー・販促・アバターでは、「文字は引用符/大文字で固定」「背景→主題→詳細→制約の順序」「
Image 1: …, Image 2: …で参照画像をインデックス化」 が公式推奨
gpt-image-2 で具体的に何が新しくなったのか?
gpt-image-2 の最大の変化は、画像を描き始める前にモデルが内部で 「どこに何を置くか」を計画してから生成する ようになったことです。OpenAI はこれを 「thinking」モード と呼び、レイアウト計画・参考画像の照合・自己チェックまでを描画前に行います。
公式・各種テック媒体の発表をまとめると、変化は次の5点に集約できます。
| 観点 | 内容 |
|---|---|
| テキスト描画精度 | ラテン/日本語/中国語/韓国語/ヒンディー/ベンガル語で 第三者検証では約99%の文字精度(外部メディア集計) |
| 解像度 | OpenAI Cookbook 上の推奨上限は 2K/QHD、4K/UHD は 実験的扱い。アスペクト比は 3:1〜1:3 |
| 1回あたり生成枚数 | 1プロンプトで 最大10枚(n パラメータ)を整合性を保って生成 |
| 参照画像入力 | 編集モードで 最大16枚(API リファレンス)。ChatGPT UI ではプラン/UI 制約あり |
| 速度 | 一部メディアの検証では 前世代比およそ2倍 (公式値ではなく体感ベース) |
公開直後から TechCrunch も「文字生成が予想以上に良い」と報じ、日本国内では gihyo.jp が 「言語をデザインの一部として自然に扱える水準」 と評しています。
加えて、OpenAI は 2026年5月12日に DALL-E 2 / DALL-E 3 を API から削除 し、推奨代替モデルとして gpt-image-1 / gpt-image-1-mini を提示しています(OpenAI deprecations)。これとは別に、ChatGPT 内の画像生成は 無料プラン含む全ユーザーに ImageGen 2.0 を提供 することも告知されており、画像生成系のスタックを一本化する流れが鮮明になっています。
日本語テキスト描画はどこまで実用レベルになったか?
結論として、ポスター・バナー・販促画像のように「中央に日本語のキャッチコピー、周辺に金額やメニューを配置する」ような構図が、初稿でほぼ崩れずに出る レベルです。前世代では細かい文字が潰れたり「ぽい字形」が混ざったりしましたが、gpt-image-2 では本文・見出し・小さな注釈まで読める精度に達しています。
国内の解説では、架空の京都の喫茶店「Kissa Northwind」のポスターを生成させた事例が紹介されており、「Espresso ¥450 / Matcha Latte ¥600 / Butter Toast ¥500」「営業時間/住所/アクセス」が一発で読める との検証結果が出ています。EC 系メディア(うるチカラ)も「日本のEC事業者のバナー制作が完全に変わる」と踏み込んだ表現で評価しています。
ただし注意点もあります。OpenAI の公式 Cookbook(Prompting Guide)では、「文字を引用符("")で囲むか、大文字で書く」「ブランド名は綴りを1文字ずつ書く」「医療や法律など正確性が必須の領域では出力を必ず校正する」 が明記されています。文字精度が上がっても「最終チェックは人間」というのは変わりません。
前世代 gpt-image-1.5 や Google の Nano Banana 2 との違いは?
gpt-image-1.5 は「速く・安く・細部編集に強い」、gpt-image-2 は「考えてから描く」モデル という違いです。一方、Google の Nano Banana 2(Gemini 3.1 Flash Image)は 写実性・速度・アニメ風表現 に強く、生成スピードでは Nano Banana 2、構造制御とテキスト精度では gpt-image-2 という住み分けになっています。
各モデルの位置づけをまとめると次の通りです。
| 観点 | gpt-image-1.5(2025/12/16) | gpt-image-2(2026/4/21) | Nano Banana 2(Google) |
|---|---|---|---|
| 公開時期 | 2025年12月 | 2026年4月 | 2026年4月(Gemini Personal Intelligence統合) |
| 推論計画 | なし | thinking モード | Flash 系の高速推論 |
| 解像度(公式推奨) | 高速生成・サージカル編集向け | 2K推奨上限/4K相当は実験的 | Pro 系で4K対応 |
| 多言語テキスト | 改善 | 第三者検証で CJK/ヒンディー/ベンガル ~99% | Search連携で情報グラフィック向け |
| 強み | 細部編集・速度・コスト | 文字・構造・初稿の完成度 | 写実・速度・アニメ表現 |
| API料金 | 旧世代より20%安 | 画像入力 $8/画像出力 $30(100万トークン換算)。1024px・中品質で約 $0.053/枚 | (提供形態は Gemini API) |
第三者の比較として、Vidguru は10件のブラインドテストで gpt-image-2 が 48/50、Nano Banana 2 が 40/50 と評価。gpt-image-2 が5戦勝ち5戦引き分けで負けなし という集計です(評価者のバイアスはあり得るため、自社ユースケースでの再評価は推奨)。
実務的な使い分けは次が現実的です。
- 広告/LP/ECバナー など「初稿でそのまま使いたい」 → gpt-image-2
- 量産速度・写実度・SNSイメージ → Nano Banana 2
- 既存画像の細部編集・低コスト一括生成 → gpt-image-1.5(API では併存。用途で使い分け)
バナー・販促画像・アバターを作るときのプロンプト設計
OpenAI の公式 Cookbook が提示しているのは「キーワードを並べる旧来型」ではなく、「クリエイティブブリーフを書くように、構造化して伝える」 スタイルです。実務で再現性のあるプロンプトは、次の4ステップで組むのがおすすめです。
① 文字は「引用符」または「大文字」で固定する
Title: "夏のキャンペーン" / Subhead: "全品20%OFF" / CTA: "今すぐ購入" のように、実際に画像へ載せたい文字列を引用符で囲み、ブランド名は1文字ずつ綴る のが OpenAI の指針です。フォントの太さ・色・配置(左上/中央など)も明示します。
② 構成は「背景/シーン → 主題 → 詳細 → 制約」の順で書く
OpenAI Cookbook は 「background/scene → subject → key details → constraints の順序で書く」 ことを推奨しています。長文の段落より、短いラベル付きセグメント(または改行)で渡したほうが thinking モードの計画品質が上がります。
Format: 21:9 web banner, 2K
Brand: ZenChAIne
Background: Deep navy with subtle noise texture, soft cyan rim light
Subject: 30代女性の側面シルエット、ノートPCを開いている、自然な姿勢
Headline: "AI で広告を、もっと速く" (bold, off-white, left aligned)
Sub: "ZenChAIne の AI 広告制作支援"
CTA: "無料相談はこちら" (button, accent cyan)
Constraints: No stock-photo feel, no decorative gradients, ample negative space on the right③ アバター・キャラクター生成は「保持リスト」を毎回繰り返す
人物の同一性を保ちたい場合、「Preserve identity / face / clothing / pose の4点を必ず守れ」を毎回プロンプトに書く のが効きます。OpenAI も「保持リストを各イテレーションで再記述してドリフトを防ぐ」よう推奨しています。日本語と英語のどちらでも同じ効果が出ますが、保持指定のキーワード(preserve 系)は英語のままのほうがモデルの学習データと整合しやすいので、説明文は日本語でも保持リストは英語に寄せるのがおすすめです。
英語版の例:
Image 1: hero portrait of avatar (reference) — preserve face, hairstyle, outfit, body proportions
Task: same avatar in 3 scenes — (a) office desk, (b) outdoor cafe, (c) on stage holding a mic
Constraints: do not change face, do not alter outfit colors, keep age and pose style日本語版の例(保持指定だけ英語にした書き方):
画像1: アバターの正面ポートレート(リファレンス) — preserve face, hairstyle, outfit, body proportions
タスク: 同一アバターで3シーン生成 — (a) オフィスのデスク前、(b) 屋外カフェ、(c) ステージでマイクを持っている
制約: 顔を変えない / 服の色を変えない / 年齢と姿勢の雰囲気を維持④ 参考画像は「番号 + 役割」でモデルに伝える
商品写真とライフスタイル写真を合成する場合などでは、Image 1: product shot / Image 2: lifestyle scene のように番号と役割を明示する と、配置・光源・影の整合性が大きく上がります。これは公式 Cookbook の multi-reference 章でも推奨されている書式です。
⑤ API直叩きでは品質(quality)と生成枚数(n)を明示する
gpt-image-2 の API では、出力品質を low / medium / high の3段階で指定できます(指定しない場合のデフォルトは medium)。実務では次の使い分けが目安です。
low: ラフ確認用。レイアウトの当たり付けやアイデア出しmedium: 本文用バナー・SNS 投稿。小さい文字や本文テキストはここから上high: ヒーローイメージ・最終納品。文字密度が高い販促ポスターやインフォグラフィック
n パラメータで 1〜10枚 を同時生成でき、整合性も保たれます。量産時は n=4〜10 で振りつつ、当たりだけ high で再生成するフローが効率的です。
ZenChAIne で実際にバナーを量産しているフローでは、この4点(プラス quality / n の使い分け)を満たすテンプレートを Notion で共有し、「文字列/配色/参考画像3枚/保持リスト」 をテンプレ化することで、初稿採用率(赤入れなしで通る確率)が体感で大きく上がりました。
よくある質問
Q. gpt-image-2 は無料プランの ChatGPT でも使えますか?
A. はい。OpenAI の発表では 無料プランを含む全 ChatGPT ユーザーに「ImageGen 2.0」が提供され、Thinking モードや Pro 向け機能は有料プランで拡張 されます。回数制限や品質上限はプランによって異なるため、商用用途では有料プランか API 経由を検討するのが現実的です。
Q. gpt-image-1.5 はもう使わなくていいのでしょうか?
A. ChatGPT 既定は gpt-image-2 に切り替わりますが、API では gpt-image-1.5 も併存 します。「編集主体・低コストで大量生成」のワークロードでは1.5 のほうがコスト最適なケースもあるため、用途・予算でルーティング するのが推奨です。
Q. 日本語の漢字や記号は本当に崩れませんか?
A. ポスターやバナーレベルでは初稿で読めるケースが大半ですが、長文の小さな注釈や複雑な記号(特殊な絵文字・特殊な括弧)はまだ崩れることがあります。重要箇所は API の quality を medium 以上(本文§⑤参照)にし、文字部分は引用符でロック、最終チェックは人間が校正、の3点で運用するのが安全です。
Q. アバターを毎日同じ顔で量産したいときは?
A. 参考画像(リファレンス)を1枚以上常に同梱し、preserve face / hairstyle / outfit を毎プロンプトで再宣言 するのが基本です。OpenAI もイテレーションごとに保持リストを書き直すことを推奨しており、これだけで「日替わりで雰囲気だけ変える」運用が安定します。例えば次のような短いテンプレで日替わりに使えます。
画像1: 既存アバターの正面ポートレート(リファレンス) — preserve face, hairstyle, outfit
今日のシーン: カフェの窓際でラップトップを開いている
制約: 顔を変えない / 服の色を変えない / 表情だけ自然な微笑みに
出力: 1枚 / quality=medium / 16:9Q. Nano Banana 2 と比べて、最終的にどちらを選べばいいですか?
A. テキストが多いバナー・LP・ECビジュアル → gpt-image-2、写実・SNS・アニメ表現や量産速度 → Nano Banana 2 が現状の使い分けです。両方を契約してプロジェクト単位で使い分けているチームも増えています。
まとめ
gpt-image-2 は「文字が描けない画像生成」という長年の制約を、特に 日本語を含む非ラテン文字 で大きく押し戻した世代です。thinking モードによる事前計画、最大10枚の同時生成と最大16枚の参照画像入力、そして構造化プロンプト指針——どれも単発の技術ではなく、「広告・販促・キャラクターの実務に AI を組み込みやすくするための設計変更」 として機能しています。
ZenChAIne でも、クライアントワーク向けの広告バナー・LP用ビジュアル・社内アバター運用で gpt-image-2 を実装し、「生成→赤入れ→再生成」のサイクル時間を短縮する 実例を積み上げています。AI 画像生成の本格的な業務統合フェーズに入った今、プロンプトの組み立て方そのものをチームの資産化していくことが、今後の差別化ポイントになっていくはずです。
参考ソース
- Introducing ChatGPT Images 2.0 | OpenAI
- GPT Image Generation Models Prompting Guide | OpenAI Cookbook
- GPT Image 2 Model | OpenAI API
- OpenAI、最先端の画像生成モデル「ChatGPT Images 2.0」を発表 | gihyo.jp
- ChatGPT Images 2.0の日本語対応で、EC事業者のバナー制作は完全に変わる | うるチカラ
- Pricing | OpenAI API
- Model Deprecations | OpenAI API
- Nano Banana 2 vs GPT-Image 2: Our 10-Test Blind Benchmark | Vidguru
- Nano Banana 2 - Google DeepMind