GPT Image 2で何が変わった？日本語テキスト描画・バナー制作・アバター生成の実例とOpenAI公式プロンプト指針

ZenChAIne·2026年5月5日

AIOpenAI画像生成

はじめに

2026年4月21日、OpenAI は新しい画像生成モデル gpt-image-2（消費者向け表記は「ChatGPT Images 2.0」）を公開しました。注目すべきは「日本語を含む非ラテン文字の描画精度が大きく上がった」点で、ポスターやバナーなど 本文内に日本語の文字列が含まれる画像 が、ようやく一発でそのまま使えるレベルに到達したという評価が広がっています。

ZenChAIne でもクライアントワーク向けのバナー・LP 用ビジュアル制作で gpt-image-2 を試しており、本記事ではモデルの公式仕様、前世代 gpt-image-1.5 との差分、競合の Google Nano Banana 2 との位置づけ、そして 広告バナー・販促画像・アバター生成で実際に効くプロンプトの組み立て方 を、OpenAI 公式ガイドに沿って整理します。

この記事のポイント

gpt-image-2 はラテン文字／日本語・中国語・韓国語・ヒンディー・ベンガル語のテキスト描画精度が 第三者検証で約99% とされ、推奨解像度は最大2K（4K相当は実験的）、1プロンプトで 最大10枚生成、APIの参照画像入力は 最大16枚、thinking モードで描画前にレイアウトを計画する
前世代 gpt-image-1.5 は「速く・安く・細部編集に強い」、gpt-image-2 は「描画前に計画を立てる」方向の進化。DALL-E 2／3 は2026年5月12日にAPIから削除（推奨代替は gpt-image-1 / gpt-image-1-mini）
Google の Nano Banana 2 は写実性と速度で強く、gpt-image-2 は 構造制御・テキスト・初稿の完成度 で優位（外部メディアの10件ブラインド比較で 48/50 vs 40/50 という結果が報告）
バナー・販促・アバターでは、「文字は引用符／大文字で固定」「背景→主題→詳細→制約の順序」「Image 1: …, Image 2: … で参照画像をインデックス化」 が公式推奨

gpt-image-2 で具体的に何が新しくなったのか？

gpt-image-2 の最大の変化は、画像を描き始める前にモデルが内部で 「どこに何を置くか」を計画してから生成する ようになったことです。OpenAI はこれを 「thinking」モード と呼び、レイアウト計画・参考画像の照合・自己チェックまでを描画前に行います。

公式・各種テック媒体の発表をまとめると、変化は次の5点に集約できます。

観点	内容
テキスト描画精度	ラテン／日本語／中国語／韓国語／ヒンディー／ベンガル語で第三者検証では約99%の文字精度（外部メディア集計）
解像度	OpenAI Cookbook 上の推奨上限は 2K／QHD、4K／UHD は実験的扱い。アスペクト比は 3:1〜1:3
1回あたり生成枚数	1プロンプトで最大10枚（`n` パラメータ）を整合性を保って生成
参照画像入力	編集モードで最大16枚（API リファレンス）。ChatGPT UI ではプラン／UI 制約あり
速度	一部メディアの検証では前世代比およそ2倍（公式値ではなく体感ベース）

公開直後から TechCrunch も「文字生成が予想以上に良い」と報じ、日本国内では gihyo.jp が 「言語をデザインの一部として自然に扱える水準」 と評しています。

加えて、OpenAI は 2026年5月12日に DALL-E 2 / DALL-E 3 を API から削除 し、推奨代替モデルとして gpt-image-1 / gpt-image-1-mini を提示しています（OpenAI deprecations）。これとは別に、ChatGPT 内の画像生成は 無料プラン含む全ユーザーに ImageGen 2.0 を提供 することも告知されており、画像生成系のスタックを一本化する流れが鮮明になっています。

日本語テキスト描画はどこまで実用レベルになったか？

結論として、ポスター・バナー・販促画像のように「中央に日本語のキャッチコピー、周辺に金額やメニューを配置する」ような構図が、初稿でほぼ崩れずに出るレベルです。前世代では細かい文字が潰れたり「ぽい字形」が混ざったりしましたが、gpt-image-2 では本文・見出し・小さな注釈まで読める精度に達しています。

国内の解説では、架空の京都の喫茶店「Kissa Northwind」のポスターを生成させた事例が紹介されており、「Espresso ¥450 / Matcha Latte ¥600 / Butter Toast ¥500」「営業時間／住所／アクセス」が一発で読める との検証結果が出ています。EC 系メディア（うるチカラ）も「日本のEC事業者のバナー制作が完全に変わる」と踏み込んだ表現で評価しています。

ただし注意点もあります。OpenAI の公式 Cookbook（Prompting Guide）では、「文字を引用符（""）で囲むか、大文字で書く」「ブランド名は綴りを1文字ずつ書く」「医療や法律など正確性が必須の領域では出力を必ず校正する」が明記されています。文字精度が上がっても「最終チェックは人間」というのは変わりません。

前世代 gpt-image-1.5 や Google の Nano Banana 2 との違いは？

gpt-image-1.5 は「速く・安く・細部編集に強い」、gpt-image-2 は「考えてから描く」モデル という違いです。一方、Google の Nano Banana 2（Gemini 3.1 Flash Image）は 写実性・速度・アニメ風表現 に強く、生成スピードでは Nano Banana 2、構造制御とテキスト精度では gpt-image-2 という住み分けになっています。

各モデルの位置づけをまとめると次の通りです。

観点	gpt-image-1.5（2025/12/16）	gpt-image-2（2026/4/21）	Nano Banana 2（Google）
公開時期	2025年12月	2026年4月	2026年4月（Gemini Personal Intelligence統合）
推論計画	なし	thinking モード	Flash 系の高速推論
解像度（公式推奨）	高速生成・サージカル編集向け	2K推奨上限／4K相当は実験的	Pro 系で4K対応
多言語テキスト	改善	第三者検証で CJK／ヒンディー／ベンガル ~99%	Search連携で情報グラフィック向け
強み	細部編集・速度・コスト	文字・構造・初稿の完成度	写実・速度・アニメ表現
API料金	旧世代より20%安	画像入力 $8／画像出力 $30（100万トークン換算）。1024px・中品質で約 $0.053／枚	（提供形態は Gemini API）

第三者の比較として、Vidguru は10件のブラインドテストで gpt-image-2 が 48/50、Nano Banana 2 が 40/50 と評価。gpt-image-2 が5戦勝ち5戦引き分けで負けなし という集計です（評価者のバイアスはあり得るため、自社ユースケースでの再評価は推奨）。

実務的な使い分けは次が現実的です。

広告／LP／ECバナーなど「初稿でそのまま使いたい」 → gpt-image-2
量産速度・写実度・SNSイメージ → Nano Banana 2
既存画像の細部編集・低コスト一括生成 → gpt-image-1.5（API では併存。用途で使い分け）

バナー・販促画像・アバターを作るときのプロンプト設計

OpenAI の公式 Cookbook が提示しているのは「キーワードを並べる旧来型」ではなく、「クリエイティブブリーフを書くように、構造化して伝える」 スタイルです。実務で再現性のあるプロンプトは、次の4ステップで組むのがおすすめです。

① 文字は「引用符」または「大文字」で固定する

Title: "夏のキャンペーン" / Subhead: "全品20%OFF" / CTA: "今すぐ購入" のように、実際に画像へ載せたい文字列を引用符で囲み、ブランド名は1文字ずつ綴る のが OpenAI の指針です。フォントの太さ・色・配置（左上／中央など）も明示します。

② 構成は「背景／シーン → 主題 → 詳細 → 制約」の順で書く

OpenAI Cookbook は 「background/scene → subject → key details → constraints の順序で書く」 ことを推奨しています。長文の段落より、短いラベル付きセグメント（または改行）で渡したほうが thinking モードの計画品質が上がります。

text

Format: 21:9 web banner, 2K
Brand: ZenChAIne
Background: Deep navy with subtle noise texture, soft cyan rim light
Subject: 30代女性の側面シルエット、ノートPCを開いている、自然な姿勢
Headline: "AI で広告を、もっと速く" (bold, off-white, left aligned)
Sub: "ZenChAIne の AI 広告制作支援"
CTA: "無料相談はこちら" (button, accent cyan)
Constraints: No stock-photo feel, no decorative gradients, ample negative space on the right

③ アバター・キャラクター生成は「保持リスト」を毎回繰り返す

人物の同一性を保ちたい場合、「Preserve identity / face / clothing / pose の4点を必ず守れ」を毎回プロンプトに書く のが効きます。OpenAI も「保持リストを各イテレーションで再記述してドリフトを防ぐ」よう推奨しています。日本語と英語のどちらでも同じ効果が出ますが、保持指定のキーワード（preserve 系）は英語のままのほうがモデルの学習データと整合しやすいので、説明文は日本語でも保持リストは英語に寄せるのがおすすめです。

英語版の例:

text

Image 1: hero portrait of avatar (reference) — preserve face, hairstyle, outfit, body proportions
Task: same avatar in 3 scenes — (a) office desk, (b) outdoor cafe, (c) on stage holding a mic
Constraints: do not change face, do not alter outfit colors, keep age and pose style

日本語版の例（保持指定だけ英語にした書き方）:

text

画像1: アバターの正面ポートレート（リファレンス） — preserve face, hairstyle, outfit, body proportions
タスク: 同一アバターで3シーン生成 — (a) オフィスのデスク前、(b) 屋外カフェ、(c) ステージでマイクを持っている
制約: 顔を変えない / 服の色を変えない / 年齢と姿勢の雰囲気を維持

④ 参考画像は「番号 + 役割」でモデルに伝える

商品写真とライフスタイル写真を合成する場合などでは、Image 1: product shot / Image 2: lifestyle scene のように番号と役割を明示する と、配置・光源・影の整合性が大きく上がります。これは公式 Cookbook の multi-reference 章でも推奨されている書式です。

⑤ API直叩きでは品質（`quality`）と生成枚数（`n`）を明示する

gpt-image-2 の API では、出力品質を low / medium / high の3段階で指定できます（指定しない場合のデフォルトは medium）。実務では次の使い分けが目安です。

low: ラフ確認用。レイアウトの当たり付けやアイデア出し
medium: 本文用バナー・SNS 投稿。小さい文字や本文テキストはここから上
high: ヒーローイメージ・最終納品。文字密度が高い販促ポスターやインフォグラフィック

n パラメータで 1〜10枚 を同時生成でき、整合性も保たれます。量産時は n=4〜10 で振りつつ、当たりだけ high で再生成するフローが効率的です。

ZenChAIne で実際にバナーを量産しているフローでは、この4点（プラス quality / n の使い分け）を満たすテンプレートを Notion で共有し、「文字列／配色／参考画像3枚／保持リスト」 をテンプレ化することで、初稿採用率（赤入れなしで通る確率）が体感で大きく上がりました。

よくある質問

Q. gpt-image-2 は無料プランの ChatGPT でも使えますか？

A. はい。OpenAI の発表では 無料プランを含む全 ChatGPT ユーザーに「ImageGen 2.0」が提供され、Thinking モードや Pro 向け機能は有料プランで拡張 されます。回数制限や品質上限はプランによって異なるため、商用用途では有料プランか API 経由を検討するのが現実的です。

Q. gpt-image-1.5 はもう使わなくていいのでしょうか？

A. ChatGPT 既定は gpt-image-2 に切り替わりますが、API では gpt-image-1.5 も併存 します。「編集主体・低コストで大量生成」のワークロードでは1.5 のほうがコスト最適なケースもあるため、用途・予算でルーティング するのが推奨です。

Q. 日本語の漢字や記号は本当に崩れませんか？

A. ポスターやバナーレベルでは初稿で読めるケースが大半ですが、長文の小さな注釈や複雑な記号（特殊な絵文字・特殊な括弧）はまだ崩れることがあります。重要箇所は API の quality を medium 以上（本文§⑤参照）にし、文字部分は引用符でロック、最終チェックは人間が校正、の3点で運用するのが安全です。

Q. アバターを毎日同じ顔で量産したいときは？

A. 参考画像（リファレンス）を1枚以上常に同梱し、preserve face / hairstyle / outfit を毎プロンプトで再宣言 するのが基本です。OpenAI もイテレーションごとに保持リストを書き直すことを推奨しており、これだけで「日替わりで雰囲気だけ変える」運用が安定します。例えば次のような短いテンプレで日替わりに使えます。

text

画像1: 既存アバターの正面ポートレート（リファレンス） — preserve face, hairstyle, outfit
今日のシーン: カフェの窓際でラップトップを開いている
制約: 顔を変えない / 服の色を変えない / 表情だけ自然な微笑みに
出力: 1枚 / quality=medium / 16:9

GPT Image 2で何が変わった？日本語テキスト描画・バナー制作・アバター生成の実例とOpenAI公式プロンプト指針

はじめに

gpt-image-2 で具体的に何が新しくなったのか？

日本語テキスト描画はどこまで実用レベルになったか？

前世代 gpt-image-1.5 や Google の Nano Banana 2 との違いは？

バナー・販促画像・アバターを作るときのプロンプト設計

① 文字は「引用符」または「大文字」で固定する

② 構成は「背景／シーン → 主題 → 詳細 → 制約」の順で書く

③ アバター・キャラクター生成は「保持リスト」を毎回繰り返す

④ 参考画像は「番号 + 役割」でモデルに伝える

⑤ API直叩きでは品質（`quality`）と生成枚数（`n`）を明示する

よくある質問

Q. gpt-image-2 は無料プランの ChatGPT でも使えますか？

Q. gpt-image-1.5 はもう使わなくていいのでしょうか？

Q. 日本語の漢字や記号は本当に崩れませんか？

Q. アバターを毎日同じ顔で量産したいときは？

Q. Nano Banana 2 と比べて、最終的にどちらを選べばいいですか？

まとめ

参考ソース