
Codex マルチエージェント機能の全貌 — Claude Code の代替になれるのか?
はじめに
2026年2月、OpenAI が Codex アプリ(macOS)をリリースし、マルチエージェント機能を本格的にサポートしました。複数の AI エージェントを並列に走らせ、1つのリポジトリに対して同時に作業させる — これまで Claude Code の Task ツールが先行していた領域に、OpenAI が本格参入した形です。
Codex のマルチエージェントは Claude Code の代替になりうるのか。アーキテクチャ、ベンチマーク、実際の使い勝手を比較しながら、その現実を検証します。
Codex マルチエージェントの3つのレイヤー
Codex のマルチエージェント機能は、3つのレイヤーで構成されています。
1. Codex App — GUI ベースのオーケストレーション
2026年2月2日にリリースされた macOS デスクトップアプリです。複数のエージェントをプロジェクトごとのスレッドで管理し、各エージェントが Git worktree で隔離された環境で並列実行されます。
主な特徴は以下の通りです。
- スレッドベースの管理: プロジェクト内で複数スレッドを作成し、エージェントを切り替え可能
- Worktree 隔離: 各エージェントがリポジトリのコピーで作業し、コンフリクトを回避
- レビューキュー: エージェントの結果を一括レビュー・承認するインターフェース
- Skills マーケットプレイス: Figma 連携、デプロイツール、画像生成など拡張スキルが利用可能
2. Codex CLI — ターミナルからのマルチエージェント(実験的)
CLI では /agent コマンドでエージェントスレッドを管理します。現時点では 実験的機能 で、multi_agent = true のフラグが必要です。
4つの事前定義ロールが用意されています。
| ロール | 用途 | 特徴 |
|---|---|---|
default | 汎用 | フォールバック用 |
worker | 実装・修正 | コード生成に最適化 |
explorer | コード探索 | 読み取り中心の分析 |
monitor | 長時間監視 | 最大1時間のポーリング対応 |
設定は ~/.codex/config.toml で行います。
[agents.reviewer]
description = "Find security, correctness, and test risks in code."
config_file = "agents/reviewer.toml"
[agents]
max_threads = 4
max_depth = 13. Agents SDK 連携 — プログラマティックなオーケストレーション
最も強力なレイヤーです。Codex CLI を MCP サーバーとして起動し、OpenAI Agents SDK で複数エージェントをオーケストレーションします。
async with MCPServerStdio(
name="Codex CLI",
params={"command": "npx", "args": ["-y", "codex", "mcp-server"]},
) as codex_mcp_server:
frontend_dev = Agent(
name="Frontend Developer",
mcp_servers=[codex_mcp_server],
)
backend_dev = Agent(
name="Backend Developer",
mcp_servers=[codex_mcp_server],
)
project_manager = Agent(
name="Project Manager",
handoffs=[frontend_dev, backend_dev],
mcp_servers=[codex_mcp_server],
)MCP サーバーが公開するツールは codex(セッション開始)と codex-reply(セッション継続)の2つで、threadId によるセッション維持が可能です。
Claude Code のマルチエージェント — 何が違うのか
Claude Code は 2025年後半から Task ツールによるサブエージェント機構を提供しており、2026年2月には Agent Teams(リサーチプレビュー)も発表されています。
Task ツール — 型付きサブエージェント
Claude Code の Task ツールでは、20以上の専門サブエージェント型(Bash, Explore, Plan, python-expert, security-engineer 等)を用途に応じて選択できます。
Task(subagent_type="python-expert", isolation="worktree")
→ 専用コンテキストウィンドウ + Git worktree 隔離
Codex のロールが4種類(default, worker, explorer, monitor)であるのに対し、Claude Code は用途別に細分化された型を提供しており、「適材適所」のアプローチを取っています。
Agent Teams — エージェント間協調
Agent Teams は Claude Code の最新機能で、以下を実現します。
- 専用コンテキストウィンドウ: 各エージェントが独立したコンテキストを持つ
- 依存関係付きタスクリスト: エージェント間でタスクの依存関係を追跡
- エージェント間メッセージング: 直接通信でコーディネーション
Codex のスレッドが独立動作するのに対し、Claude Code の Agent Teams はエージェント同士が依存関係を認識して協調できる点が大きな差です。
ベンチマーク比較 — 数字が語る現実
2026年2月時点の主要ベンチマーク結果です。
| ベンチマーク | GPT-5.3-Codex | Claude Opus 4.6 | 有利 |
|---|---|---|---|
| SWE-bench Verified | — | 79.4〜80.8% | Claude |
| SWE-bench Pro Public | 78.2% | — | (比較不可) |
| Terminal-Bench 2.0 | 77.3% | 65.4% | Codex |
| GPQA Diamond | — | — | Claude |
SWE-bench Verified と SWE-bench Pro Public は問題セットが異なるため、スコアの直接比較はできません。唯一の同条件比較は Terminal-Bench 2.0 で、ここでは Codex が約12ポイントリードしています。
Terminal-Bench ではターミナル操作やコマンドライン操作が重視されるため、Codex のクラウドサンドボックス型アーキテクチャが有利に働いています。一方、複雑な推論タスクでは Claude が優勢です。
トークン効率 — 見落とせないコスト差
実運用で重要なのがトークン消費量です。同一タスクで Claude は Codex の3〜4倍のトークン を消費するという報告があります(例: Figma プラグイン生成で 6.2M vs 1.5M トークン)。
これは Claude の「思考を言語化する」アプローチに起因します。推論過程の透明性は品質管理に有利ですが、利用制限に直結します。
| プラン | Codex | Claude Code |
|---|---|---|
| 月額$20 | ChatGPT Plus: 30-150 msg/5h | Claude Pro: 同等以下 |
| 月額$200 | ChatGPT Pro: 300-1,500 msg/5h | Claude Max 20x: 20倍 |
さらに Codex は現在、ChatGPT の全有料プランで トークンスループット2倍 のプロモーション中です。
「代替」の現実 — 結論
結論: Codex は Claude Code の「代替」ではなく「補完」です。
Codex を選ぶべきケース
- 自律実行: 詳細な仕様書を渡して放置する「ファイア&フォーゲット」型ワークフロー
- 並列プロトタイピング: 複数アプローチを同時に試して比較する探索的開発
- コスト重視: トークン効率の良さを活かした大量タスク処理
- ビジュアル管理: GUI でのエージェント管理を好むチーム
Claude Code を選ぶべきケース
- 複雑なリファクタリング: 依存関係を追跡しながらの大規模コード変更
- 協調型マルチエージェント: タスク間の依存を管理する Agent Teams
- インタラクティブ開発: 対話しながらの段階的な設計・実装
- クロスプラットフォーム: Linux/Windows を含む全 OS 対応
Codex のマルチエージェント機能は印象的ですが、CLI での対応はまだ実験的で、エージェント間の協調メカニズムは Claude Code の Agent Teams に及びません。一方、Codex App の GUI ベースのオーケストレーションと Skills マーケットプレイスは、Claude Code にはない独自の強みです。
まとめ
Codex のマルチエージェント機能は、「複数エージェントの並列実行」という基本を押さえつつ、GUI ベースの管理と Skills エコシステムで独自のポジションを築いています。ただし、エージェント間の依存関係管理や協調実行の成熟度では、Claude Code が一歩先を行っています。
両ツールは異なる思想で設計されており、最適な使い方は「Codex で素早くプロトタイプ → Claude Code の Agent Teams で品質を担保」というハイブリッドアプローチかもしれません。AI コーディングツールの進化は加速しており、どちらか一方に賭けるのではなく、両方の特性を理解して使い分けることが重要です。
ZenChAIne では、こうした AI 開発ツールの最前線を継続的にウォッチし、実践的な知見を共有していきます。