GPT-5.6 Sol・Terra・Luna
完全解説とベンチマーク(2026)

TerminalBench 91.9% · 三層料金 · 政府制限 · Cerebras 750 token/s

GPT-5.6 Sol Terra Luna ベンチマーク比較
2026年6月26日、OpenAI は GPT-5.6 Sol・Terra・Luna を公開しました。初めて太陽系の天体名を冠した今年最大のモデルファミリーです。Sol が待つ価値があるか、Terra が GPT-5.5 とどう比べるか、なぜまだ一般利用できないのか——本稿では三層料金マトリクス、Max/Ultra マルチエージェントモード、TerminalBench および CTF の数値、米国政府による制限の背景、Claude Mythos 5 との正面比較、六ステップ Runbook と FAQ 六問までを整理します。
01

GPT-5.6 はいつ公開され、なぜアクセスが制限されているのか

OpenAI は6月26日、太陽系命名の Sol(フラッグシップ)、Terra(バランス型)、Luna(軽量型)の三モデルを公開しました。Sol は TerminalBench 2.1 で記録的な 91.9% を記録し、Claude Mythos 5 の首位を奪いました。三モデルすべてが OpenAI のサイバーセキュリティ「High」基準を初めて同時に満たした製品ラインです。

モデル最適用途入力出力ハイライト
Sol複雑なコーディング・エージェント$5 / 100万$30 / 100万TerminalBench 第1位 91.9%
Terra大量ビジネス API$2.50 / 100万$15 / 100万GPT-5.5 相当、50% 安価
Luna要約・自動化$1 / 100万$6 / 100万Sol 比入力80% 安価

ただし、米国政府の要請により、現時点では約 20 の審査済み組織 のみがモデルにアクセスできます。一般公開は数週間以内と見込まれています。

01

プレビュー限定アクセス:一般 ChatGPT ユーザーは GPT-5.6 をまだ利用できません。API アクセスは政府承認パートナーに限定されており、本番計画に空白期間が生じています。

02

三層料金の混乱:Sol の入力トークン単価は Luna の5倍です。Terra は GPT-5.5 相当を半額で提供すると主張していますが、自社ワークロードでの検証なしには判断が難しい状況です。

03

競合の空白:Claude Fable 5 と Mythos 5 は6月12日にオフライン化され、Gemini 3.5 Pro は7月に延期されました。2026年6月は史上最大の AI リリース月となるはずでした。

04

サイバーリスク High 評価:三ティアすべてが OpenAI の High サイバーセキュリティ分類を受けています。コンプライアンスチームは明確なデプロイガードレールが必要です。

05

システムカード未完全公開:SWE-Bench Pro などの次元はまだ完全には公開されていません。TerminalBench だけでは本番判断の根拠として不十分です。

02

GPT-5.6 Sol vs Terra vs Luna:スタックに合うモデルはどれか

GPT-5.6 Sol は OpenAI 史上最も能力の高いモデルです。これまで存在しなかった二つの推論モードを導入しています。

Max

Max モード:Sol は応答前に追加の推論時間を取ります。速度より正確性が求められる場面で、レイテンシと引き換えに精度を高めます。

Ultra

Ultra モード:複数のサブエージェントを生成し、タスクを分割して並列実行し、結果を統合するマルチエージェントアーキテクチャです。TerminalBench 記録の原動力となっています。トークン消費量が大幅に増えるため、真に複雑なタスクにのみ使うことをお勧めします。

GPT-5.6 Terra は日常のエンタープライズ業務を対象としています。大規模カスタマーサポート、社内ツール、ドキュメント分析などに適しています。性能は GPT-5.5 に近く、コストは 50% 低減 — 大規模デプロイにおける最高のコストパフォーマンスです。

GPT-5.6 Luna は高頻度・低レイテンシタスク向けに最適化されています。Luna は非フラッグシップ OpenAI モデルとして初めて、サイバーセキュリティと生物学の両方で High 評価を同時に獲得しました。

次元SolTerraLuna
コンテキストウィンドウ約150万トークン約150万トークン約150万トークン
入力 / 出力料金$5 / $30$2.50 / $15$1 / $6
サイバー評価HighHighHigh
最適ワークロードエージェント・セキュリティ研究エンタープライズ API 規模下書き・分類

Claude Mythos 5 の TerminalBench 首位は Sol 登場までわずか17日間(6月9日以来)しか続きませんでした。

03

GPT-5.6 ベンチマーク結果:TerminalBench・CTF・生命科学

コーディング:TerminalBench 2.1 — 89 の複雑なコマンドライン計画課題で、実際のエージェント挙動を検証します。

モデルスコアモード
GPT-5.6 Sol91.9%Ultra(マルチエージェント)
GPT-5.6 Sol88.8%標準
Claude Mythos 588.0%標準
GPT-5.583.4%標準
Gemini 3.1 Pro Preview70.7%標準

長期エージェント:Agent's Last Exam

モデルタスク完了率(コードモード)
GPT-5.6 Sol50.9% — 50% 超えた唯一のモデル
GPT-5.6 LunaGPT-5.5 をわずかに上回る

サイバーセキュリティ:CTF ヒット率

モデルヒット率
Sol96.7%
Terra91.84%
Luna85.19%

ExploitBench:Sol は Anthropic の Mythos Preview と同等の性能を、出力トークン約3分の1 で達成しています。レッドチーミングにより、Sol が強化された Chromium や Firefox ターゲットに対して完全な機能的エクスプロイトチェーンを自律的に構築できないことも確認されています。

生命科学:GeneBench v1 — Sol は GPT-5.5 と同等以上の性能をより少ないトークンで達成します。HealthBench Professional:60.5、GPT-5.5 から 8.7ポイント 向上しています。

安全性スタック:リアルタイム悪用分類器、アカウントレベルの機密ワークフロー審査、A100 相当 GPU 70万時間の自動レッドチーミング、ユニバーサルジェイルブレイクテスト、ユーザー向け出力前の最終フィルターとして専用大規模推論モデルを備えています。

04

GPT-5.6 アクセス取得:六ステップ開発者 Runbook

01

アクセスティアを確認する:自組織が約20の承認パートナーに含まれるか確認してください。含まれない場合は GPT-5.5 加 Claude Opus 4.8 を維持し、OpenAI ステータスページのアラートを設定してください。

02

ワークロードにモデルをマッチさせる:複雑なコーディングエージェントには Sol(Ultra)。ドキュメントパイプラインとサポート API には Terra。要約と軽量自動化には Luna。予算が厳しい場合は Terra を GPT-5.5 の半額代替として検討してください。

03

モデル ID を外部化する:gpt-5.6-solgpt-5.6-terragpt-5.6-luna を環境変数経由で使用してください。claude-mythos-5 などオフライン ID のハードコードではなく、LiteLLM フォールバックチェーンを設定してください。

04

回帰ベンチマークを実行する:自社コードベースで多段階エージェントタスクを GPT-5.5 ベースラインと照合してください。Ultra モードのトークンコストとレイテンシをプロファイルし、オーバーヘッドを正当化できるタスクにのみ有効化してください。

05

7月の Cerebras を計画する:Cerebras 上の Sol は最大 750 トークン/秒 を目標としており、現行フロンティアモデルの 50〜150 トークン/秒と比べて大幅に高速です。10秒の応答が1秒未満で完了する可能性があります。クォータ確保のため早期に OpenAI エンタープライズ営業へ連絡してください。

06

コンプライアンス審査を完了する:三ティアすべてが High サイバーリスクです。社内デプロイ前に分類器ポリシーを確認してください。30日間の審査ウィンドウ内、7月2日頃に米国サイバー大統領令フレームワークが公布される見込みです。

05

GPT-5.6 vs Claude Mythos 5 と政府制限の先例

カテゴリGPT-5.6 SolClaude Mythos 5
TerminalBench 2.191.9%(Ultra)88.0%
ExploitBenchほぼ同等、3倍安価強力(制限中)
料金$5 / $30$10 / $50(オフライン)
利用可能性限定プレビュー、GA 間近オフライン(輸出規制)
コンテキスト約150万トークン20万トークン

2026年6月2日、トランプ大統領はフロンティア AI モデルの公開前に最大30日間の政府アクセスを認める大統領令に署名しました。6月26日、OpenAI は GPT-5.6 を約 20 の事前承認済み信頼パートナー に限定することに合意しました。これは米国政府が AI 企業にモデル公開の制限を 初めて正式に要求した 事例です。

企業モデルステータス
OpenAIGPT-5.6 Sol/Terra/Luna限定プレビュー(約20組織)
AnthropicClaude Fable 5 / Mythos 56月12日強制オフライン
GoogleGemini 3.5 Pro7月に延期

タイムライン:現在 — 約20パートナーが API と Codex 経由で利用。7月 — ChatGPT GA(Plus/Pro 優先)、公開 API、エンタープライズ向け Cerebras Sol 750 token/s。Polymarket は2026年7月31日までの本格公開確率を 87% と評価しています。

A

TerminalBench 2.1:Sol Ultra が 91.9% を記録し、17日間の Mythos 5 首位を終わらせました。

B

Cerebras 速度:7月から最大 750 token/s — 現行フロンティアモデルの5〜15倍の速度です。

C

トークン効率:ExploitBench で競合とほぼ同等の性能を、出力トークン約 3分の1 で達成しています。

注意:クラウド API だけでは政府制限や突然のモデル停止に対する緩衝がありません。共有 VPS エージェントホストはリソース競合とスワップジッターに悩まされます。ローカル Mac 購入は減価リスクと不確実なアップグレードサイクルを伴います。

7×24 AI エージェント、Sol Ultra マルチエージェントワークフロー、Cursor/Codex 評価パイプラインを本番稼働させる環境では、MESHLAUNCH Mac Mini M4 裸機クラウドレンタルが通常はより適した選択 です。専有 Apple Silicon、日/週/月の柔軟課金、launchd ネイティブエージェント監視を提供します。関連記事:Claude Fable 5 禁止後の代替案AI コーディングアシスタント比較

よくある質問

一般ユーザー向けにはまだ利用できません。現在は API と Codex 経由で約20の信頼済みパートナー組織に限定されています。2026年7月以降、数週間以内に ChatGPT への本格展開が見込まれます。モデルが広く利用可能になった際のエージェントホスト選定は料金ページをご覧ください。

Sol は Max/Ultra マルチエージェントモードを備えたフラッグシップで、TerminalBench 2.1 で 91.9%、入力 $5 / 出力 $30 per MTok です。Terra は GPT-5.5 相当の性能を半額($2.50 / $15)で提供し、大量のビジネスドキュメント処理やサポート API に最適です。

6月2日の大統領令に続き、ホワイトハウス(OSTP および ONCD 経由)がセキュリティ審査期間中のアクセス制限を OpenAI に要請しました。OpenAI はこれに従いましたが、恒久的な業界慣行になることに反対する旨を公表しています。

2026年7月から一部エンタープライズ顧客向けに最大750トークン/秒を目標としており、現行フロンティアモデルの50〜150トークン/秒と比べて約5〜15倍の速度です。

Sol は TerminalBench 2.1 で 91.9%(Mythos 5 は 88.0%)でリードしています。ExploitBench ではほぼ同等の性能を約3分の1のトークンコストで達成します。コンテキストは約150万トークン対20万トークンです。Fable 5 は SWE-Bench Pro で依然リードしている可能性があり、GPT-5.6 システムカードの完全データは待たれる状況です。

複雑なコーディングエージェントとセキュリティ研究には Sol、大規模展開には Terra、下書きと自動化には Luna、7月以降の低レイテンシリアルタイムアプリには Cerebras 上の Sol が適しています。マルチモデル評価環境の構築はヘルプセンターをご参照ください。