Release-Datum, Preismatrix und Zugangslimitierung
OpenAI veröffentlichte GPT-5.6 am 26. Juni 2026 mit dem Namensschema Sol (Flaggschiff), Terra (ausgewogen) und Luna (leicht). Sol erreicht 91,9 % auf TerminalBench 2.1 und verdrängt Claude Mythos 5. Alle drei Modelle erfüllen erstmals gemeinsam OpenAIs High-Cybersecurity-Schwelle.
| Modell | Einsatz | Input | Output | Kennzahl |
|---|---|---|---|---|
| Sol | Agenten, komplexes Coding | 5 USD / 1M | 30 USD / 1M | TerminalBench #1: 91,9 % |
| Terra | Volumen-Enterprise | 2,50 USD / 1M | 15 USD / 1M | GPT-5.5-Niveau, 50 % günstiger |
| Luna | Summary, Automatisierung | 1 USD / 1M | 6 USD / 1M | 80 % günstiger als Sol (Input) |
Einschränkung: Auf US-Regierungsanfrage haben derzeit nur ca. 20 geprüfte Organisationen Zugang. Breite Verfügbarkeit wird in wenigen Wochen erwartet.
Preview-only: ChatGPT-Nutzer ohne Partnerstatus haben keinen Zugang. API nur für genehmigte Partner — Planungslücke für Produktion.
Preisstufen-Faktor 5: Sol-Input kostet 5× Luna. Terra behauptet GPT-5.5-Parität bei halbiertem Preis — ohne eigene Workload-Benchmarks schwer verifizierbar.
Wettbewerber-Vakuum: Claude Fable 5 und Mythos 5 offline seit 12. Juni. Gemini 3.5 Pro verschoben auf Juli. Juni 2026 sollte der stärkste AI-Release-Monat werden.
High Cyber-Rating: Compliance-Teams brauchen Deployment-Leitplanken. Bei EU-Daten: AVV, Datenresidenz und DSGVO-konforme Cloud-Verarbeitung vor internem Rollout prüfen.
Unvollständiges System Card: SWE-Bench Pro und weitere Dimensionen fehlen. TerminalBench allein reicht nicht für Produktionsentscheidungen.
Sol vs. Terra vs. Luna: Spezifikationen und Modi
GPT-5.6 Sol führt OpenAIs Kapazitätsrang. Zwei neue Reasoning-Modi:
Max Mode: Zusätzliche Reasoning-Zeit vor der Antwort. Latenz gegen Genauigkeit — wenn die Antwort stimmen muss, nicht nur schnell sein.
Ultra Mode: Spawn mehrerer Subagenten, parallele Ausführung, Merge der Ergebnisse. Multi-Agent-Architektur treibt den TerminalBench-Rekord. Nur für wirklich komplexe Tasks — Token-Verbrauch deutlich höher.
GPT-5.6 Terra zielt auf Enterprise-Alltag: Support-Skalierung, interne Tools, Dokumentenanalyse. Nahe GPT-5.5 bei 50 % niedrigeren Kosten — bestes Preis-Leistungs-Verhältnis für große Deployments.
GPT-5.6 Luna für Hochfrequenz und niedrige Latenz. Erstes Nicht-Flaggschiff mit simultanem High in Cybersecurity und Biologie.
| Dimension | Sol | Terra | Luna |
|---|---|---|---|
| Kontextfenster | ca. 1,5 M Token | ca. 1,5 M Token | ca. 1,5 M Token |
| Input / Output | 5 / 30 USD | 2,50 / 15 USD | 1 / 6 USD |
| Cyber-Rating | High | High | High |
| Ideal-Workload | Agenten, Security-Research | Enterprise-API-Skalierung | Drafting, Klassifikation |
Claude Mythos 5 hielt TerminalBench #1 nur 17 Tage (seit 9. Juni) — bis Sol kam.
Benchmark-Daten: TerminalBench, CTF, Life Sciences
Coding: TerminalBench 2.1 — 89 komplexe CLI-Planungsaufgaben, echtes Agent-Verhalten.
| Modell | Score | Modus |
|---|---|---|
| GPT-5.6 Sol | 91,9 % | Ultra (Multi-Agent) |
| GPT-5.6 Sol | 88,8 % | Standard |
| Claude Mythos 5 | 88,0 % | Standard |
| GPT-5.5 | 83,4 % | Standard |
| Gemini 3.1 Pro Preview | 70,7 % | Standard |
Long-Horizon-Agenten: Agent's Last Exam
| Modell | Task Completion (Code-Modus) |
|---|---|
| GPT-5.6 Sol | 50,9 % — einziges Modell über 50 % |
| GPT-5.6 Luna | Leicht über GPT-5.5 |
Cybersecurity: CTF-Hit-Raten
| Modell | Hit-Rate |
|---|---|
| Sol | 96,7 % |
| Terra | 91,84 % |
| Luna | 85,19 % |
ExploitBench: Sol gleicht Anthropic Mythos Preview bei nur ca. einem Drittel der Output-Token. Red-Teaming bestätigt: Sol kann keine vollständige Exploit-Kette gegen gehärtetes Chromium oder Firefox autonom bauen.
Life Sciences: GeneBench v1 — Sol erreicht oder übertrifft GPT-5.5 mit weniger Token. HealthBench Professional: 60,5, plus 8,7 Punkte gegen GPT-5.5.
Safety-Stack: Echtzeit-Missbrauchsklassifikatoren, Account-Level-Review für sensible Workflows, 700.000 A100-äquivalente GPU-Stunden automatisiertes Red-Teaming, universale Jailbreak-Tests und ein spezialisiertes Large-Reasoning-Modell als finaler Filter vor User-Output.
Sechs-Schritte-Runbook für Entwickler
Zugangstier prüfen: Ist Ihre Org unter den ca. 20 Partnern? Falls nicht: GPT-5.5 plus Claude Opus 4.8 halten, OpenAI-Status-Alerts setzen.
Modell-Workload-Match: Sol (Ultra) für komplexe Coding-Agenten. Terra für Dokument-Pipelines und Support-APIs. Luna für Summary und leichte Automatisierung. Terra als halbpreisiger GPT-5.5-Substitut bei Budgetdruck.
Model-IDs externalisieren: gpt-5.6-sol, gpt-5.6-terra, gpt-5.6-luna per Umgebungsvariablen. LiteLLM-Fallback-Ketten statt hardcoded offline IDs wie claude-mythos-5.
Regression-Benchmarks: Multi-Step-Agent-Tasks auf eigener Codebase gegen GPT-5.5-Baseline. Ultra-Mode Token-Kosten und Latenz profilieren — nur bei gerechtfertigten Tasks aktivieren.
Cerebras Juli planen: Sol auf Cerebras Ziel bis 750 Token/s vs. 50–150 heute. 10-Sekunden-Antwort in unter einer Sekunde. Enterprise-Sales frühzeitig für Quota kontaktieren.
Compliance-Review: Alle drei Tiers High Cyber-Risk. Klassifikator-Policies vor internem Rollout. US-Cyber-EO-Rahmen erwartet ca. 2. Juli im 30-Tage-Review. EU: DSGVO, AVV und Datenresidenz bei Cloud-API-Prompts und Agent-Logs — siehe Hilfezentrum.
GPT-5.6 vs. Mythos 5 und Regierungs-Präzedenzfall
| Kategorie | GPT-5.6 Sol | Claude Mythos 5 |
|---|---|---|
| TerminalBench 2.1 | 91,9 % (Ultra) | 88,0 % |
| ExploitBench | Nahezu gleich, 3× günstiger | Stark (eingeschränkt) |
| Preis | 5 / 30 USD | 10 / 50 USD (offline) |
| Verfügbarkeit | Preview, GA bald | Offline (Exportkontrolle) |
| Kontext | ca. 1,5 M Token | 200 K Token |
Am 2. Juni 2026 unterzeichnete Trump eine Executive Order mit bis zu 30 Tagen Pre-Release-Regierungszugang für Frontier-Modelle. Am 26. Juni limitierte OpenAI GPT-5.6 auf ca. 20 vorab genehmigte Partner — erstmals verlangte die US-Regierung formal die Einschränkung eines Modell-Releases.
| Anbieter | Modell | Status |
|---|---|---|
| OpenAI | GPT-5.6 Sol/Terra/Luna | Preview (ca. 20 Orgs) |
| Anthropic | Claude Fable 5 / Mythos 5 | Offline seit 12. Juni |
| Gemini 3.5 Pro | Verschoben auf Juli |
Timeline: Jetzt — ca. 20 Partner via API und Codex. Juli — ChatGPT GA (Plus/Pro zuerst), Public API, Cerebras Sol 750 token/s für Enterprise. Polymarket: 87 % Wahrscheinlichkeit breite Freigabe bis 31. Juli 2026.
TerminalBench 2.1: Sol Ultra 91,9 %, Mythos 5 nach 17 Tagen an #1 verdrängt.
Cerebras-Speed: Bis 750 token/s ab Juli — 5× bis 15× schneller als heutige Frontier-Modelle.
Token-Effizienz: ExploitBench-Parität bei ca. einem Drittel der Output-Token.
Warnung: Cloud-APIs allein bieten keinen Puffer gegen Regierungs-Sperren oder abrupte Modell-Abschaltungen. Shared-VPS-Agent-Hosts leiden unter Ressourcen-Konkurrenz. Lokaler Mac-Kauf: Abschreibungsrisiko. Bei EU-Prompt-Daten: DSGVO-konforme Verarbeitung und AVV nicht vergessen.
Für 24/7-Agent-Produktion, Sol-Ultra-Multi-Agent-Workflows und Cursor/Codex-Eval-Pipelines ist MESHLAUNCH Mac Mini M4 Bare-Metal-Cloud-Miete meist die bessere Basis: dediziertes Apple Silicon, flexible Tages-/Wochen-/Monatsabrechnung, native launchd-Agent-Supervision. Siehe Mietpreise, Claude Fable 5 Alternativen und AI-Coding-Assistenten-Vergleich.
Noch nicht für die Allgemeinheit. Derzeit nur für rund 20 Partner per API und Codex. Breite ChatGPT-Freigabe in Juli 2026 erwartet. Agent-Host-Optionen: Mietpreise.
Sol: Flaggschiff mit Max/Ultra, 91,9 % TerminalBench 2.1, 5/30 USD pro MTok. Terra: GPT-5.5-Niveau bei halbierten Kosten (2,50/15 USD), ideal für volumenstarke Dokument- und Support-APIs.
Nach Trumps EO vom 2. Juni bat die US-Regierung (OSTP/ONCD) OpenAI, den Zugang während der Sicherheitsprüfung zu begrenzen. OpenAI widerspricht einer dauerhaften Industrie-Norm — erstmals formale Regierungsanforderung zur Modell-Sperre.
Ab Juli 2026 bis zu 750 Token/s für ausgewählte Enterprise-Kunden — etwa 5 bis 15 Mal schneller als Frontier-Modelle mit 50 bis 150 Token/s.
Sol führt TerminalBench 2.1 mit 91,9 % vs. 88,0 % bei Mythos 5. ExploitBench nahezu gleich bei einem Drittel Token-Kosten. Kontext ca. 1,5 M vs. 200 K. Fable 5 kann bei SWE-Bench Pro führen — vollständiges GPT-5.6 System Card steht aus.
Sol für komplexe Coding-Agenten und Security-Research. Terra für Skalierung. Luna für Drafting und Automatisierung. Sol auf Cerebras ab Juli für latenzkritische Apps. Multi-Modell-Setup: Hilfezentrum — inkl. DSGVO-Hinweisen bei Cloud-Daten.