GPT-5.6 Sol, Terra et Luna
analyse et benchmarks (2026)

91,9 % TerminalBench · trois niveaux tarifaires · restriction gouvernementale · Cerebras 750 token/s

Comparaison benchmarks GPT-5.6 Sol Terra Luna
Le 26 juin 2026, OpenAI a présenté GPT-5.6 Sol, Terra et Luna — sa famille de modèles la plus ambitieuse de l'année, pour la première fois nommée d'après des corps célestes. Cette analyse professionnelle couvre la matrice tarifaire sur trois niveaux, les modes Max et Ultra multi-agents, les scores TerminalBench et CTF, le contexte de la restriction imposée par Washington, le face-à-face avec Claude Mythos 5, la feuille de route Cerebras, et un runbook en six étapes accompagné de six questions fréquentes.
01

Un lancement historique sous contrôle gouvernemental

OpenAI a dévoilé GPT-5.6 le 26 juin avec une nomenclature solaire : Sol (flagship), Terra (équilibré) et Luna (léger). Sol établit un record sur TerminalBench 2.1 avec 91,9 %, détrônant Claude Mythos 5. Pour la première fois, une gamme complète atteint simultanément le seuil High en cybersécurité d'OpenAI.

ModèleUsage principalInputOutputPoint fort
SolAgents, code complexe5 USD / 1M30 USD / 1M#1 TerminalBench : 91,9 %
TerraEntreprise à volume2,50 USD / 1M15 USD / 1MNiveau GPT-5.5, −50 %
LunaRésumés, automatisation1 USD / 1M6 USD / 1M80 % moins cher que Sol (input)

La contrainte majeure : sur demande du gouvernement américain, seules une vingtaine d'organisations partenaires vérifiées accèdent aux modèles pour l'instant. Une disponibilité élargie est attendue dans les semaines à venir.

01

Accès preview : les utilisateurs ChatGPT ordinaires n'ont pas encore GPT-5.6. L'API reste réservée aux partenaires approuvés — un vide de planification pour les équipes en production.

02

Écart tarifaire x5 : l'input Sol coûte cinq fois Luna. Terra revendique la parité GPT-5.5 à moitié prix — difficile à valider sans benchmarks sur vos propres workloads.

03

Vide concurrentiel : Claude Fable 5 et Mythos 5 hors ligne depuis le 12 juin. Gemini 3.5 Pro repoussé à juillet. Juin 2026 devait être le mois de release IA le plus dense de l'histoire.

04

Classification High cyber : les équipes conformité doivent définir des garde-fous avant tout déploiement interne.

05

System card incomplète : SWE-Bench Pro et d'autres dimensions ne sont pas entièrement publiées. TerminalBench seul ne suffit pas pour une décision de production.

02

Sol, Terra, Luna : positionnement et architecture

GPT-5.6 Sol représente le sommet des capacités OpenAI. Deux modes de raisonnement inédits structurent son avantage compétitif :

Max

Mode Max : Sol investit davantage de temps de raisonnement avant de répondre. Il sacrifie la latence pour privilégier la précision lorsque l'exactitude prime sur la vitesse.

Ultra

Mode Ultra : le modèle déploie plusieurs sous-agents en parallèle, puis fusionne leurs résultats. Cette architecture multi-agents alimente le record TerminalBench. À réserver aux tâches véritablement complexes — la consommation de tokens augmente significativement.

GPT-5.6 Terra cible le quotidien entreprise : support client à grande échelle, outils internes, analyse documentaire. Performance proche de GPT-5.5 avec 50 % de coût en moins — le meilleur rapport qualité-prix pour les déploiements massifs.

GPT-5.6 Luna optimise les tâches à haute fréquence et faible latence. Premier modèle non-flagship d'OpenAI à obtenir simultanément High en cybersécurité et en biologie.

DimensionSolTerraLuna
Contexte~1,5 M tokens~1,5 M tokens~1,5 M tokens
Input / output5 / 30 USD2,50 / 15 USD1 / 6 USD
Cyber ratingHighHighHigh
Workload idéalAgents, recherche sécuritéAPI entreprise à l'échelleDrafting, classification

Claude Mythos 5 n'a tenu la première place TerminalBench que 17 jours — depuis le 9 juin — avant l'arrivée de Sol.

03

Benchmarks : code, cybersécurité et sciences de la vie

Code : TerminalBench 2.1 — 89 défis de planification CLI complexes, mesurant le comportement agent réel.

ModèleScoreMode
GPT-5.6 Sol91,9 %Ultra (multi-agents)
GPT-5.6 Sol88,8 %Standard
Claude Mythos 588,0 %Standard
GPT-5.583,4 %Standard
Gemini 3.1 Pro Preview70,7 %Standard

Agents long horizon : Agent's Last Exam

ModèleComplétion de tâches (mode code)
GPT-5.6 Sol50,9 % — seul modèle au-dessus de 50 %
GPT-5.6 LunaLégèrement au-dessus de GPT-5.5

Cybersécurité : taux de succès CTF

ModèleTaux de succès
Sol96,7 %
Terra91,84 %
Luna85,19 %

ExploitBench : Sol égale Anthropic Mythos Preview en n'utilisant qu'environ un tiers des tokens de sortie. Le red-teaming confirme que Sol ne peut pas construire autonomement une chaîne d'exploit complète contre Chromium ou Firefox durcis.

Sciences de la vie : GeneBench v1 — Sol égale ou surpasse GPT-5.5 avec moins de tokens. HealthBench Professional : 60,5, en hausse de 8,7 points par rapport à GPT-5.5.

Stack de sécurité : classificateurs de mauvais usage en temps réel, revue au niveau compte pour workflows sensibles, 700 000 heures GPU A100-équivalent de red-teaming automatisé, tests universels de jailbreak, et un modèle de raisonnement spécialisé comme filtre final avant sortie utilisateur.

04

Feuille de route développeur : six étapes concrètes

01

Vérifier votre niveau d'accès : confirmez si votre organisation figure parmi les ~20 partenaires approuvés. Sinon, maintenez GPT-5.5 et Claude Opus 4.8, et configurez des alertes sur les pages de statut OpenAI.

02

Associer modèle et workload : Sol (Ultra) pour agents de code complexes. Terra pour pipelines documentaires et APIs support. Luna pour résumés et automatisation légère. Terra comme substitut GPT-5.5 à moitié prix sous contrainte budgétaire.

03

Externaliser les IDs de modèle : utilisez gpt-5.6-sol, gpt-5.6-terra, gpt-5.6-luna via variables d'environnement. Chaînes de repli LiteLLM plutôt que des IDs offline hardcodés comme claude-mythos-5.

04

Exécuter des benchmarks de régression : rejouez vos tâches agent multi-étapes sur votre codebase contre les baselines GPT-5.5. Profilez coût et latence du mode Ultra — activez-le uniquement pour les tâches qui justifient l'overhead.

05

Anticiper Cerebras en juillet : Sol sur Cerebras vise jusqu'à 750 tokens/seconde contre 50–150 aujourd'hui. Une réponse de dix secondes pourrait se terminer en moins d'une seconde. Contactez les ventes enterprise OpenAI tôt pour les quotas.

06

Finaliser la revue conformité : les trois niveaux sont High cyber risk. Examinez les politiques de classificateurs avant déploiement interne. Surveillez le cadre cyber du décret exécutif américain attendu vers le 2 juillet dans la fenêtre de 30 jours.

05

Face à Mythos 5 et un précédent réglementaire inédit

CatégorieGPT-5.6 SolClaude Mythos 5
TerminalBench 2.191,9 % (Ultra)88,0 %
ExploitBenchQuasi identique, 3× moins cherFort (restreint)
Tarification5 / 30 USD10 / 50 USD (offline)
DisponibilitéPreview limitée, GA procheOffline (contrôle export)
Contexte~1,5 M tokens200 K tokens

Le 2 juin 2026, le président Trump a signé un décret exécutif autorisant jusqu'à 30 jours d'accès gouvernemental pré-release aux modèles frontier. Le 26 juin, OpenAI a limité GPT-5.6 à environ 20 partenaires de confiance pré-approuvéspremière fois qu'une administration exige formellement la restriction d'un lancement de modèle.

EntrepriseModèleStatut
OpenAIGPT-5.6 Sol/Terra/LunaPreview (~20 orgs)
AnthropicClaude Fable 5 / Mythos 5Hors ligne depuis 12 juin
GoogleGemini 3.5 ProReporté à juillet

Calendrier : maintenant — ~20 partenaires via API et Codex. Juillet — ChatGPT GA (Plus/Pro en premier), API publique, Sol Cerebras à 750 token/s pour l'entreprise. Polymarket attribue 87 % de probabilité à une release élargie d'ici le 31 juillet 2026.

A

TerminalBench 2.1 : Sol Ultra à 91,9 %, détrônant Mythos 5 après 17 jours au sommet.

B

Vitesse Cerebras : jusqu'à 750 token/s en juillet — 5 à 15 fois plus rapide que les frontier actuels.

C

Efficacité tokens : parité ExploitBench à environ un tiers des tokens de sortie des concurrents.

Attention : les APIs cloud seules ne protègent pas des restrictions gouvernementales ni des retraits soudains de modèles. Les hôtes agent sur VPS partagés souffrent de contention et de jitter swap. L'achat d'un Mac local ajoute risque de dépréciation et cycles d'upgrade incertains.

Pour les environnements de production 24/7 avec agents IA, workflows Sol Ultra multi-agents et pipelines d'évaluation Cursor/Codex, la location cloud Mac Mini M4 bare-metal MESHLAUNCH offre généralement le meilleur équilibre : Apple Silicon dédié, facturation jour/semaine/mois flexible, supervision native launchd. Consultez nos tarifs de location, alternatives Claude Fable 5 et comparatif assistants de code IA.

FAQ

Pas encore pour le grand public. Accès limité à une vingtaine de partenaires via API et Codex. Déploiement ChatGPT élargi attendu en juillet 2026. Options d'hébergement agent : page tarifs.

Sol : flagship avec modes Max/Ultra, 91,9 % sur TerminalBench 2.1, tarif 5/30 USD par MTok. Terra : performance proche GPT-5.5 à moitié prix (2,50/15 USD), idéal pour APIs document et support à fort volume.

Suite au décret du 2 juin, la Maison Blanche (OSTP et ONCD) a demandé à OpenAI de limiter l'accès pendant la revue de sécurité. OpenAI a accepté tout en s'opposant publiquement à une pratique industrielle permanente.

Jusqu'à 750 tokens par seconde dès juillet 2026 pour certains clients entreprise — 5 à 15 fois plus rapide que les modèles frontier actuels à 50–150 token/s.

Sol mène TerminalBench 2.1 à 91,9 % contre 88,0 % pour Mythos 5. ExploitBench quasi identique à un tiers du coût en tokens. Contexte ~1,5 M vs 200 K. Fable 5 peut encore mener sur SWE-Bench Pro — system card GPT-5.6 incomplète.

Sol pour agents de code complexes et recherche sécurité. Terra pour la montée en charge. Luna pour drafting et automatisation. Sol sur Cerebras après juillet pour apps temps réel. Configuration multi-modèles : centre d'aide.