Schéma de nommage solaire GPT-5.6 Sol Terra Luna et panorama des performances de benchmarks

2026 GPT-5.6 Sol, Terra et Luna : benchmarks, tarifs et guide décisionnel

Le 26 juin 2026, OpenAI dévoile GPT-5.6 sous la forme d'une famille à trois visages célestes : Sol (le Soleil), Terra (la Terre) et Luna (la Lune). Le phare Sol atteint 91,9 % sur TerminalBench 2.1 en mode Ultra multi-agents et 96,7 % sur les défis CTF de cybersécurité. L'accès reste bridé : seuls une vingtaine de partenaires agréés peuvent expérimenter via l'API et Codex, tandis que le grand public attend. Ce guide rassemble annonces officielles, données de System Card et benchmarks rapportés — tarification, architecture Ultra, accélération Cerebras, friction politique, confrontation avec Mythos 5, garde-fous de sécurité et playbook en cinq étapes — pour choisir un modèle avant la disponibilité générale de juillet.

1. Trois points de friction que GPT-5.6 impose au choix de modèle

GPT-5.6 n'est pas une simple itération mineure. Il redéfinit simultanément les agents de codage, l'économie de la recherche en cybersécurité et les courbes de coût API — alors que le « super mois des lancements » de juin a laissé les trois laboratoires de pointe partiellement immobilisés. Les équipes trébuchent le plus souvent sur trois écueils :

  1. Confondre aperçu limité et disponibilité générale. Seuls environ 20 partenaires agréés peuvent invoquer Sol, Terra ou Luna via l'API et Codex aujourd'hui. Les utilisateurs ChatGPT attendent encore. Annuler les routes de production GPT-5.5 ou prépayer des abonnements annuels avant le déploiement large expose à un vide opérationnel si les échéances de juillet glissent.
  2. Sous-estimer la facture tokens du mode Ultra. Le score TerminalBench de 91,9 % de Sol repose sur le parallélisme multi-agents Ultra — plusieurs sous-agents travaillant en parallèle gonflent rapidement les tokens de sortie. Sans plafonds budgétaires par mode, une seule exécution d'agent complexe peut épuiser les quotas API mensuels en une nuit.
  3. Utiliser un portable en veille comme hôte d'évaluation Codex/Cursor. Les fenêtres de lancement exigent des régressions multi-étapes continues, des journaux synchronisés par SFTP et des instantanés d'artefacts. Un MacBook qui se met en veille à la fermeture du capot produit des résultats « parfois verts, surtout timeout » sans lien avec la supériorité réelle de Sol face à Mythos 5.

2. Référence rapide : tarifs et positionnement Sol, Terra, Luna

Modèle Tier Entrée (par 1 M tokens) Sortie (par 1 M tokens) Point fort
GPT-5.6 Sol Phare 5 $ 30 $ N°1 mondial TerminalBench 2.1 à 91,9 % (Ultra)
GPT-5.6 Terra Équilibré 2,50 $ 15 $ Qualité proche GPT-5.5 à 50 % de coût en moins
GPT-5.6 Luna Léger / rapide 1 $ 6 $ Tâches haute fréquence ; jusqu'à 80 % moins cher que Sol

Statut actuel : la revue gouvernementale limite l'aperçu à une vingtaine de partenaires de confiance ; accès large attendu dans les semaines à venir (juillet 2026). Fenêtre de contexte rapportée : environ 1,5 M tokens, en attente de confirmation par la System Card complète (contre 1 M pour GPT-5.5).

3. Contexte de lancement : nomenclature solaire et revue gouvernementale

Le lancement du 26 juin introduit la première nomenclature solaire d'OpenAI : Sol pour le phare, Terra pour les charges d'entreprise équilibrées, Luna pour l'automatisation légère. Le déploiement survient dans un contexte inhabituel.

Un décret exécutif du 2 juin 2026 a accordé au gouvernement américain jusqu'à 30 jours pour examiner les modèles de pointe avant diffusion publique — première fois que Washington impose un lancement restreint plutôt qu'un accès immédiat au grand public. Après coordination de l'OSTP et de l'ONCD, OpenAI a accepté un aperçu GPT-5.6 avec environ 20 partenaires agréés. Le PDG Sam Altman a coopéré tout en déclarant publiquement que l'approbation préalable gouvernementale ne devrait pas devenir une pratique permanente de l'industrie.

GPT-5.6 est également la première lignée OpenAI où les trois tiers — y compris Luna d'entrée de gamme — déclenchent la classification Élevée en capacité de cybersécurité.

4. Analyse des modèles : modes Max et Ultra

GPT-5.6 Sol — le phare

Sol cible les charges les plus exigeantes : codage avancé, recherche cybersécurité à long horizon et pipelines agentiques multi-étapes nécessitant outils, itération et coordination.

Deux nouveaux modes de raisonnement :

  • Mode Max : alloue du temps d'inférence supplémentaire pour les tâches où la précision prime sur la latence.
  • Mode Ultra : architecture multi-agents — Sol décompose le travail complexe, déploie des sous-agents parallèles et fusionne les résultats. Ce design propulse le bond TerminalBench de 88,8 % (standard) à 91,9 % (Ultra).

Tarification identique à GPT-5.5 : 5 $ / 30 $ par million de tokens entrée/sortie.

GPT-5.6 Terra — l'équilibre

Terra est le tier entreprise par défaut pour le support client, les outils internes et l'analyse documentaire à grande échelle. Les performances suivent GPT-5.5 tout en réduisant le coût de 50 % — le meilleur rapport qualité-prix pour les flux API à fort volume. Tarification : 2,50 $ / 15 $ par million de tokens.

GPT-5.6 Luna — le léger

Luna optimise la synthèse, la rédaction et l'automatisation courante à faible latence. Notamment, Luna est le premier modèle non-phare d'OpenAI classé Élevé tant en cybersécurité qu'en capacités biologiques. Tarification : 1 $ / 6 $ par million de tokens.

5. Benchmarks : TerminalBench, CTF, sciences de la vie

TerminalBench 2.1 — agents de codage

TerminalBench 2.1 couvre 89 tâches complexes de planification en ligne de commande, mesurant l'invocation d'outils multi-étapes, la réparation itérative et la coordination sous contraintes agentiques réalistes.

Modèle Score Mode
GPT-5.6 Sol 91,9 % Ultra (multi-agents)
GPT-5.6 Sol 88,8 % Standard
Claude Mythos 5 88,0 % Standard
GPT-5.5 83,4 % Standard
Gemini 3.1 Pro Preview 70,7 % Standard

Sol a délogé Mythos 5 du sommet en seulement 17 jours — Mythos 5 avait revendiqué la première place le 9 juin.

Agent's Last Exam — agents à long horizon

Modèle Complétion de tâches (mode code)
GPT-5.6 Sol 50,9 % (premier modèle au-dessus de 50 %)
GPT-5.6 Luna Légèrement au-dessus de GPT-5.5

Cybersécurité : CTF et ExploitBench

Modèle Taux de réussite CTF
Sol 96,7 %
Terra 91,84 %
Luna 85,19 %

ExploitBench : Sol égale Mythos Preview d'Anthropic tout en consommant environ un tiers des tokens de sortie, réduisant sensiblement les dépenses de recherche sécurité en entreprise.

Frontière de sécurité : les tests OpenAI sur les codebases Chromium et Firefox montrent que Sol peut identifier des vulnérabilités et des primitives d'exploitation mais ne peut pas construire de manière autonome des chaînes d'exploitation complètes et armées — le maintenant sous le seuil « Cyber Critical » du cadre OpenAI.

Sciences de la vie : GeneBench v1 et HealthBench

  • GeneBench v1 (génomique et biologie quantitative) : Sol égale ou dépasse GPT-5.5 avec moins de tokens.
  • HealthBench Professional : Sol obtient 60,5, soit +8,7 points par rapport à GPT-5.5.

6. Accélération Cerebras 750 token/s (juillet 2026)

À partir de juillet 2026, GPT-5.6 Sol sur accélération matérielle Cerebras atteindra jusqu'à 750 tokens par seconde pour certains déploiements entreprise.

Contexte : la plupart des modèles phares sortent aujourd'hui entre 50 et 150 token/s. À 750 token/s, le délai jusqu'à une réponse complète peut se réduire au cinquième ou au quinzième des latences actuelles — décisif pour les copilotes en streaming et les boucles d'agents temps réel. L'accès initial reste limité aux clients entreprise vérifiés.

7. Friction politique : les trois géants bloqués en juin

Le décret du 2 juin n'est pas contraignant sur le papier, mais a créé des contraintes pratiques : les laboratoires de pointe ont fait face à jusqu'à 30 jours d'examen fédéral avant diffusion large. Juin devait être le « super mois des lancements » de l'IA ; à la place, les trois leaders ont subi des retards.

Entreprise Modèle Statut juin 2026
OpenAI GPT-5.6 Sol / Terra / Luna Aperçu limité pour ~20 partenaires agréés
Anthropic Claude Fable 5 / Mythos 5 Hors ligne forcé le 12 juin (contrôle à l'exportation)
Google Gemini 3.5 Pro Reporté à juillet ; initialement prévu en juin

Les contre-mesures d'OpenAI incluent des classificateurs d'abus en temps réel, une revue au niveau compte, 700 000 heures-GPU équivalent A100 de red teaming automatisé, des tests universels de jailbreak et un modèle filtre à haut raisonnement comme dernière couche avant déploiement.

8. GPT-5.6 Sol face à Claude Mythos 5

Dimension GPT-5.6 Sol Claude Mythos 5
TerminalBench 2.1 91,9 % (Ultra) / 88,8 % standard 88,0 %
ExploitBench Parité avec Mythos Preview à ~1/3 des tokens Données non publiées
Prix entrée 5 $ / M tokens Anciennement 10 $ / M (actuellement hors ligne)
Disponibilité Aperçu limité ; accès large attendu en juillet Hors ligne (contrôles à l'exportation)
Fenêtre de contexte ~1,5 M tokens 200 K tokens

En synthèse : Sol mène sur TerminalBench et la recherche sécurité à coût maîtrisé, à la moitié de l'ancien tarif d'entrée de Mythos 5. Fable 5 conserve des avantages sur certains benchmarks comme SWE-bench Pro, mais reste indisponible. Les comparaisons System Card complètes affineront le tableau une fois les données publiques publiées par OpenAI.

9. Calendrier d'accès et cotes Polymarket

Phase actuelle (fin juin 2026) :

  • Environ 20 partenaires de confiance agréés accèdent à Sol, Terra et Luna via l'API et Codex
  • Les utilisateurs ChatGPT grand public ne peuvent pas encore sélectionner GPT-5.6

Juillet 2026 attendu :

  • Déploiement ChatGPT (tiers Plus et Pro en priorité)
  • Disponibilité API publique
  • Sol accéléré Cerebras pour l'entreprise (jusqu'à 750 token/s)

Marchés de prédiction : Polymarket cote environ 87 % de probabilité que GPT-5.6 atteigne la disponibilité générale avant le 31 juillet 2026. À traiter comme indicateur de sentiment, non comme engagement de service.

10. Matrice de recommandation par cas d'usage

Votre charge de travail Modèle recommandé
Génération de code complexe, débogage, agents multi-étapes Sol (mode Ultra)
Analyse documentaire entreprise, bots support, appels API massifs Terra
Synthèse, rédaction, automatisation courante Luna
Qualité GPT-5.5 avec budget resserré Terra (même tier, 50 % moins cher)
Applications streaming sensibles à la latence (après juillet) Sol sur Cerebras

11. Mesures de sécurité et garde-fous de capacité

Les trois tiers GPT-5.6 portent une classification cybersécurité Élevée — première fois que Luna partage ce niveau avec un phare. La pile de déploiement OpenAI pour cette version comprend :

  • Classificateurs d'abus en temps réel sur le trafic API et produit
  • Revue au niveau compte pour les schémas d'usage à haut risque
  • 700 000 heures-GPU équivalent A100 d'évaluation red team automatisée
  • Suite universelle de tests jailbreak et injection de prompt
  • Modèle filtre à haut raisonnement comme dernière couche de sécurité

Les tests de capacité confirment que Sol peut faire émerger des schémas de vulnérabilité dans les codebases de moteurs de navigateur, mais s'arrête avant d'assembler de manière autonome des chaînes d'exploitation complètes — garde-fou délibéré maintenant le modèle sous le tier cyber le plus sévère d'OpenAI tout en permettant la recherche défensive.

12. Checklist développeur en cinq étapes

Complétez cette ligne de base avant la disponibilité générale de GPT-5.6 pour que la semaine de lancement soit une migration maîtrisée, non une urgence :

  1. Verrouiller le routage de production. Conserver GPT-5.5 ou Claude Opus 4.8 par défaut. Émettre des clés API sandbox pour Sol, Terra et Luna avec plafonds mensuels ; définir une alerte distincte pour les dépenses Ultra multi-agents.
  2. S'abonner aux canaux officiels. Suivre le blog OpenAI, la documentation Platform et la System Card Deployment Safety. Ne pas rerouter la production sur les seules cotes Polymarket.
  3. Construire un bac d'évaluation isolé. Exécuter Codex CLI ou une passerelle multi-modèles sur une branche dédiée avec mesure de tokens par mode pour le parallélisme Ultra.
  4. Préparer des suites de benchmarks internes. Trois à cinq cas pour les agents de codage, les analyses type CTF et le RAG long contexte. Synchroniser les résultats via SFTP ou rsync dans des répertoires d'artefacts versionnés pour les diffs de régression.
  5. Déployer un nœud Mac distant 24 h/24. Héberger Cursor, Codex et les scripts de benchmark sur un Apple Silicon toujours actif afin que la fermeture d'un portable ne casse pas les tests continus de la semaine de lancement.

13. Questions fréquentes

GPT-5.6 est-il dans ChatGPT aujourd'hui ?
Pas pour le grand public. Une vingtaine de partenaires agréés disposent de l'accès API et Codex ; le déploiement ChatGPT est attendu dans les semaines à venir, probablement en juillet.

Qu'est-ce que le mode Ultra de Sol ?
Ultra déploie des sous-agents parallèles qui divisent les tâches complexes et fusionnent les sorties — clé du score TerminalBench de 91,9 %, avec une consommation de tokens nettement supérieure au mode standard.

GPT-5.6 surpasse-t-il Claude Fable 5 pour le codage ?
Sol mène Mythos 5 sur TerminalBench (91,9 % contre 88 %). Fable 5 conserve des avantages SWE-bench Pro mais est hors ligne. Le tarif d'entrée de Sol est la moitié de l'ancien tarif de Fable 5.

Les trois modèles sont-ils sûrs à déployer ?
Les trois sont classés Élevé en capacité cybersécurité, mais OpenAI confirme qu'ils ne peuvent pas construire de manière autonome des chaînes d'exploitation complètes et armées. Classificateurs et red teaming sont actifs en aperçu.

Quelle vitesse pour la version Cerebras de juillet ?
Jusqu'à 750 token/s — environ 5 à 15 fois plus rapide que la sortie phare typique de 50–150 token/s — initialement pour des clients entreprise sélectionnés.

14. Synthèse : gains de capacité face au goulot d'un Mac intermittent

GPT-5.6 progresse sur trois axes simultanément : capacité (Sol Ultra a détrôné Mythos 5 sur TerminalBench en 17 jours), efficacité (parité ExploitBench à un tiers des tokens) et vitesse (Cerebras à 750 token/s en juillet). La revue gouvernementale de juin établit aussi un précédent — les modèles de pointe pourraient faire face à des fenêtres d'aperçu obligatoires — susceptible de remodeler la manière dont chaque laboratoire livre ses poids de pointe.

Lire des tableaux de benchmarks ne stabilise pas automatiquement votre pipeline Codex ou Cursor le jour de la disponibilité générale. Les évaluations Ultra multi-agents, les journaux synchronisés par SFTP et les suites de régression nocturnes exigent un outillage macOS natif, toujours en ligne et à faible latence. Les portables intermittents ou les VM cloud sous-dimensionnées affichent « parfois réussi, surtout timeout » pendant l'aperçu et les fenêtres grises Cerebras — que Sol atteigne réellement 91,9 % ou non.

Si vous préparez des tests gris GPT-5.6, l'étape pratique suivante consiste à ancrer Cursor, Codex CLI et les artefacts d'évaluation sur un nœud Apple Silicon persistant avec rollback SFTP/rsync. La location Mac distant SFTPMAC cible le benchmarking d'agents IA et Codex : parité native Xcode et Metal, supervision launchd 24 h/24, callbacks API à faible latence et lignes de base opérationnelles alignées sur nos guides de migration GPT-5.5 et Claude — plus adapté qu'un Mac domestique cumulant usage quotidien et hôte d'évaluation de la semaine de lancement.