GPT-5.6 Sol Terra Luna Sonnensystem-Namensgebung und Benchmark-Übersicht

2026 GPT-5.6 offiziell: Sol, Terra & Luna — Benchmarks, Preise und Zugangsrecht im Überblick

Am 26. Juni 2026 hat OpenAI die GPT-5.6-Reihe mit drei Varianten — Sol (Sonne), Terra (Erde) und Luna (Mond) — vorgestellt und erstmals ein Sonnensystem-Namensschema eingeführt. Das Flaggschiff Sol erreicht auf TerminalBench 2.1 91,9 % und bei Cybersecurity-CTF-Aufgaben 96,7 %. Wegen einer US-Regierungs-Sicherheitsprüfung haben derzeit nur rund 20 freigegebene Partner API- und Codex-Preview-Zugang; ein breiter ChatGPT-Rollout wird für Juli 2026 erwartet. Dieser Leitfaden bündelt Preise, Benchmarks, Ultra-Multi-Agent-Architektur, Cerebras 750 Token/s, politische Folgen, den Vergleich mit Claude Mythos 5, Zugangs-Timeline, Szenario-Empfehlungen, ein 5-Schritte-HowTo, FAQ sowie die SFTPMAC-Remote-Mac-Brücke — mit Fokus auf DSGVO-konforme Evaluierung und Betriebsstabilität für europäische Teams.

1. Drei Pain Points: Wie GPT-5.6 Ihre Modell-Roadmap destabilisiert

GPT-5.6 ist kein inkrementelles Update. Es verändert gleichzeitig Coding-Agenten, Cybersecurity-Forschung und API-Kostenstrukturen — während der geplante „Super-Release-Monat“ Juni 2026 durch Regierungspolitik gebremst wurde. Die drei häufigsten Fehler in EU- und Enterprise-Teams:

  1. Preview mit breitem Rollout verwechseln: Derzeit haben nur rund 20 regierungsfreigegebene Partner API-/Codex-Zugang; normale ChatGPT-Nutzer nicht. Wer GPT-5.5-Produktions-Routing vorzeitig abschaltet oder Jahresverträge festzieht, riskiert eine Lücke bis zum Juli-Rollout — und damit SLA-Verletzungen gegenüber Kunden nach Art. 28 DSGVO (Auftragsverarbeitung).
  2. Ultra-Modus-Tokenrechnung ignorieren: Sols Ultra-Multi-Agent-Architektur treibt die 91,9 % auf TerminalBench — parallelisierte Sub-Agenten vervielfachen Ausgabe-Token. Ohne separate Budget-Caps und Alerting kann ein Nachtlauf API-Kontingente erschöpfen und Evaluierungs-Pipelines instabil machen.
  3. Laptop als Codex-/Cursor-Evaluierungsumgebung: Release-Fenster erfordern mehrtägige TerminalBench-Regressionen und SFTP-Log-Synchronisation. MacBook-Sleep oder instabile Heimnetze erzeugen „gelegentlich grün, meist Timeout“ — unabhängig von Sols 91,9 % und unabhängig von der Modellqualität.

2. Kernübersicht: Sol / Terra / Luna — Preise und Positionierung

Modell Positionierung Eingabe-Preis Ausgabe-Preis Kernmetrik
GPT-5.6 Sol Flaggschiff 5 USD / Mio. Token 30 USD / Mio. Token TerminalBench 2.1: 91,9 % (global #1)
GPT-5.6 Terra Ausgewogen / Mainstream 2,50 USD / Mio. Token 15 USD / Mio. Token GPT-5.5-Niveau, 50 % günstiger
GPT-5.6 Luna Leicht / schnell 1 USD / Mio. Token 6 USD / Mio. Token Hochfrequenz-Tasks, ~80 % günstiger als Sol

Aktueller Status: Auf US-Regierungsanforderung Preview für rund 20 Partner; breiter Rollout in wenigen Wochen erwartet. Kontextfenster laut Berichten ca. 1,5 Mio. Token (vollständige System Card ausstehend). Für DSGVO-relevante Verarbeitung: bis zur finalen System Card und AVV-Klarstellung bei OpenAI Enterprise bleiben personenbezogene Daten in Evaluierungs-Sandboxes pseudonymisiert.

3. Veröffentlichungshintergrund: Sonnensystem-Namen und Regierungsprüfung

In der Nacht zum 27. Juni 2026 (MESZ) kündigte OpenAI die GPT-5.6-Serie mit den Namen Sol, Terra und Luna an — jeweils Flaggschiff, ausgewogenes und leichtes Tier.

Der Launch verlief nicht reibungslos. Durch eine Executive Order vom 2. Juni 2026 musste OpenAI vor breiter Veröffentlichung eine Regierungs-Sicherheitsprüfung durchlaufen — der erste Fall, in dem die US-Regierung von einem KI-Unternehmen eine begrenzte Veröffentlichung eines Frontier-Modells verlangte. CEO Sam Altman erklärte die Kooperationsbereitschaft, warnte aber:

Ein solches Regierungs-Genehmigungsmodell darf nicht zur langfristigen Branchennorm werden. Die besten Werkzeuge gehören den Nutzern, Entwicklern, Unternehmen und globalen Partnern — nicht einer Prüfkammer.

GPT-5.6 ist zudem die erste OpenAI-Linie, bei der alle drei Varianten die Cybersicherheits-Risikostufe „High“ erhalten — einschließlich des leichten Luna. Für EU-Teams bedeutet das: erweiterte Dokumentationspflichten in Verarbeitungsverzeichnissen (Art. 30 DSGVO) und klare Trennung von Produktions- und Forschungs-Workloads.

4. Drei Varianten im Detail: Max- und Ultra-Modus

GPT-5.6 Sol — Flaggschiff

Sol ist OpenAIs leistungsstärkstes Modell, ausgelegt für anspruchsvolles Coding, Langform-Cybersecurity-Forschung und mehrstufige autonome Agent-Workflows.

Zwei neue Inferenzmodi:

  • Max-Modus: Verlängerte Inferenzzeit auf Kosten der Geschwindigkeit — maximale Präzision für Workloads, bei denen Fehler teurer sind als Latenz.
  • Ultra-Modus: Multi-Agent-Architektur — mehrere Sub-Agenten bearbeiten Teilaufgaben parallel und fusionieren Ergebnisse. Treiber des TerminalBench-Sprungs auf 91,9 %.

Preise: Eingabe 5 USD/Mio., Ausgabe 30 USD/Mio. (identisch zu GPT-5.5).

GPT-5.6 Terra — Ausgewogen

Hauptmotor für volumenstarke Enterprise-Workloads: Kundenservice, interne Tools, Dokumentenanalyse. Nahezu GPT-5.5-Leistung bei 50 % geringeren Kosten. Eingabe 2,50 USD/Mio., Ausgabe 15 USD/Mio.

GPT-5.6 Luna — Leichtgewicht

Optimiert für Zusammenfassungen, Entwürfe und Alltagsautomatisierung mit niedriger Latenz. Luna ist das erste Nicht-Flaggschiff von OpenAI mit High-Bewertung in Cybersicherheit und Biologie. Eingabe 1 USD/Mio., Ausgabe 6 USD/Mio.

5. Benchmarks: TerminalBench, CTF und Life Sciences

Coding: TerminalBench 2.1

89 komplexe CLI-Planungsaufgaben messen mehrstufige Tool-Aufrufe, iterative Korrekturen und Task-Koordination — der Referenz-Benchmark für Coding-Agenten 2026.

Modell Score Modus
GPT-5.6 Sol 91,9 % Ultra (Multi-Agent)
GPT-5.6 Sol 88,8 % Standard
Claude Mythos 5 88,0 % Standard
GPT-5.5 83,4 % Standard
Gemini 3.1 Pro Preview 70,7 % Standard

Sol überholte Claude Mythos 5 — Spitzenreiter seit dem 9. Juni — innerhalb von 17 Tagen.

Langzeit-Agenten: Agent's Last Exam

Modell Task-Abschlussrate (Code-Modus)
GPT-5.6 Sol 50,9 % (einziger über 50 %)
GPT-5.6 Luna leicht über GPT-5.5

Cybersecurity: CTF & ExploitBench

Modell CTF-Trefferquote
Sol 96,7 %
Terra 91,84 %
Luna 85,19 %

ExploitBench: Sol erreicht vergleichbare Leistung wie Anthropic Mythos Preview bei etwa einem Drittel der Ausgabe-Token — relevant für kostenkontrollierte Security-Forschung in regulierten Umgebungen.

Sicherheitshinweis: Auf Chromium- und Firefox-Codebasen kann Sol Schwachstellen und Exploit-Rohmaterial identifizieren, aber keine vollständigen Exploit-Ketten autonom aufbauen — OpenAI stuft dies unterhalb der „Cyber Critical“-Grenze ein. Für Penetrationstests in der EU: nur in isolierten Sandboxes mit dokumentiertem Scope (Art. 32 DSGVO — technische Schutzmaßnahmen).

Life Sciences: GeneBench v1 & HealthBench

  • GeneBench v1 (Genomik, quantitative Biologie): Sol erreicht oder übertrifft GPT-5.5 mit weniger Token.
  • HealthBench Professional: Sol 60,5 Punkte — +8,7 gegenüber GPT-5.5. Besondere Vorsicht bei Gesundheitsdaten (Art. 9 DSGVO).

6. Cerebras 750 Token/s: Geschwindigkeitsdurchbruch

Ab Juli 2026 wird GPT-5.6 Sol für ausgewählte Unternehmenskunden über Cerebras-Hardwarebeschleunigung mit bis zu 750 Token/s ausgeliefert.

Zum Vergleich: Die meisten Flaggschiff-Modelle liegen bei 50–150 Token/s. 750 Token/s kann Antwortzeiten bei gleicher Qualität auf ein Fünftel bis ein Fünfzehntel reduzieren — entscheidend für Echtzeit-Coding-Assistenten und Streaming-AI-UX. Der Erstzugang bleibt auf ausgewählte Enterprise-Kunden beschränkt; für EU-Teams mit Latenz-SLAs ist die Kombination aus Cerebras-Sol und stabilem Evaluierungs-Host (nicht Heim-Laptop) die realistische Architektur.

7. Politische Auswirkungen: Verzögerung der Big Three

Die Executive Order vom 2. Juni 2026 gibt der US-Regierung bis zu 30 Tage Zugang und Prüfrecht vor Modellveröffentlichungen. Nicht rechtlich zwingend, aber faktisch wirksam.

Unternehmen Modell Status
OpenAI GPT-5.6 Sol/Terra/Luna Preview für ~20 Partner
Anthropic Claude Fable 5 / Mythos 5 Weltweit eingestellt (12. Juni, Exportkontrolle)
Google Gemini 3.5 Pro Von Juni auf Juli verschoben

Juni 2026 sollte der „Super-Release-Monat“ der KI-Branche werden — stattdessen stoppten die drei führenden Labs ihre Flaggschiffe vor der Ziellinie. OpenAIs Sicherheitsinvestitionen umfassen Echtzeit-Missbrauchs-Klassifikatoren, Account-Reviews, automatisiertes Red-Teaming mit GPU-Zeit im Umfang von ~700.000 A100-Äquivalenten, universelle Jailbreak-Tests und finale Filter für große Reasoning-Modelle.

8. Direktvergleich mit Claude Mythos 5

Dimension GPT-5.6 Sol Claude Mythos 5
TerminalBench 2.1 91,9 % (Ultra) / 88,8 % 88,0 %
ExploitBench vergleichbar mit Mythos Preview, ~⅓ Token nicht öffentlich
Eingabe-Preis 5 USD/Mio. 10 USD/Mio. (eingestellt)
Verfügbarkeit Preview, breiter Rollout in Wochen durch Exportkontrolle eingestellt
Kontext ~1,5 Mio. Token 200K Token

Bewertung: Sol übertrifft Mythos 5 in Coding- und Cybersecurity-Benchmarks und liefert vergleichbare Security-Forschungsfähigkeit zum halben Preis. Fable 5 war in Dimensionen wie SWE-bench Pro noch stark, wurde aber eingestellt. Nach vollständiger GPT-5.6-System-Card-Veröffentlichung ist ein erneuter Vergleich erforderlich.

9. Zugangsrechte und Release-Timeline

Aktuell (Juni 2026):

  • Nur ~20 regierungsfreigegebene Vertrauenspartner mit API- und Codex-Zugang
  • Normale ChatGPT-Nutzer: kein Zugang

Bevorstehend (Juli 2026 erwartet):

  • Breiter ChatGPT-Rollout (Plus/Pro zuerst)
  • Öffentlicher API-Zugang
  • Cerebras-beschleunigtes Sol für Enterprise (bis 750 Token/s)

Prognosemarkt: Polymarket schätzt die Wahrscheinlichkeit für „GPT-5.6 breiter Rollout vor dem 31. Juli 2026“ auf ca. 87 %.

10. Szenario-basierte Modell-Empfehlungen

Anforderung Empfohlenes Modell
Komplexe Code-Generierung, Debugging, Multi-Agent Sol (Ultra-Modus)
Enterprise-Dokumentenanalyse, CS, volumenstarke APIs Terra
Hochfrequenz-Zusammenfassungen, Entwürfe, Alltagsautomatisierung Luna
Budgetlimit, GPT-5.5-Niveau benötigt Terra (gleiche Leistungsklasse, 50 % günstiger)
Extrem niedrige Latenz für Echtzeit-Apps (ab Juli) Sol on Cerebras

11. Fünf-Schritte-HowTo für Entwickler

Vor dem breiten GPT-5.6-Rollout diese Baseline etablieren, um im Release-Fenster nicht reaktiv zu handeln:

  1. Produktions-Routing fixieren: GPT-5.5 oder Claude Opus 4.8 als Standard beibehalten; separate Sandbox-Keys, Monatsbudgets und Ultra-spezifische Alerts für Sol/Terra/Luna konfigurieren.
  2. Offizielle Kanäle verfolgen: OpenAI-Blog, Platform-Docs und Deployment-Safety-System-Card — Produktionsarchitektur nicht allein auf Polymarket-Wahrscheinlichkeiten basieren.
  3. Isolierte Evaluierungsumgebung: Codex CLI und Multi-Modell-Gateway in separatem Branch; TerminalBench-ähnliche Multi-Agent-Logs und Token-Messung getrennt führen.
  4. Interne Benchmark-Fälle: Je 3–5 Fälle für Coding-Agenten, CTF-Scans und Langkontext-RAG; Artefakte per SFTP/rsync in ein versioniertes Verzeichnis synchronisieren für automatisierte Regression.
  5. Dauerhaft online: Remote Mac: Cursor, Codex und Evaluierungsskripte auf 7×24-Apple-Silicon deployen — Laptop-Sleep darf Release-Wochen-Regressionen nicht unterbrechen.

12. FAQ

F: Kann ich GPT-5.6 jetzt in ChatGPT nutzen?
A: Für die breite Öffentlichkeit noch nicht. Rund 20 Partner haben Preview-Zugang; breiter ChatGPT-Rollout wird für Juli erwartet (Plus/Pro zuerst).

F: Was ist der Sol-Ultra-Modus?
A: Parallele Sub-Agenten bearbeiten Teilaufgaben und fusionieren Ergebnisse — Kern der 91,9 % auf TerminalBench, aber deutlich höherer Token-Verbrauch als im Standardmodus.

F: Ist GPT-5.6 für Coding besser als Claude Fable 5?
A: Sol übertrifft Mythos 5 auf TerminalBench (91,9 % vs. 88 %). Fable 5 war bei SWE-bench Pro stark, wurde aber eingestellt. Sol kostet etwa die Hälfte.

F: Sind alle drei Varianten sicher einsetzbar?
A: Alle drei haben Cybersicherheits-Risikostufe „High“, können aber keine vollständigen Exploit-Ketten autonom aufbauen. Echtzeit-Klassifikatoren und Red-Teaming laufen. Für EU-Produktion: Sandbox-Isolation und dokumentierte Verarbeitungsschritte.

F: Wie schnell ist die Cerebras-Version im Juli?
A: Bis zu 750 Token/s — 5- bis 15-fach schneller als typische Flaggschiffe (50–150 Token/s). Erstzugang für Enterprise-Kunden.

13. Fazit: Drei Achsen — Fähigkeit, Effizienz, Geschwindigkeit — und der Engpass „dauerhaft onlineer Mac“

GPT-5.6 definiert die Branche neu auf drei Achsen: Fähigkeit (Sol Ultra auf TerminalBench-Spitze, Mythos 5 in 17 Tagen überholt), Effizienz (vergleichbare Security-Forschung mit einem Drittel der Token) und Geschwindigkeit (Cerebras 750 Token/s ab Juli). Gleichzeitig etabliert die US-Regierungsintervention am Modell-Launch einen Präzedenzfall — „nationale Sicherheit vs. technologische Offenheit“ wird die Release-Ökologie langfristig prägen.

Benchmark-Tabellen und Preismatrizen allein stabilisieren keine Codex-/Cursor-Pipeline am ersten Julitag. Ultra-Multi-Agent-Evaluierung, SFTP-Log-Sync und nächtliche Regressionen erfordern einen dauerhaft onlineen, latenzarmen, nativen macOS-Toolchain-Host. Intermittierende Laptop-Nutzung oder unterdimensionierte Cloud-VMs erzeugen im Preview- und Cerebras-Grau-Fenster „gelegentlich grün, meist rot“ — unabhängig davon, ob Sol 91,9 % erreicht.

Wer eine GPT-5.6-Grau-Test-Agent-Pipeline vorbereitet, sollte Cursor, Codex CLI und Evaluierungsartefakte auf einem dauerhaft onlineen Apple-Silicon-Knoten verankern und per SFTP/rsync rollback-fähig synchronisieren. SFTPMAC Remote-Mac-Miete liefert macOS-Umgebungen für KI-Agenten und Codex-Evaluierung: natives Xcode/Metal, 7×24 launchd, latenzarme API-Callbacks und Betriebs-Baselines im Anschluss an unsere GPT-5.5- und Claude-Migrationsartikel — passender für Teams, die das Juli-Rollout-Fenster als Modellwechsel-Sprint nutzen, als ein „Heim-Mac-als-Neben-Dev-Rechner“ mit Sleep-Risiko und instabiler DSGVO-Dokumentation.