GPT-5.6 Sol Terra Luna — солнечная номенклатура моделей и сводка бенчмарков производительности

2026 GPT-5.6: Sol, Terra, Luna — бенчмарки, цены и матрица решений для инженеров

26 июня 2026 OpenAI одновременно выкатил три весовых класса GPT-5.6 с солнечной номенклатурой: Sol (Солнце), Terra (Земля), Luna (Луна). Флагман Sol в режиме Ultra multi-agent набрал 91.9% на TerminalBench 2.1 и 96.7% на CTF по кибербезопасности. Параллельно правительственная проверка США ограничила доступ: API и Codex сейчас у ~20 одобренных партнёров, широкий ChatGPT-релиз — ориентир июль 2026. Ниже — не пересказ пресс-релиза, а инженерный разбор: ценообразование по токенам, архитектура Max/Ultra, Cerebras 750 token/s, политический тормоз «супер-релизного» июня, head-to-head с Claude Mythos 5, guardrails безопасности, пятиступенчатый HowTo и мост к удалённому Mac через SFTPMAC.

1. Три болевые точки: как GPT-5.6 ломает вашу модельную стратегию

GPT-5.6 — не инкрементальный патч. Он одновременно сдвигает экономику coding-агентов, киберисследований и API-биллинга, пока «супер-релизный» июнь 2026 уперся в федеральный review. Три типичных провала команд, которые мы видим на превью:

  1. Превью принимают за GA. Sol, Terra и Luna через API и Codex доступны лишь ~20 партнёрам. Потребители ChatGPT ждут. Отмена продакшен-маршрутов GPT-5.5 или предоплата годовых тарифов до широкого релиза — риск «дыры» при сдвиге июльского окна.
  2. Недооценка биллинга Ultra mode. 91.9% TerminalBench достигается multi-agent параллелизмом: Sol декомпозирует задачу, запускает суб-агентов, сливает результаты. Выходные токены растут нелинейно. Без per-mode budget cap один сложный agent-run может сжечь месячную квоту за ночь.
  3. Спящий MacBook как хост Codex/Cursor. Окно релиза требует непрерывных multi-step регрессий, SFTP-синхронизированных логов и снапшотов артефактов. Ноутбук с suspend при закрытии крышки даёт «иногда зелёный, в основном timeout» — независимо от того, реально ли Sol сильнее Mythos 5.

2. Быстрая справка: цены и позиционирование Sol/Terra/Luna

Модель Тир Вход (за 1M токенов) Выход (за 1M токенов) Ключевой показатель
GPT-5.6 Sol Флагман $5 $30 TerminalBench 2.1 — №1 мира, 91.9% (Ultra)
GPT-5.6 Terra Сбалансированный workhorse $2.50 $15 ~GPT-5.5 при −50% стоимости
GPT-5.6 Luna Лёгкий / быстрый $1 $6 Высокочастотные задачи; до −80% vs Sol

Текущий статус: правительственный review ограничивает превью ~20 доверенными партнёрами; широкий доступ — в течение недель (июль 2026). Контекстное окно по отчётам: ~1.5M токенов (ожидается подтверждение в полном System Card; у GPT-5.5 было 1M).

3. Контекст релиза: солнечная схема имён и правительственный review

26 июня OpenAI впервые ввёл солнечную номенклатуру: Sol — флагман, Terra — enterprise workhorse, Luna — лёгкая автоматизация. Релиз прошёл под беспрецедентным трением.

Исполнительный указ от 2 июня 2026 дал правительству США до 30 дней на review frontier-моделей до публичного релиза — первый случай, когда Вашингтон потребовал ограниченный дебют вместо немедленного broad access. После координации OSTP и ONCD OpenAI согласился на превью для ~20 cleared-партнёров. CEO Сэм Альтман сотрудничал, но публично заявил: правительственное предварительное одобрение не должно стать постоянной индустриальной нормой.

GPT-5.6 — первая линейка OpenAI, где все три тира, включая entry-level Luna, получили рейтинг High по кибербезопасности.

4. Глубокий разбор: режимы Max и Ultra

GPT-5.6 Sol — флагман

Sol заточен под hardest workloads: продвинутый код, long-horizon киберисследования, multi-step agentic pipelines с tool use, итерацией и координацией.

Два новых режима рассуждения:

  • Max mode: дополнительное inference-время для accuracy-critical задач, где latency вторична. По сути — увеличенный compute budget на forward pass.
  • Ultra mode: multi-agent архитектура — Sol декомпозирует сложную работу, диспатчит параллельных суб-агентов, мержит результаты. Именно это двигает TerminalBench с 88.8% (standard) до 91.9% (Ultra).

Ценообразование совпадает с GPT-5.5: $5 / $30 за миллион входных/выходных токенов.

GPT-5.6 Terra — сбалансированный

Terra — дефолтный enterprise-тир для support-ботов, внутренних инструментов и document analysis в масштабе. Производительность на уровне GPT-5.5 при снижении стоимости на 50% — лучшее соотношение цена/качество для high-volume API. Цена: $2.50 / $15 за миллион токенов.

GPT-5.6 Luna — лёгкий

Luna оптимизирован под summarization, drafting и рутинную автоматизацию с низкой latency. Критично: Luna — первый не-флагман OpenAI с рейтингом High и в кибербезопасности, и в биологических capability assessments. Цена: $1 / $6 за миллион токенов.

5. Бенчмарки: TerminalBench, CTF, life sciences

TerminalBench 2.1 — coding-агенты

TerminalBench 2.1 — 89 сложных CLI planning-задач: multi-step tool invocation, итеративный repair, координация под реалистичными agent constraints.

Модель Score Режим
GPT-5.6 Sol 91.9% Ultra (multi-agent)
GPT-5.6 Sol 88.8% Standard
Claude Mythos 5 88.0% Standard
GPT-5.5 83.4% Standard
Gemini 3.1 Pro Preview 70.7% Standard

Sol сбросил Mythos 5 с первого места за 17 дней — Mythos 5 занял #1 9 июня.

Agent's Last Exam — long-horizon агенты

Модель Завершение задач (code mode)
GPT-5.6 Sol 50.9% (первая модель выше 50%)
GPT-5.6 Luna Чуть выше GPT-5.5

Кибербезопасность: CTF и ExploitBench

Модель CTF hit rate
Sol 96.7%
Terra 91.84%
Luna 85.19%

ExploitBench: Sol достигает паритета с Mythos Preview при ~1/3 выходных токенов — существенное снижение enterprise spend на security research.

Граница безопасности: тесты OpenAI на кодовых базах Chromium и Firefox показывают: Sol находит уязвимости и exploit primitives, но не может автономно собрать полную weaponized exploit chain — ниже порога «Cyber Critical» в framework OpenAI.

Life sciences: GeneBench v1 и HealthBench

  • GeneBench v1 (геномика и количественная биология): Sol совпадает или превосходит GPT-5.5 при меньшем расходе токенов.
  • HealthBench Professional: Sol — 60.5, прирост +8.7 пункта к GPT-5.5.

6. Cerebras 750 token/s — пропускная способность инференса

С июля 2026 GPT-5.6 Sol на аппаратном ускорении Cerebras достигает до 750 token/s для избранных enterprise-развёртываний.

Контекст производительности: большинство флагманов сегодня выдают 50–150 token/s. При 750 token/s time-to-first-complete-response сжимается в 5–15 раз — критично для streaming copilots и real-time agent loops, где latency budget измеряется в миллисекундах на токен. Первичный доступ — vetted enterprise customers; это не consumer-tier с первого дня.

Для инженеров, гоняющих Ultra multi-agent на Apple Silicon через Codex CLI: пропускная способность inference-сервера и локального Metal-рендеринга UI — разные оси. Cerebras убирает bottleneck на стороне API; ваш Mac-узел по-прежнему должен держать 7×24 launchd-процессы и SFTP-синхронизацию артефактов без suspend.

7. Политическое трение: Big Three заблокированы в июне

Указ от 2 июня формально необязателен, но создал практические constraints: frontier-лаборатории столкнулись с до 30 дней федерального review до broad release. Июнь должен был стать «супер-релизным месяцем» ИИ; вместо этого все три лидера получили задержки.

Компания Модель Статус июнь 2026
OpenAI GPT-5.6 Sol / Terra / Luna Ограниченное превью для ~20 одобренных партнёров
Anthropic Claude Fable 5 / Mythos 5 Принудительно offline с 12 июня по экспортному приказу
Google Gemini 3.5 Pro Сдвиг на июль; изначально планировался на июнь

Контрмеры OpenAI: real-time abuse classifiers, account-level review, 700 000 GPU-часов в эквиваленте A100 автоматизированного red teaming, universal jailbreak testing и dedicated high-reasoning модель как финальный safety filter перед деплоем.

8. GPT-5.6 Sol против Claude Mythos 5

Измерение GPT-5.6 Sol Claude Mythos 5
TerminalBench 2.1 91.9% (Ultra) / 88.8% standard 88.0%
ExploitBench Паритет с Mythos Preview при ~1/3 токенов Данные не опубликованы
Цена входа $5 / M токенов Бывшие $10 / M (сейчас offline)
Доступность Ограниченное превью; broad access — июль Offline из-за экспортного контроля
Контекстное окно ~1.5M токенов 200K токенов

Вывод: Sol лидирует на TerminalBench и cost-efficient security research при половине бывшей входной цены Mythos 5. Fable 5 сохранял преимущество на SWE-bench Pro, но недоступен. Полное сравнение по System Card уточнится после публикации OpenAI.

9. Таймлайн доступа и коэффициенты Polymarket

Текущая фаза (конец июня 2026):

  • ~20 government-cleared trusted partners получают Sol, Terra и Luna через API и Codex
  • Обычные пользователи ChatGPT пока не могут выбрать GPT-5.6

Ожидаемый июль 2026:

  • Раскатка в ChatGPT (Plus и Pro в приоритете)
  • Публичная доступность API
  • Sol на Cerebras для enterprise (до 750 token/s)

Рынок предсказаний: Polymarket оценивает вероятность широкого релиза GPT-5.6 до 31 июля 2026 примерно в 87%. Это sentiment, не SLA.

10. Матрица рекомендаций по сценариям

Ваша нагрузка Рекомендуемая модель
Сложная генерация кода, отладка, multi-step агенты Sol (Ultra mode)
Enterprise document analysis, support-боты, массовые API Terra
Summarization, drafting, рутинная автоматизация Luna
Качество уровня GPT-5.5 при жёстком бюджете Terra (−50% стоимости)
Latency-critical streaming (после июля) Sol на Cerebras

11. Меры безопасности и capability guardrails

Все три тира GPT-5.6 несут рейтинг High по кибербезопасности — впервые Luna разделяет этот класс с флагманом. Deployment stack OpenAI для этого релиза:

  • Real-time abuse classifiers на API и product traffic
  • Account-level review для high-risk паттернов
  • 700 000 GPU-часов A100-эквивалента автоматизированного red-team evaluation
  • Universal jailbreak и prompt-injection test suites
  • Dedicated high-reasoning filter model как финальный safety layer

Capability testing подтверждает: Sol выявляет vulnerability patterns в browser engine codebases, но останавливается до автономной сборки полных exploit chains — осознанный guardrail ниже самого жёсткого cyber-risk тира при сохранении defensive security research.

12. Пять шагов подготовки разработчика

Зафиксируйте этот baseline до широкого релиза GPT-5.6 — неделя релиза должна быть контролируемой миграцией, а не пожаром:

  1. Зафиксировать продакшен-маршрутизацию. Держите GPT-5.5 или Claude Opus 4.8 как дефолт. Выдайте sandbox API-ключи для Sol, Terra и Luna с месячными caps; отдельный алерт на Ultra multi-agent spend.
  2. Подписаться на официальные каналы. Следите за блогом OpenAI, Platform docs и Deployment Safety System Card. Не переключайте продакшен только по Polymarket.
  3. Развернуть изолированную песочницу оценки. Codex CLI или multi-model gateway на dedicated branch с per-mode token metering для Ultra parallelism.
  4. Подготовить внутренние бенчмарк-сьюты. 3–5 кейсов для coding-агентов, CTF-сканов и long-context RAG. Синхронизируйте результаты через SFTP или rsync в versioned artifact directories для регрессионных diff.
  5. Развернуть круглосуточный удалённый Mac-узел. Хостите Cursor, Codex и benchmark scripts на always-on Apple Silicon — закрытие крышки ноутбука не должно ломать release-week continuous testing.

13. Часто задаваемые вопросы

Можно ли использовать GPT-5.6 в ChatGPT прямо сейчас?
Для обычных пользователей — нет. ~20 cleared-партнёров имеют API и Codex; раскатка в ChatGPT ожидается в течение недель, вероятно в июле.

Что такое Ultra mode у Sol?
Ultra разворачивает параллельных суб-агентов, делит сложные задачи и мержит выходы — ключ к 91.9% TerminalBench с существенно большим расходом токенов, чем standard mode.

Лучше ли GPT-5.6 для кодинга, чем Claude Fable 5?
Sol опережает Mythos 5 на TerminalBench (91.9% vs 88%). Fable 5 сохранял SWE-bench Pro, но offline. Входная цена Sol — половина бывшего тарифа Fable 5.

Безопасно ли деплоить все три модели?
Все три — High по cybersecurity capability, но OpenAI подтверждает: автономная сборка полных weaponized exploit chains невозможна. Classifiers и red-team testing активны в превью.

Насколько быстр июльский Cerebras build?
До 750 token/s — примерно в 5–15 раз быстрее типичных 50–150 token/s у флагманов; изначально для избранных enterprise-клиентов.

14. Итог: прирост capability и bottleneck always-on Mac

GPT-5.6 одновременно продвигает три оси: capability (Sol Ultra сбросил Mythos 5 с TerminalBench за 17 дней), efficiency (паритет ExploitBench при 1/3 токенов), speed (Cerebras в июле — 750 token/s). Июньский government review задал прецедент: frontier weights могут проходить обязательные preview windows — это перекроит логистику релизов у каждой лаборатории.

Чтение таблиц бенчмарков не стабилизирует ваш Codex/Cursor pipeline в день GA. Ultra multi-agent evaluations, SFTP-синхронизированные логи и overnight regression suites требуют always-on, low-latency, нативного macOS tooling. Прерывистые ноутбуки или недогруженные cloud VM дают «иногда pass, в основном timeout» в превью и сером окне Cerebras — независимо от реальных 91.9% Sol.

Если вы готовите gray-тестирование GPT-5.6, практический следующий шаг — посадить Cursor, Codex CLI и evaluation artifacts на persistent Apple Silicon node с SFTP/rsync rollback. SFTPMAC — аренда удалённого Mac заточена под AI agent и Codex benchmarking: нативный Xcode и Metal parity, 7×24 launchd supervision, low-latency API callbacks и operational baselines, согласованные с нашими гайдами по миграции GPT-5.5 и Claude — лучше, чем домашний Mac, совмещающий daily driver и release-week evaluation host.