OpenAI GPT-5.6 正式発表:Sol・Terra・Luna 三モデル完全解説
2026年6月26日、OpenAIはGPT-5.6シリーズ三モデル——Sol(太陽)・Terra(大地)・Luna(月)——を正式発表し、初めて太陽系天体による命名体系を導入しました。フラッグシップSolはTerminalBench 2.1で91.9%の世界トップ、サイバーセキュリティCTF命中率は96.7%です。一方、米国政府の安全審査により現在は約20社の承認パートナーのみがプレビューアクセス可能で、全面公開は7月が見込まれています。本稿では公式発表・System Card・報道をもとに、価格、ベンチマーク、Ultraマルチエージェント、Cerebras加速、政策動向、Claude Mythos 5との比較、開発者向け選定指針を網羅します。
1. 三つの痛点:GPT-5.6発表がモデル選定に与える影響
GPT-5.6は単なるマイナーアップデートではありません。プログラミングAgent、サイバーセキュリティ研究、APIコスト構造の三つのラインを同時に書き換えます。6月の「スーパー発表月」が一斉に停滞する中、チームが最も陥りやすい三つの落とし穴は次のとおりです。
- 限定プレビューを全面公開と誤認する:現在は政府承認を受けた約20社のパートナーのみがAPI/Codex経由でアクセス可能で、一般ChatGPTユーザーはまだ利用できません。これを全面公開と見なしてGPT-5.5の本番ルートを切り替えたり、年間プランを早期固定したりすると、全面公開前に両方失うリスクがあります。
- UltraモードのToken請求を軽視する:SolのUltraマルチエージェントモードはTerminalBench 91.9%の核心ですが、並列サブエージェントにより出力Tokenが大幅に増加します。個別の予算上限を設けないと、複雑なAgentタスクが一晩でAPIクォータを突破する可能性があります。
- ノートPCをCodex/Cursor評価環境にする:公開ウィンドウ期間はTerminalBench系の多段階タスク回帰、SFTPによる評価ログ・成果物同期を連続実行する必要があります。蓋を閉じてスリープするMacBookでは、7月のCerebrasグレー前に「たまに成功、多くはタイムアウト」という挙動になります——これはSolの性能とは無関係です。
2. 核心速覧:Sol / Terra / Luna の価格とポジション
| モデル | ポジション | 入力価格 | 出力価格 | ハイライト |
|---|---|---|---|---|
| GPT-5.6 Sol | フラッグシップ / 最強 | $5 / 100万Token | $30 / 100万Token | TerminalBench 2.1 世界1位(91.9%) |
| GPT-5.6 Terra | バランス / 主力 | $2.50 / 100万Token | $15 / 100万Token | GPT-5.5に近い性能、コスト50%削減 |
| GPT-5.6 Luna | 軽量 / 高速 | $1 / 100万Token | $6 / 100万Token | 高頻度タスク向け、Sol比80%コスト削減 |
現状:米国政府の要求により、現在は約20社の承認パートナーに限定プレビュー提供中で、数週間以内の全面公開が見込まれています。コンテキストウィンドウは報告で約150万Token(完全なSystem Card待ち)です。
3. 発表背景:太陽系命名と政府審査
2026年6月27日(日本時間)、OpenAIはGPT-5.6シリーズを正式発表し、初めて太陽系天体による命名体系——Sol(太陽)・Terra(大地)・Luna(月)——を導入しました。それぞれフラッグシップ、バランス、軽量の三層に対応します。
今回の発表は順調ではありませんでした。6月2日にトランプ大統領が署名した大統領令の影響で、OpenAIは一般公開前に政府の安全審査を受ける必要がありました——これは米国政府が初めてAI企業にフロンティアモデルの限定公開を求めた事例です。OpenAI CEOのサム・アルトマンは協力姿勢を示しつつ、次のように声明を出しています。
このような政府承認モデルが業界の長期的なデフォルト慣行となるべきではないと考えています。最高のツールが、本当に必要としているユーザー、開発者、企業、グローバルパートナーから遠ざけられてしまいます。
GPT-5.6はOpenAI史上初めて、三モデルすべてが「High(高)」サイバーセキュリティリスク等級をトリガーした製品シリーズです——エントリー級のLunaを含みます。
4. 三モデル詳解(Max / Ultra モード)
GPT-5.6 Sol — フラッグシップモデル
SolはOpenAIがこれまでにリリースした最も強力なモデルで、高難度プログラミング、長鎖サイバーセキュリティ研究、多段階自律実行が必要なAgentic Workflow向けに設計されています。
二つの新推論モード:
- Maxモード:モデルにより多くの推論時間を与え、速度を犠牲にして精度を追求します。正確性が最優先のシーンに適しています。
- Ultraモード:画期的なマルチエージェント協調アーキテクチャです——Solが複雑なタスクを分解し、複数の並列サブエージェントに分配して最終出力を統合します。この設計がTerminalBenchでの飛躍的な性能向上の核心です。
価格:入力$5 / 100万Token、出力$30 / 100万Token(GPT-5.5と同水準)です。
GPT-5.6 Terra — バランスモデル
Terraは日常のエンタープライズ業務の中核主力で、大規模カスタマーサポート、社内ツール、文書分析など高頻度ビジネスシーンに適しています。GPT-5.5に近い性能を維持しつつコストを50%削減しており、大規模展開時のコストパフォーマンス最高の選択肢です。価格:入力$2.50 / 100万Token、出力$15 / 100万Tokenです。
GPT-5.6 Luna — 軽量モデル
Lunaは高頻度・低レイテンシシーン向けに最適化され、テキスト要約、下書き作成、日常自動化タスクに適しています。特筆すべきは、LunaがOpenAI史上初めてサイバーセキュリティと生物学の両分野でHigh能力評価を獲得した非フラッグシップモデルである点です。価格:入力$1 / 100万Token、出力$6 / 100万Tokenです。
5. 主要ベンチマーク:TerminalBench・CTF・生命科学
プログラミング能力:TerminalBench 2.1
TerminalBench 2.1は現在、最も権威あるコードAgent評価ベンチマークの一つで、89問の複雑なコマンドライン計画問題を含み、多段階ツール呼び出し、反復修正、タスク調整の実能力をテストします。
| モデル | スコア | モード |
|---|---|---|
| GPT-5.6 Sol | 91.9% | Ultra(マルチエージェント) |
| GPT-5.6 Sol | 88.8% | 標準モード |
| Claude Mythos 5 | 88.0% | 標準 |
| GPT-5.5 | 83.4% | 標準 |
| Gemini 3.1 Pro Preview | 70.7% | 標準 |
Solはわずか17日間でClaude Mythos 5を首位から引きずり下ろしました——後者は6月9日にトップに立ったばかりでした。
Agent長期タスク:Agent's Last Exam
| モデル | タスク完了率(コードモード) |
|---|---|
| GPT-5.6 Sol | 50.9%(50%突破の唯一のモデル) |
| GPT-5.6 Luna | GPT-5.5をわずかに上回る |
サイバーセキュリティ:CTF & ExploitBench
| モデル | CTF命中率 |
|---|---|
| Sol | 96.7% |
| Terra | 91.84% |
| Luna | 85.19% |
ExploitBench:SolのExploitBench上のパフォーマンスはAnthropicのMythos Previewとほぼ同等ですが、出力Tokenは約3分の1しか消費せず、エンタープライズセキュリティ研究のコストを大幅に削減します。
安全に関する注記:OpenAIのテストでは、SolはChromiumとFirefoxコードベースの評価で脆弱性とエクスプロイトプリミティブを識別できますが、完全に利用可能なエクスプロイトチェーンを自律的に構築することはできないため、OpenAIの「Cyber Critical」警戒線以下に留まっています。
生命科学:GeneBench v1 & HealthBench
- GeneBench v1(ゲノミクスと定量生物学):Solはより少ないToken数でGPT-5.5の性能に匹敵または上回ります。
- HealthBench Professional:Solは60.5点を獲得し、GPT-5.5比8.7点向上しました。
6. Cerebras 750 token/s 速度革命
7月から、GPT-5.6 SolはCerebrasハードウェア加速プラットフォームを通じて一部顧客向けに展開され、生成速度は最大750 token/sに達します。
比較参考:現在、多くのフラッグシップモデルの出力速度は50〜150 token/sの範囲です。750 token/sは同等品質で応答時間を既存モデルの5分の1から15分の1に短縮する可能性があり、リアルタイムプログラミングアシスタントやストリーミングAIアプリケーションにとって質的な飛躍となります。初期アクセスは選定された企業顧客に限定されます。
7. 政策動向:三社トップモデルが一斉に足踏み
2026年6月2日、トランプ大統領は大統領令に署名し、米国政府がAIモデルの一般公開前に最大30日間のアクセス権を取得して安全審査を行えるようにしました。この命令は強制力を持ちませんが、実質的な拘束効果を生み出しました。
| 企業 | モデル | 状態 |
|---|---|---|
| OpenAI | GPT-5.6 Sol/Terra/Luna | 約20社のパートナーに限定プレビュー |
| Anthropic | Claude Fable 5 / Mythos 5 | 6月12日に輸出規制令で強制停止 |
| Gemini 3.5 Pro | 7月に延期(当初6月公開予定) |
6月はAIの「スーパー発表月」となるはずでしたが、三社のトップラボのフラッグシップ製品が一斉に公開の門前で足踏みしました。OpenAIの安全対策には、リアルタイム悪用分類器、アカウントレベル審査、70万A100相当GPU時間の自動レッドチームテスト、汎用ジェイルブレイクテスト、専用大推論モデルによる最終フィルタリングが含まれます。
8. Claude Mythos 5 との正面対決
| 次元 | GPT-5.6 Sol | Claude Mythos 5 |
|---|---|---|
| TerminalBench 2.1(プログラミング) | 91.9%(Ultra)/ 88.8% | 88.0% |
| ExploitBench(サイバーセキュリティ) | Mythos Previewと同等、Token消費約1/3 | データ未公開 |
| 入力価格 | $5 / M | 元$10/M(現在停止中) |
| 可用性 | 限定プレビュー中、数週間以内に全面公開 | 輸出規制により現在停止 |
| コンテキストウィンドウ | 約150万Token | 200K Token |
結論:Solはプログラミングとサイバーセキュリティの特定ベンチマークでMythos 5を上回り、半分の価格で同等のセキュリティ研究能力を実現しています。ただしFable 5はSWE-bench Proなど他の指標で依然として優位であり、GPT-5.6の完全なSystem Cardデータ公開後にさらなる比較が必要です。
9. アクセス権限の取得方法
現段階(2026年6月):
- 政府承認を受けた約20社の信頼できるパートナーのみがAPIとCodex経由でアクセス可能です
- 一般ユーザーはChatGPTではまだ利用できません
近日公開(2026年7月予定):
- ChatGPT全面公開(Plus/Proユーザー優先)
- API一般公開
- Cerebras加速版Solの企業顧客向け公開(最大750 token/s)
予測市場データ:Polymarketによると、「GPT-5.6が7月31日までに全面公開される」確率は約87%と予測されています。
10. ユースケース別おすすめモデル
| ニーズ | 推奨モデル |
|---|---|
| 複雑なコード生成、デバッグ、多段階Agentタスク | Sol(Ultraモード) |
| エンタープライズ文書分析、カスタマーサポート、大規模API呼び出し | Terra |
| 高頻度要約、下書き、日常自動化 | Luna |
| 予算が限られているがGPT-5.5級の性能が必要 | Terra(同等性能、50%低コスト) |
| レイテンシに極端に敏感なリアルタイムアプリ(7月以降) | Sol on Cerebras |
11. 開発者向け五手順実践リスト(How-to)
GPT-5.6全面公開前に、以下のベースラインを完了しておくことをおすすめします。公開週に受け身にならないための準備です。
- 本番モデルルートを固定する:GPT-5.5またはClaude Opus 4.8をデフォルトに維持し、Sol/Terra/Luna用にサンドボックスAPI Keyと月次予算上限を確保します。Ultraモードは個別のアラート閾値を設定してください。
- 公式発表チャネルを購読する:OpenAIブログ、Platformドキュメント、Deployment Safety System Cardを追跡し、Polymarket確率に基づく本番アーキテクチャ変更を避けます。
- 隔離評価環境を構築する:独立ブランチにCodex CLIまたはマルチモデルゲートウェイを展開し、TerminalBench系の多段階Agentタスク向けにログとToken計測を準備します。
- 社内ベンチマーク用例を事前定義する:プログラミングAgent、CTF系スキャン、長コンテキストRAGそれぞれ3〜5件の用例を用意し、SFTP/rsyncで評価結果を成果物ディレクトリに同期して回帰比較を容易にします。
- 常時オンラインのリモートMacノードを展開する:Cursor、Codex、評価スクリプトを7×24稼働のApple Siliconホストに配置します。ノートPCの蓋を閉じても公開週の連続ベンチマーク回帰を中断しません。
12. よくある質問(FAQ)
Q:GPT-5.6は今すぐChatGPTで使えますか?
A:一般ユーザーはまだ利用できません。現在は約20社のパートナーに限定プレビュー提供中で、ChatGPT全面公開は数週間以内(7月予定)と見られています。
Q:SolのUltraモードとは何ですか?
A:Ultraモードは複数の並列サブエージェントに複雑なタスクを分配し、結果を統合する仕組みです。TerminalBench 91.9%の鍵ですが、標準モードよりToken消費が大幅に増加します。
Q:GPT-5.6はClaude Fable 5よりプログラミングに適していますか?
A:SolはTerminalBenchでMythos 5を上回っています(91.9% vs 88%)。Fable 5はSWE-bench Proで依然として優位ですが、現在は停止中です。Solの価格はFable 5の半分です。
Q:三モデルは安全ですか?
A:三モデルすべてがOpenAIの「High」サイバーセキュリティ評価を獲得していますが、OpenAIは完全に利用可能なエクスプロイトチェーンを自律構築できないことを確認しています。リアルタイム分類器とレッドチームテストが展開済みです。
Q:7月のCerebras版はどのくらい速いですか?
A:最大750 token/sで、多くのフラッグシップモデルの50〜150 token/sの5〜15倍です。初期は企業顧客に限定されます。
13. まとめ:能力・効率・速度の三方向突破と「常時オンラインMac」という評価ボトルネック
GPT-5.6シリーズはOpenAIの三方向における重大突破を示しています。能力(Sol UltraマルチエージェントがTerminalBench首位、17日でMythos 5を降ろす)、効率(同等セキュリティ研究能力でToken消費は競合の3分の1)、速度(7月のCerebras 750 token/sがリアルタイムAIの境界を再定義)です。一方、米国政府が初めてAIモデル公開プロセスに介入したことも歴史的な先例となり——「国家安全保障 vs 技術開放」の攻防が今後の公開エコシステムに深い影響を与えるでしょう。
開発者にとって、ベンチマーク表と価格マトリクスを理解しただけでは、Codex/Cursorパイプラインが全面公開初日に安定稼働するとは限りません。Ultraマルチエージェント評価、SFTPログ同期、夜間回帰テストには常時オンライン・低レイテンシ・ネイティブmacOSツールチェーンが必要です。ノートPCの断続的オンラインや低スペッククラウドホストでは、限定プレビューと7月Cerebrasグレーのウィンドウ期間に「たまに緑、多くは赤」という挙動になります——これはSolが91.9%かどうかとは無関係です。
GPT-5.6グレーテスト用のAgentパイプラインを準備しているなら、次のステップはCursor、Codex CLI、評価成果物を常時稼働のApple Siliconノードに安定配置し、SFTP/rsyncでロールバック可能な同期を行うことです。SFTPMAC リモートMacレンタルはAI Agent/Codex評価向けmacOS環境を提供します。ネイティブXcode/Metal同構、7×24 launchdデーモン、低レイテンシAPIコールバック、サイト内GPT-5.5・Claude移行記事と連携する運用ベースライン——「自宅Macを兼用開発機」より、7月全面公開ウィンドウをモデル切替スプリント期として活用するのに適しています。