華為 openPangu 2.0 オープンソース MoE 大規模言語モデルと昇腾 NPU 訓練アーキテクチャの概念図

2026年 openPangu 2.0 正式オープンソース:505B MoE・512K コンテキストと昇腾フルスタック選定ガイド

2026年6月30日、華為は HDC 2026 の約束を果たし、openPangu-2.0-Flash のウェイト・基礎推論コード・訓推オペレータを GitCode で公開しました。これは非 NVIDIA ハードウェアで最先端規模の訓練を完了した初のオープンソース大規模言語モデルであり、超大型 MoE においてフルスタック OSS(事前訓練・事後訓練コードを含む)を計画する数少ない事例です。本記事ではタイムライン、アーキテクチャ、競合比較、デプロイ手順、国産化選定まで、openPangu 2.0 の意思決定に必要な要素を網羅的に解説します。

1. イベント背景とタイムライン:HDC 2026 から GitCode 公開まで

日付イベント
2026-06-12華為開発者大会 HDC 2026(東莞・松山湖)で余承東氏が openPangu 2.0 を発表
2026-06-30openPangu-2.0-Flash ウェイト・推論コード・訓推オペレータが GitCode で OSS 公開
2026-07(予定)openPangu-2.0-Pro ウェイトと推論コードの公開
2026 下半期(予定)事前訓練コード、事後訓練コード(SFT/RLHF)、訓練オペレータ等の段階公開

余承東氏は HDC 2026 で「私の辞書に第二はない、第一しかない。中国一から世界一へ」と述べ、openPangu 2.0 は 2021 年の初代盤古以来、華為にとって最も重要な OSS アップグレードとなります。

2. コアスペック速覧:二バージョン共通 512K コンテキスト

バージョン総パラメータ活性化パラメータスパース比コンテキスト状態
openPangu 2.0 Pro505B18B~28:1512K2026 年 7 月公開予定
openPangu 2.0 Flash92B6B~15:1512K2026-06-30 公開済み

Flash 版は 92B 総パラメータ・6B 活性化で推論コストが極めて低く、DSA+SWA 超スパースアテンションにより 6B 密モデルに近い速度を実現しながら 92B 級の知識プールを保持します。昇腾 910B 単卡推論が可能で、約 96GB 統合メモリ環境でもコミュニティ検証が進行中です。

Pro 版は 505B 総パラメータ・18B 活性化で、512K コンテキストにより契約書全文・大規模コードベース・超長対話を一括処理できます——およそ『三体』第一部 8 冊分のテキスト量に相当します。

3. 7 大オープンソースコンポーネント:今回の「含金量」が高い理由

多くの OSS 大規模言語モデルはウェイト + 推論コードのみを公開します。openPangu 2.0 は 7 大コンポーネントの公開を計画しています。

  1. モデル構造(アーキテクチャ定義)——✅ 6/30 公開済み
  2. モデルウェイト(Flash 6/30 公開、Pro 7 月予定)
  3. 技術レポート(ウェイトと同時公開)
  4. 推論コード(基礎推論 + 訓推オペレータ)——✅ 公開済み
  5. 事前訓練コード——📋 2026 下半期
  6. 事後訓練コード(SFT/RLHF)——📋 2026 下半期
  7. 訓練オペレータ(昇腾高性能カスタムオペレータ)——📋 2026 下半期

前半 4 項目は業界標準ですが、後半 3 項目は超大型 MoE では極めて稀であり、研究者が訓練フローを完全再現でき、企業が独自データで垂直ドメイン事前訓練を行える——真のフルスタック OSS を意味します。

オープンソースロードマップ

2026-06-30 ✅  Flash ウェイト + 推論コード + 訓推オペレータ
2026-07    🔜  Pro ウェイト + 推論コード
2026 下半期 📋  事前訓練コード、事後訓練コード、追加オペレータ、データ処理ツール

4. 技術詳細:mHC・Muon・ModAttn と訓推一致率 >99%

openPangu 2.0 は MoE(混合エキスパート) アーキテクチャを採用し、主要技術は以下のとおりです。

  • mHC(Multi-Head Combinatorial)ルーティング:エキスパートルーティング効率を改善し、負荷不均衡を低減
  • Muon オプティマイザ:Microsoft 提唱の二階モーメンタム方式で大規模訓練の安定性を向上
  • ModAttn(Modular Attention):モジュラーアテンションで 512K 超長コンテキストに対応
  • DSA+SWA 超スパースアテンション(Flash 専用):極限スパース比で推論演算を大幅削減

訓練技術のブレークスルー数値:

  • スーパーノード訓練効率 +30%
  • 512K 長シーケンス訓練スループット +50%
  • 訓練/推論分布一致率 >99%(MoE モデルの典型的課題に対する重要指標)
  • Flash-Int8 量子化版:W4A8、メモリ占有 40% 削減、精度損失 <10%

5. 昇腾ハードウェア適合:世界初の「NVIDIA 非依存」最先端大規模言語モデル

openPangu 2.0 は非 NVIDIA ハードウェアで全規模訓練を完了した初の最先端大規模言語モデルです——全程華為昇腾 910B NPU、A100/H100 は一切未使用。

  • 推論最適化:昇腾親和アーキテクチャで単卡スループットは業界主流 OSS モデルの 2 倍
  • 推論レイテンシ:同クラスモデル比で 1.2 倍 優位
  • エッジ適合:ネイティブ 30B エッジモデル、推論 50% 高速化・メモリ 20% 削減、麒麟チップ搭載スマートフォンでオフライン動作

米国による対中高度 AI チップ輸出規制が継続する中、華為は国産演算力で 505B MoE を訓練し、その訓練パイプラインを OSS 化しました——「NVIDIA がなければ大規模モデルは作れない」という議論への有力な反証です。

6. 開発者エコシステム:CANN・torch_npu と三つのデプロイ経路

  • ソフトウェアスタック:CANN(CUDA 相当)+ torch_npu(PyTorch 適合)、import torch_npu で昇腾バックエンドに切替
  • クラウド:華為クラウド ModelArts API 直叩き、ハードウェア設定不要
  • OSS 自ホストGitCode Ascend Tribe からウェイト取得
  • エッジ:HarmonyOS ネイティブ統合;HarmonyOS 7 Agent 時代において openPangu 2.0 はネイティブ AI エンジン、鴻蒙エージェントフレームワーク 2.0 の複雑タスク成功率 >90%

7. DeepSeek・Qwen・Kimi・Llama との競合横断比較

モデル総パラメータ活性化コンテキスト訓練 HWOSS 範囲
openPangu 2.0 Pro505B18B512K昇腾 NPUフルスタック(7 コンポーネント)
openPangu 2.0 Flash92B6B512K昇腾 NPUフルスタック(7 コンポーネント)
DeepSeek V4 Pro1.6T~200B128KNVIDIAウェイト+推論
Qwen 3.7 Max~400B+varies128KNVIDIAウェイト+推論+一部訓練
Kimi K2.71T32B256KNVIDIAウェイト+推論
Llama 4 405B405B128KNVIDIAウェイト+推論

能力マトリクス(アーキテクチャ推定、第三者ベンチマーク評価中)

能力軸openPangu 2.0 ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
コード生成⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
複雑推論⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
ツール呼出/Agent⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
超長コンテキスト⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
推論効率⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
国産化・自主可控⭐⭐⭐⭐⭐
フルスタック OSS⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

免責:一部ベンチマークはアーキテクチャに基づく推定評価です。第三者テスト結果公開後に更新します。公開日:2026年7月1日。

8. シナリオ別選定マトリクス:あなたの主用途は?

シナリオ推奨理由
コード生成 / 複雑推論DeepSeek V4 Pro~200B 活性化で性能先行
Agent / マルチツール協調Kimi K2.7MCP エコシステムが最も成熟
超長文書(>256K Token)openPangu 2.0 Pro512K コンテキストの第一選択
国産化コンプライアンスopenPangu 2.0唯一の純国産 HW 訓練最先端モデル
昇腾 / 華為クラウド展開openPangu 2.0ネイティブ最適化、スループット 2x
エッジ / スマホ展開openPangu Embedded30B エッジ、麒麟チップオフライン
低コストローカル推論openPangu 2.0 Flash6B 活性化、~96GB で実行可能

9. デプロイ前に正視すべき三つの課題

  1. ウェイト容量と転送コスト:Flash ウェイトは数十 GB 級、Pro はさらに大きい。跨データセンター DL はタイムアウトしやすく、レジューム転送と検証ゲート(rsync --partial + SHA256)が必須です。
  2. ハードウェアスタック分断:訓練が昇腾・開発機が Mac/Windows の場合、torch_npu とローカル PyTorch 環境の混在は困難。「開発オーケストレーションノード」と「NPU 推論ノード」の分離が現実的です。
  3. ベンチマーク真空期:6/30 公開直後で第三者スコアが未整備。本番選定は 512K 実測と国産化要件を重視し、ランキング噂だけに依存しないでください。

10. 取得とデプロイ:ModelArts API と GitCode セルフホスト

方式一:華為クラウド ModelArts API(最も簡単)

  1. 華為クラウドアカウントを登録します
  2. ModelArts → AI Gallery →「openPangu 2.0」を検索します
  3. Flash または Pro を購読し、API Endpoint を取得します
  4. Chat Completions 形式で呼び出します
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "自己紹介をお願いします"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

方式二:GitCode ダウンロード・セルフデプロイ

主要リポジトリ:openPangu-2.0-FlashopenPangu-2.0-Flash-Int8openPangu-2.0-InferopenPangu-2.0-Op

# Flash 単卡推論(昇腾 910B)
python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16

# Pro マルチカード分散(7 月ウェイト公開後)
python distributed_inference.py \
  --model_path ./openPangu-Pro \
  --num_devices 8 \
  --context_length 512000

# ドメイン微調整(LoRA 例)
python finetune.py \
  --model_path ./openPangu-Pro \
  --data_path ./domain_data \
  --output_dir ./fine_tuned_model \
  --method lora \
  --lora_rank 16

ハードウェア要件参考

バージョン推奨 HW最低構成備考
Flash(6B 活性化)単卡昇腾 910B~96GB 統合メモリ大容量メモリ環境でコミュニティ検証中
Flash-Int8単卡昇腾 Atlas A2~48GB VRAMW4A8、精度損失 <10%
Pro(18B 活性化)4+ 卡昇腾 910Bマルチカードクラスタ7 月ウェイト公開後に検証

11. 戦略的意義:フルスタック OSS・HarmonyOS Agent・openPangu License

地政学:A100/H100 輸出制限下で、openPangu 2.0 は国産演算力での最先端規模訓練と OSS 化を実証しました。

フルスタック OSS の価値:学術研究の訓練再現、企業の垂直ドメイン二次事前訓練、昇腾エコシステム参入障壁の低減。

HarmonyOS Agent 基盤:openPangu 2.0 は華為 AI 戦略の中核。HarmonyOS 7 は Agent 時代へ全面移行し、エッジ 30B モデルはスマホローカル・オフライン動作が可能です。

openPangu License:商用利用可・ロイヤリティフリー・非独占。詳細は GitCode リポジトリの条項をご確認ください。

12. 試用から本番まで:openPangu 2.0 導入五手順

  1. シナリオでバージョンを確定する:超長文書 → Pro;高並行 API → Flash;国産化 → 任意の openPangu 2.0 バージョン。
  2. ModelArts API で迅速検証する:ハードウェア不要で 48 時間以内に業務プロンプトと 512K 長文ストレステストを完了できます。
  3. GitCode からウェイトと Infer リポジトリを取得する:Ascend Tribe を購読し、7 月 Pro と下半期事前訓練コードの更新を追跡します。
  4. 昇腾ノードで推論をデプロイするtorch_npu バックエンド + openPangu-2.0-Op 高性能オペレータ;Int8 版で VRAM 40% 削減。
  5. リモート Mac でワークスペースとウェイトを同期する:微調整データ・LoRA 成果物・設定ファイルを SFTP/rsync で開発機と NPU クラスタ間に増分同期し、権限分離と監査を確保します。

13. よくある質問

Q:openPangu 2.0 は総合能力が最強ですか? コードと複雑推論では DeepSeek V4 Pro が現時点で先行しています。openPangu は 512K コンテキスト、国産化、昇腾効率、フルスタック OSS の点で代替がほぼありません。

Q:Pro 版はいつ使えますか? 2026 年 7 月にウェイトと推論コード公開予定です。Flash は GitCode から即時 DL 可能です。

Q:事前訓練コードはいつ OSS 化されますか? 2026 年下半期、事後訓練コード・追加訓練オペレータとともに公開予定——業界最も完全な最先端 MoE 訓練公開資料の一つになる見込みです。

14. まとめ:512K・国産化・フルスタック OSS の三重希少性

openPangu 2.0 は現段階で総合能力最強の OSS 大規模言語モデルではありませんが、以下の次元では代替がほぼありません:512K 超長コンテキスト世界唯一の NVIDIA 非依存訓練最先端モデル昇腾ネイティブ 2x スループット訓練コードを含むフルスタック OSS麒麟エッジ 30B オフライン動作。昇腾または華為クラウド環境で超長文書を扱う、国産化コンプライアンスが必要なチームにとって、現時点で競合のない選択肢です。

実運用のボトルネックは、大容量ウェイトの跨ノード転送、開発環境と NPU 推論環境の分離、7×24 監査可能な同期ベースラインに集中しがちです。自宅ノート PC で百 GB 級ウェイトを転送すると接続断が頻発します。Windows と昇腾スタックの同機混在は困難です。チーム共有時にディレクトリ権限マトリクスが欠如すると運用リスクが増大します。純 API 方式は一部課題を回避できますが、セルフデプロイと LoRA 微調整には安定したファイル配送パイプラインが依然必要です。

SFTPMAC リモート Mac レンタルは、openPangu 2.0 導入における開発オーケストレーションと同期ハブとして最適です。Apple Silicon 上でデータ前処理と GitCode 取得スクリプトを実行し、SFTP/rsync でウェイトを昇腾クラスタへ増分同期。launchd 常駐ノードにより大容量転送のスリープ中断を防止。サイト内 OpenClaw・多モデルルーティング記事と連携すれば、同一ワークスペースで API キー・微調整データ・監査ログを管理でき、「ノート PC 兼ウェイト転送機」より本番投入に適した体制を構築できます。

参考:GitCode Ascend Tribe · 華為クラウド ModelArts · HDC 2026