openPangu 2.0 はいつ公開された?HDC 2026 タイムラインとコア仕様
2026 年 6 月 12 日、東莞・松山湖で開催された Huawei Developer Conference(HDC 2026)において、余承東氏の基調講演で openPangu 2.0 が正式発表されました。6 月 30 日には openPangu-2.0-Flash のモデル重み、基本推論コード、訓推カスタムオペレータが GitCode 上で公開されました。Pro 版の重みは 7 月公開予定で、事前学習コード・事後学習コード・訓練オペレータなど追加コンポーネントは 2026 年下半期に順次リリースされる見込みです。
| バージョン | 総パラメータ | 活性化パラメータ | スパース比 | コンテキスト | 状態 |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 約 28:1 | 512K | 7 月公開予定 |
| openPangu 2.0 Flash | 92B | 6B | 約 15:1 | 512K | 6/30 公開済み |
512K コンテキストは、長編 SF 小説『三体』第一部相当の文字量を一度に処理できる規模であり、オープンソース LLM の中でも最上位クラスです。
モデル構造:MoE アーキテクチャの完全定義が Flash 版と同時公開されています。
モデル重み:Flash 版は 6/30 公開済み。Pro 版は 7 月予定です。
技術レポート:重みと同時にアーキテクチャと訓練詳細が公開されています。
推論コード + 訓推オペレータ:基本推論コードと昇腾向け高性能カスタムオペレータが 6/30 公開済みです。
事前学習コード:完全な訓練フロー再現が可能になる予定で、2026 年下半期公開。超大規模 MoE では極めて稀な開放です。
フルスタックオープンソースの意義:業界慣行では重みと推論コードのみ公開されることが多い一方、openPangu 2.0 は事前学習コード、事後学習コード(SFT/RLHF)、昇腾訓練オペレータまで計 7 大コンポーネントの段階公開を計画しており、真の意味でのフルスタックオープンソースを目指しています。
openPangu 2.0 の技術アーキテクチャ:mHC ルーティングと昇腾 NPU 適合
openPangu 2.0 は MoE(Mixture of Experts)アーキテクチャを採用し、NVIDIA GPU を一切使わず Huawei 昇腾 910B NPU のみで全規模訓練を完了した世界初の最先端大規模言語モデルです。A100 や H100 は訓練パイプラインに含まれていません。
mHC(Multi-Head Combinatorial)ルーティング:エキスパート選択効率を改善し、MoE 特有の負荷偏りを低減します。
Muon オプティマイザ:Microsoft 提案の二階モーメンタム最適化手法で、大規模訓練の安定性を向上させます。
ModAttn(Modular Attention):モジュラー Attention 機構で 512K 超長シーケンスに対応します。
DSA+SWA 超スパース Attention(Flash 専用):極端なスパース比を実現し、推論算力要件を大幅に削減します。
端末向け Embedded 版:ネイティブ 30B 端末モデルで推論速度 50% 向上、メモリ 20% 削減。Kirin SoC 搭載端末でのオフライン実行に対応します。
| 訓練/推論指標 | openPangu 2.0 | 業界参照 |
|---|---|---|
| 昇腾 1 枚スループット | 主流オープンソースモデルの 2 倍 | 非昇腾最適化アーキテクチャ |
| 超ノード訓練効率 | +30% | 標準 MoE クラスタ |
| 512K 長シーケンス訓練スループット | +50% | 128K コンテキストモデル |
| 訓推一致率 | >99% | MoE 共通課題 |
| 推論レイテンシ | 同クラス比 1.2 倍優位 | 同帯オープンソースモデル |
開発者エコシステムは CANN(Huawei 自研、CUDA 相当)と torch_npu(PyTorch 適合層)を基盤とします。標準 PyTorch コードは import torch_npu で昇腾バックエンドへ切り替え可能です。デプロイ先は Huawei Cloud ModelArts(API 直叩き)、GitCode Ascend Tribe(自前デプロイ)、HarmonyOS ネイティブ端末統合をカバーします。
import torch
import torch_npu
model = load_openpangu("./openPangu-Flash")
model = model.to("npu:0")
output = model.generate(input_ids.to("npu:0"), max_new_tokens=512, temperature=0.7)
openPangu 2.0 と DeepSeek・Qwen の選び方:競合比較マトリクス
| モデル | 総パラメータ | 活性化 | コンテキスト | 訓練 HW | オープン度 |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | 昇腾 NPU | フルスタック(7 コンポーネント) |
| openPangu 2.0 Flash | 92B | 6B | 512K | 昇腾 NPU | フルスタック(7 コンポーネント) |
| DeepSeek V4 Pro | 1.6T | 約 200B | 128K | NVIDIA | 重み + 推論 |
| Qwen 3.7 Max | 約 400B+ | 可変 | 128K | NVIDIA | 重み + 推論 + 一部訓練 |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | 重み + 推論 |
| Llama 4 405B | 405B | — | 128K | NVIDIA | 重み + 推論 |
| 能力軸 | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| コード生成 | 中〜高 | 最高 | 高 | 高 |
| 複雑推論 | 中 | 最高 | 最高 | 高 |
| ツール呼出 / Agent | 高 | 高 | 高 | 最高 |
| 超長コンテキスト | 最高(512K) | 中 | 中 | 高(256K) |
| 推論効率 | 最高 | 低 | 低 | 高 |
| 技術的主権性 | 最高 | 低 | 低 | 低 |
| フルスタック OSS | 最高 | 中 | 中 | 中 |
コード生成・複雑推論なら DeepSeek V4 Pro。Agent・多ツール協調なら Kimi K2.7。256K 超の超長文処理なら openPangu 2.0 Pro。国産 HW 要件・NVIDIA 非依存なら openPangu 2.0。低コスト推論なら Flash(6B 活性化、約 96GB VRAM 相当)。
注:openPangu 2.0 の独立第三者ベンチマークは現在評価中です。上記能力マトリクスはアーキテクチャ推定に基づき、結果公開後に更新します。
openPangu 2.0 の使い方:ModelArts API と GitCode 六ステップデプロイ
Huawei Cloud アカウント登録:huaweicloud.com で本人確認を完了します。自前 HW なしで API 呼び出しが可能です。
ModelArts サービス購読:ModelArts → AI Gallery →「openPangu 2.0」を検索し、Flash または Pro を購読します。
API Endpoint と Token 取得:コンソールから推論エンドポイントと X-Auth-Token をコピーし、Chat Completions 形式で呼び出します。
GitCode から重み取得(自前デプロイ):gitcode.com/org/ascend-tribe から openPangu-2.0-Flash、openPangu-2.0-Infer、openPangu-2.0-Op 等のリポジトリを clone します。
昇腾 1 枚推論:昇腾 910B 上で python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16 を実行します。Flash-Int8 量子化版はメモリ 40% 削減、精度劣化 10% 未満です。
ドメイン微調整(LoRA):python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16 を実行します。Pro 版マルチカード分散推論は 8 枚昇腾 910B クラスタが必要で、7 月重み公開後に検証予定です。
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [{"role": "user", "content": "こんにちは、自己紹介をお願いします"}],
"max_tokens": 1024,
"temperature": 0.7
}'
| バージョン | 推奨 HW | 最低構成 | 備考 |
|---|---|---|---|
| Flash(6B 活性化) | 昇腾 910B 1 枚 | 約 96GB 統合メモリ | 大メモリ環境でコミュニティ検証あり |
| Flash-Int8 | 昇腾 Atlas A2 1 枚 | 約 48GB VRAM | W4A8 量子化 |
| Pro(18B 活性化) | 昇腾 910B 4 枚以上 | マルチカードクラスタ | 7 月重み公開後に検証 |
主権 AI の視点:openPangu 2.0 オープンソースの戦略的意義と引用可能データ
米国による先端 AI チップ(A100/H100)対中輸出規制の文脈で、openPangu 2.0 は「NVIDIA なしでも最先端規模の MoE を訓練できる」ことを実証しました。日本を含む各国が半導体サプライチェーンと AI 基盤の多様化を模索する中、主権 AI(Sovereign AI)——自国または信頼できる域内でデータ処理からモデル訓練・推論まで完結させる構想——にとって、昇腾フルスタックのオープンソース化は重要な選択肢を増やします。
openPangu 2.0 は Huawei AI 戦略の中核基盤です。HarmonyOS 7 は Agent 時代へ全面移行し、HarmonyOS Agent フレームワーク 2.0 の複雑タスク実行成功率は 90% 超。端末 30B モデルはスマートフォン上でローカル LLM 実行が可能です。ライセンスは Huawei openPangu License:商用利用可、ロイヤリティフリー、非独占(詳細は GitCode リポジトリ参照)。
オープンソースロードマップ:2026-06-30 Flash 重み + 推論 + オペレータ公開済み。2026-07 Pro 重み予定。2026 年下半期に事前学習/事後学習コードとデータ処理ツール。
Flash スパース効率:92B 総パラメータに対し 6B のみ活性化。トークンあたり約 6.5% 活性化で、推論コストは稠密 6B モデルに近いが知識プールは 92B 級。
Flash-Int8 量子化:W4A8 量子化でメモリ 40% 削減、精度劣化 10% 未満。約 48GB VRAM 環境向け。
免責事項:本稿の一部ベンチマークと能力評価はアーキテクチャ推定に基づきます。独立第三者テスト結果公開後に更新します。公開日:2026 年 7 月 1 日。
ローカル Mac で Agent ゲートウェイ、モデルルーティング層、iOS/macOS 自動化パイプラインを構築する場合、スリープによる切断、メモリ不足、Gateway プロセスの不安定さがよくある課題です。OpenClaw や Hermes 等の Agent フレームワークを openPangu API と接続し、7×24 本番運用するなら、MESHLAUNCH の Mac Mini クラウドレンタルがより安定した選択肢です。Apple Silicon 専有、日/週/月の柔軟な契約で、ルーティング層と CI ビルドを同一ノードで並列実行できます。
Flash は総 92B・活性化 6B で 2026 年 6 月 30 日 GitCode 公開済み。低コスト高並列 API に適します。Pro は総 505B・活性化 18B で 7 月公開予定。超長文解析と二次事前学習向けです。両版とも 512K コンテキストに対応します。
GitCode Ascend Tribe 組織:openPangu-2.0-Flash(重み)、openPangu-2.0-Flash-Int8(量子化版)、openPangu-2.0-Infer(推論ソース)、openPangu-2.0-Op(昇腾オペレータ)。最速試用は Huawei Cloud ModelArts API です。安定 Agent ホストについては レンタル料金ページをご確認ください。
① モデル構造 ② モデル重み ③ 技術レポート ④ 推論コード + 訓推オペレータ(公開済み)⑤ 事前学習コード ⑥ 事後学習コード(SFT/RLHF)⑦ 昇腾訓練オペレータ。後三者は超大規模 MoE では極めて稀で、2026 年下半期に順次公開予定です。
はい。openPangu 2.0 は NVIDIA GPU を一切使わず昇腾 910B のみで訓練された最先端オープンソースモデルです。CANN + torch_npu ソフトウェアスタックと組み合わせ、国産 HW 要件や主権 AI 構想に適合します。デプロイとリージョン選定は ヘルプセンターを参照してください。