華為 openPangu 2.0 正式開源
505B MoE · 512K 上下文 · 昇騰全鏈路開放

HDC 2026 發表 · 6/30 Flash 上線 · 7 大元件分批開源 · 全球首個無 NVIDIA 訓練的前沿模型

華為 openPangu 2.0 開源發布 505B MoE 512K 上下文
2026 年 6 月 30 日,華為兌現 HDC 2026 承諾——開源盤古 openPangu 2.0 Flash 版權重、推理程式碼與訓推算子正式上線 GitCode。面向需要512K 超長上下文資安合規部署昇騰原生推論的開發者與企業 IT 決策者,本文提供:① HDC 發表至分批開源的完整時程;② Pro/Flash 雙版本規格與 7 大開源元件解讀;③ mHC/Muon/ModAttn 架構創新與昇騰硬體適配;④ 與 DeepSeek、Qwen、Kimi 的橫向對照與選型決策樹;⑤ ModelArts API 與 GitCode 自部署六步 Runbook;⑥ 地緣政治意義、HarmonyOS Agent 生態與 openPangu License。
01

openPangu 2.0 何時發布?HDC 2026 時程與核心規格

2026 年 6 月 12 日,華為開發者大會 HDC 2026 在東莞松山湖舉行,余承東主題演講正式發表 openPangu 2.0。6 月 30 日,openPangu-2.0-Flash 模型權重、基礎推理程式碼、訓推算子正式開源上線 GitCode;Pro 版權重規劃 7 月上線;預訓練程式碼、後訓練程式碼、訓練算子等更多元件將在 2026 下半年陸續釋出。

版本總參數啟用參數稀疏比上下文狀態
openPangu 2.0 Pro505B18B~28:1512K7 月規劃上線
openPangu 2.0 Flash92B6B~15:1512K6/30 已上線

512K 上下文相當於一次處理約 8 本《三體》(第一部)的文字量——在開源模型中屬頂級水準。

01

模型結構:完整 MoE 架構定義,隨 Flash 版同步發布。

02

模型權重:Flash 版 6/30 已上線;Pro 版 7 月上線。

03

技術報告:隨權重同步發布,含架構與訓練細節。

04

推理程式碼 + 訓推算子:基礎推理程式碼與昇騰高效能自訂算子,6/30 已上線。

05

預訓練程式碼:完整訓練流程可復現,2026 下半年發布——在超大規模 MoE 中極為罕見。

06

後訓練程式碼 + 昇騰訓練算子:SFT/RLHF 流程與訓練算子規劃 2026 下半年釋出,構成第 6、7 大開源元件。

全鏈路開源含金量:業界慣例僅開放權重與推理程式碼;openPangu 2.0 額外計畫開放預訓練程式碼、後訓練程式碼(SFT/RLHF)與昇騰訓練算子,實現真正意義上的全鏈路開源。

02

openPangu 2.0 技術架構是什麼?mHC 路由與昇騰 NPU 全棧適配

openPangu 2.0 採用 MoE(混合專家)架構,是全球首個在非 NVIDIA 硬體上完成全規模訓練的前沿大模型——全程使用華為昇騰 910B NPU,未使用任何 A100 或 H100。

01

mHC(Multi-Head Combinatorial)路由:改進專家路由效率,降低 MoE 負載不均衡問題。

02

Muon 最佳化器:微軟提出的二階動量最佳化方案,提升大規模訓練穩定性。

03

ModAttn(Modular Attention):模組化注意力機制,適配 512K 超長上下文。

04

DSA+SWA 超稀疏注意力(Flash 獨有):實現極致稀疏比,大幅降低推理算力需求。

05

端側 Embedded 版:原生 30B 入端模型,推理提速 50%,記憶體占用減少 20%,支援麒麟晶片手機離線執行。

訓練/推理指標openPangu 2.0 表現業界參照
昇騰單卡吞吐率業界主流開源模型 2 倍非昇騰親和架構
超節點訓練效率+30%標準 MoE 叢集
512K 長序列訓練吞吐+50%128K 上下文模型
訓推一致率>99%MoE 常見痛點
推理延遲優於同類 1.2 倍同檔開源模型

開發者生態基於 CANN(華為自研,類 CUDA)+ torch_npu(PyTorch 適配層)。標準 PyTorch 程式碼透過 import torch_npu 即可切換到昇騰後端。部署平台涵蓋:華為雲 ModelArts(API 直調)、GitCode Ascend Tribe(自部署)、HarmonyOS 原生端側整合。

Python
import torch
import torch_npu

model = load_openpangu("./openPangu-Flash")
model = model.to("npu:0")
output = model.generate(input_ids.to("npu:0"), max_new_tokens=512, temperature=0.7)
03

openPangu 2.0 與 DeepSeek、Qwen 如何選型?競品對照與決策矩陣

模型總參數啟用參數上下文訓練硬體開源程度
openPangu 2.0 Pro505B18B512K昇騰 NPU全鏈路(7 元件)
openPangu 2.0 Flash92B6B512K昇騰 NPU全鏈路(7 元件)
DeepSeek V4 Pro1.6T~200B128KNVIDIA權重+推理
Qwen 3.7 Max~400B+varies128KNVIDIA權重+推理+部分訓練
Kimi K2.71T32B256KNVIDIA權重+推理
Llama 4 405B405B128KNVIDIA權重+推理
能力維度openPangu 2.0 ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
程式碼生成極高很高很高
複雜推理極高極高很高
工具呼叫/Agent很高很高很高極高
超長上下文極高很高
推理效率極高很高
自主可控極高
全鏈路開源極高

程式碼生成 / 複雜推理 → DeepSeek V4 Pro;Agent / 多工具協作 → Kimi K2.7;超長文件(>256K)→ openPangu 2.0 Pro;資安合規 / 無 NVIDIA → openPangu 2.0;低成本本地推理 → Flash(6B 啟用,~96GB 視訊記憶體)。

註:openPangu 2.0 獨立第三方 benchmark 尚在評測中,以上能力矩陣基於架構推斷;公布後將持續更新。

04

openPangu 2.0 怎麼用?ModelArts API 與 GitCode 六步部署

01

註冊華為雲帳號:造訪 huaweicloud.com 完成實名認證,無需自備硬體即可呼叫 API。

02

訂閱 ModelArts 服務:進入 ModelArts → AI Gallery → 搜尋「openPangu 2.0」,訂閱 Flash 或 Pro 版本。

03

取得 API Endpoint 與 Token:在控制台複製推理端點與 X-Auth-Token,按 Chat Completions 格式呼叫。

04

GitCode 下載權重(自部署):前往 gitcode.com/org/ascend-tribe,拉取 openPangu-2.0-Flash、openPangu-2.0-Infer、openPangu-2.0-Op 等倉庫。

05

昇騰單卡推理:在昇騰 910B 上執行 python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16;Flash-Int8 量化版視訊記憶體需求減少 40%,精度損失 <10%。

06

領域微調(LoRA):python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16;Pro 版多卡分散式推理需 8 卡昇騰叢集(7 月權重上線後驗證)。

bash
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "你好,請介紹一下你自己"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'
版本建議硬體最低配置備註
Flash(6B 啟用)單卡昇騰 910B~96GB 統一記憶體社群可在大記憶體系統嘗試
Flash-Int8單卡昇騰 Atlas A2~48GB 視訊記憶體W4A8 量化
Pro(18B 啟用)4+ 卡昇騰 910B多卡叢集7 月權重上線後可驗證
05

openPangu 2.0 開源的戰略意義:資安合規、HarmonyOS Agent 與可引用硬數據

在美國對華限制先進 AI 晶片(A100/H100)出口管制的背景下,openPangu 2.0 證明:沒有 NVIDIA 也能訓練前沿規模 MoE 模型。余承東在 HDC 2026 表示:「在我余生的字典裡,沒有第二,只有第一。」

openPangu 2.0 是華為 AI 戰略核心底座:HarmonyOS 7 全面進入 Agent 智慧時代,HarmonyOS 智慧體框架 2.0 複雜任務執行成功率 >90%;端側 30B 模型實現手機本地大模型執行,無需連網。開源協議為 華為 openPangu License:可商業使用、免版權費、非排他性(具體條款以 GitCode 倉庫為準)。

A

開源路線圖:2026-06-30 Flash 權重+推理+算子已上線;2026-07 Pro 權重規劃釋出;2026 下半年預訓練/後訓練程式碼與資料處理工具。

B

Flash 稀疏效率:92B 總參數僅 6B 啟用,每 token 啟用約 6.5%,推理成本接近稠密 6B 模型但知識池為 92B 級。

C

Flash-Int8 量化:W4A8 量化,記憶體占用減少 40%,精度損失 <10%,適合 ~48GB 視訊記憶體環境。

免責聲明:本文部分 benchmark 與能力評估為基於架構的推斷,獨立第三方測試結果公布後將持續更新。發布日期:2026 年 7 月 1 日。

若你正在本地 Mac 上建置 Agent 閘道、模型路由層或 iOS/macOS 自動化流水線,本地機器休眠斷連、記憶體不足與 Gateway 程式不穩定是常見痛點。對於需要 7×24 線上、穩定執行 OpenClaw/Hermes 等 Agent 框架並對接 openPangu API 的正式環境,MESHLAUNCH 的 Mac Mini 雲端租用通常是更優解:獨占 Apple Silicon、按天/週/月彈性下單,路由層與 CI 建置可同機並行。

常見問題

Flash 版 92B 總參數、6B 啟用,6 月 30 日已上線 GitCode,適合低成本高併發 API;Pro 版 505B 總參數、18B 啟用,規劃 7 月上線,適合超長文件分析與二次預訓練。兩版均支援 512K 上下文。

GitCode Ascend Tribe 組織倉庫:openPangu-2.0-Flash(權重)、openPangu-2.0-Flash-Int8(量化版)、openPangu-2.0-Infer(推理原始碼)、openPangu-2.0-Op(昇騰算子)。最快試用可走華為雲 ModelArts API,詳見 租用價格頁了解穩定 Agent 宿主方案。

可以。openPangu 2.0 是全球唯一完全不依賴 NVIDIA 訓練的前沿開源模型,全程昇騰 910B 訓練,配合 CANN + torch_npu 軟體棧,適合資安合規與本土化部署。部署與區域選型可參考 雲端說明中心

① 模型結構 ② 模型權重 ③ 技術報告 ④ 推理程式碼+訓推算子(已發布)⑤ 預訓練程式碼 ⑥ 後訓練程式碼(SFT/RLHF)⑦ 昇騰訓練算子。後三項在超大規模 MoE 中極為罕見,計畫 2026 下半年陸續上線。