华为 openPangu 2.0 正式开源
505B MoE · 512K 上下文 · 昇腾全链路开放

HDC 2026 发布 · 6/30 Flash 上线 · 7 大组件分批开源 · 全球首个无英伟达训练的前沿模型

华为 openPangu 2.0 开源发布 505B MoE 512K 上下文
2026 年 6 月 30 日,华为兑现 HDC 2026 承诺——开源盘古 openPangu 2.0 Flash 版权重、推理代码与训推算子正式上线 GitCode。面向需要512K 超长上下文信创合规昇腾原生部署的开发者与企业 IT 决策者,本文给出:① HDC 发布至分批开源的完整时间线;② Pro/Flash 双版本参数与 7 大开源组件解读;③ mHC/Muon/ModAttn 架构创新与昇腾硬件适配;④ 与 DeepSeek、Qwen、Kimi 的横向对比与选型决策树;⑤ ModelArts API 与 GitCode 自部署六步 Runbook;⑥ 地缘政治意义、HarmonyOS Agent 生态与 openPangu License。
01

openPangu 2.0 什么时候发布?HDC 2026 时间线与核心参数

2026 年 6 月 12 日,华为开发者大会 HDC 2026 在东莞松山湖举办,余承东主题演讲正式发布 openPangu 2.0。6 月 30 日,openPangu-2.0-Flash 模型权重、基础推理代码、训推算子正式开源上线 GitCode;Pro 版权重规划 7 月上线;预训练代码、后训练代码、训练算子等更多组件将在 2026 下半年陆续发布。

版本总参数激活参数稀疏比上下文状态
openPangu 2.0 Pro505B18B~28:1512K7 月规划上线
openPangu 2.0 Flash92B6B~15:1512K✅ 6/30 已上线

512K 上下文相当于一次处理约 8 本《三体》(第一部)的文字量——在开源模型中属于顶级水平。

01

模型结构:完整 MoE 架构定义,随 Flash 版同步发布。

02

模型权重:Flash 版 6/30 已上线;Pro 版 7 月上线。

03

技术报告:随权重同步发布,含架构与训练细节。

04

推理代码 + 训推算子:基础推理代码与昇腾高性能自定义算子,6/30 已上线。

05

预训练代码:完整训练流程可复现,2026 下半年发布——在超大规模 MoE 中极为罕见。

全链路开源含金量:业界常规只开放权重与推理代码;openPangu 2.0 额外计划开放预训练代码、后训练代码(SFT/RLHF)与昇腾训练算子,实现真正意义上的全链路开源。

02

openPangu 2.0 技术架构是什么?mHC 路由与昇腾 NPU 全栈适配

openPangu 2.0 采用 MoE(混合专家)架构,是全球首个在非英伟达硬件上完成全规模训练的前沿大模型——全程使用华为昇腾 910B NPU,未使用任何 A100 或 H100。

01

mHC(Multi-Head Combinatorial)路由:改进专家路由效率,降低 MoE 负载不均衡问题。

02

Muon 优化器:微软提出的二阶动量优化方案,提升大规模训练稳定性。

03

ModAttn(Modular Attention):模块化注意力机制,适配 512K 超长上下文。

04

DSA+SWA 超稀疏注意力(Flash 独有):实现极致稀疏比,大幅降低推理算力需求。

05

端侧 Embedded 版:原生 30B 入端模型,推理提速 50%,内存占用减少 20%,支持麒麟芯片手机离线运行。

训练/推理指标openPangu 2.0 表现业界参照
昇腾单卡吞吐率业界主流开源模型 2 倍非昇腾亲和架构
超节点训练效率+30%标准 MoE 集群
512K 长序列训练吞吐+50%128K 上下文模型
训推一致率>99%MoE 常见痛点
推理延迟优于同类 1.2 倍同档开源模型

开发者生态基于 CANN(华为自研,类 CUDA)+ torch_npu(PyTorch 适配层)。标准 PyTorch 代码通过 import torch_npu 即可切换到昇腾后端。部署平台覆盖:华为云 ModelArts(API 直调)、GitCode Ascend Tribe(自部署)、鸿蒙原生端侧集成。

Python
import torch
import torch_npu

model = load_openpangu("./openPangu-Flash")
model = model.to("npu:0")
output = model.generate(input_ids.to("npu:0"), max_new_tokens=512, temperature=0.7)
03

openPangu 2.0 和 DeepSeek、Qwen 怎么选?竞品对比与决策矩阵

模型总参数激活参数上下文训练硬件开源程度
openPangu 2.0 Pro505B18B512K昇腾 NPU全链路(7 组件)
openPangu 2.0 Flash92B6B512K昇腾 NPU全链路(7 组件)
DeepSeek V4 Pro1.6T~200B128KNVIDIA权重+推理
Qwen 3.7 Max~400B+varies128KNVIDIA权重+推理+部分训练
Kimi K2.71T32B256KNVIDIA权重+推理
Llama 4 405B405B128KNVIDIA权重+推理
能力维度openPangu 2.0 ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
代码生成⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
复杂推理⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
工具调用/Agent⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
超长上下文⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
推理效率⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
自主可控⭐⭐⭐⭐⭐
全链路开源⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

代码生成 / 复杂推理 → DeepSeek V4 Pro;Agent / 多工具协作 → Kimi K2.7;超长文档(>256K)→ openPangu 2.0 Pro;信创合规 / 无 NVIDIA → openPangu 2.0;低成本本地推理 → Flash(6B 激活,~96GB VRAM)。

注:openPangu 2.0 独立第三方 benchmark 尚在评测中,以上能力矩阵基于架构推断;公布后将持续更新。

04

openPangu 2.0 怎么用?ModelArts API 与 GitCode 六步部署

01

注册华为云账号:访问 huaweicloud.com 完成实名认证,无需自备硬件即可调用 API。

02

订阅 ModelArts 服务:进入 ModelArts → AI Gallery → 搜索「openPangu 2.0」,订阅 Flash 或 Pro 版本。

03

获取 API Endpoint 与 Token:在控制台复制推理端点与 X-Auth-Token,按 Chat Completions 格式调用。

04

GitCode 下载权重(自部署):前往 gitcode.com/org/ascend-tribe,拉取 openPangu-2.0-Flash、openPangu-2.0-Infer、openPangu-2.0-Op 等仓库。

05

昇腾单卡推理:在昇腾 910B 上执行 python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16;Flash-Int8 量化版显存需求减少 40%,精度损失 <10%。

06

领域微调(LoRA):python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16;Pro 版多卡分布式推理需 8 卡昇腾集群(7 月权重上线后验证)。

bash
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "你好,请介绍一下你自己"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'
版本推荐硬件最低配置备注
Flash(6B 激活)单卡昇腾 910B~96GB 统一内存社区可在大内存系统尝试
Flash-Int8单卡昇腾 Atlas A2~48GB 显存W4A8 量化
Pro(18B 激活)4+ 卡昇腾 910B多卡集群7 月权重上线后可验证
05

openPangu 2.0 开源的战略意义:信创、HarmonyOS Agent 与可引用硬数据

在美国对华限制先进 AI 芯片(A100/H100)出口管制的背景下,openPangu 2.0 证明:没有英伟达也能训练前沿规模 MoE 模型。余承东在 HDC 2026 表示:「在我余生的字典里,没有第二,只有第一。」

openPangu 2.0 是华为 AI 战略核心底座:HarmonyOS 7 全面进入 Agent 智能时代,鸿蒙智能体框架 2.0 复杂任务执行成功率 >90%;端侧 30B 模型实现手机本地大模型运行,无需联网。开源协议为 华为 openPangu License:可商业使用、免版权费、非排他性(具体条款以 GitCode 仓库为准)。

A

开源路线图:2026-06-30 ✅ Flash 权重+推理+算子;2026-07 🔜 Pro 权重;2026 下半年 📋 预训练/后训练代码与数据处理工具。

B

Flash 稀疏效率:92B 总参数仅 6B 激活,每 token 激活约 6.5%,推理成本接近稠密 6B 模型但知识池为 92B 级。

C

Flash-Int8 量化:W4A8 量化,内存占用减少 40%,精度损失 <10%,适合 ~48GB 显存环境。

免责声明:本文部分 benchmark 与能力评估为基于架构的推断,独立第三方测试结果公布后将持续更新。发布日期:2026 年 7 月 1 日。

若你正在本地 Mac 上折腾 Agent 网关、模型路由层或 iOS/macOS 自动化流水线,本地机器休眠断连、内存不足与 Gateway 进程不稳定是常见痛点。对于需要 7×24 在线、稳定运行 OpenClaw/Hermes 等 Agent 框架并对接 openPangu API 的生产环境,MESHLAUNCH 的 Mac Mini 云端租赁通常是更优解:独占 Apple Silicon、按天/周/月弹性下单,路由层与 CI 构建可同机并行。

常见问题

Flash 版 92B 总参数、6B 激活,6 月 30 日已上线 GitCode,适合低成本高并发 API;Pro 版 505B 总参数、18B 激活,规划 7 月上线,适合超长文档分析与二次预训练。两版均支持 512K 上下文。

GitCode Ascend Tribe 组织仓库:openPangu-2.0-Flash(权重)、openPangu-2.0-Flash-Int8(量化版)、openPangu-2.0-Infer(推理源码)、openPangu-2.0-Op(昇腾算子)。最快试用可走华为云 ModelArts API,详见 租赁价格页了解稳定 Agent 宿主。

可以。openPangu 2.0 是全球唯一完全不依赖 NVIDIA 训练的前沿开源模型,全程昇腾 910B 训练,配合 CANN + torch_npu 软件栈,适合信创合规与国产化部署。部署与区域选型可参考 帮助中心

① 模型结构 ② 模型权重 ③ 技术报告 ④ 推理代码+训推算子(已发布)⑤ 预训练代码 ⑥ 后训练代码(SFT/RLHF)⑦ 昇腾训练算子。后三项在超大规模 MoE 中极为罕见,计划 2026 下半年陆续上线。