Huawei openPangu 2.0 — полный open source
MoE 505B · контекст 512K · стек Ascend без NVIDIA

HDC 2026 · Flash на GitCode 30.06 · семь компонентов · первый frontier LLM без единого NVIDIA GPU

Huawei openPangu 2.0 open source MoE 505B контекст 512K Ascend
30 июня 2026 Huawei выполнил обещание HDC — веса openPangu 2.0 Flash, inference-код и training operators вышли на GitCode. Если нужен контекст 512K, sovereign AI без зависимости от NVIDIA или развёртывание на Ascend NPU, это ключевой релиз года. В материале: ① анонс HDC и поэтапный open-source таймлайн; ② спеки Pro/Flash и все семь открытых компонентов; ③ mHC, Muon, ModAttn и DSA+SWA на кластерах Ascend 910B; ④ таблицы против DeepSeek, Qwen, Kimi и Llama 4 с матрицей выбора; ⑤ ModelArts API и self-host на GitCode — runbook из шести шагов; ⑥ экспортный контроль, экосистема HarmonyOS Agent и лицензия openPangu.
01

Когда вышел openPangu 2.0: HDC 2026, таймлайн и параметры MoE

Richard Yu представил openPangu 2.0 на Huawei Developer Conference (HDC) 2026 в Дунгуане 12 июня. 30 июня на GitCode опубликованы веса openPangu-2.0-Flash, базовый inference-стек и training operators. Веса Pro запланированы на июль; pre-training code, post-training code и дополнительный training tooling — на вторую половину 2026.

ВариантTotal paramsActive paramsSparsityКонтекстСтатус
openPangu 2.0 Pro505B18B~28:1512KИюль 2026
openPangu 2.0 Flash92B6B~15:1512KLive 30.06.2026

512K — это примерно восемь полноформатных романов за один forward pass; среди open-weight моделей это один из длиннейших контекстных окон.

01

Архитектура модели: полное описание MoE-структуры — вместе с Flash.

02

Веса: Flash live 30.06; Pro — июль.

03

Technical report: детали архитектуры и обучения рядом с весами.

04

Inference + training operators: базовый inference-стек и кастомные Ascend-операторы — live 30.06.

05

Pre-training code: воспроизводимый training pipeline, H2 2026 — редкость на масштабе MoE.

06

Post-training (SFT/RLHF): toolchain выравнивания и fine-tuning, H2 2026.

07

Ascend training operators: high-performance kernels для MoE на 910B-кластерах, H2 2026.

A

Частичный open source: большинство релизов — только weights + inference; без pre-training pipeline невозможна независимая верификация.

B

Vendor lock-in на CUDA: без Ascend-native стека inference на альтернативном железе даёт деградацию throughput и расхождение train/infer.

C

Потолок контекста 128K–256K: для legal/RAG на полных корпусах документов этого недостаточно — openPangu закрывает разрыв до 512K.

D

Экспортный контроль GPU: A100/H100 недоступны — нужен полностью domestic training stack.

E

MoE load imbalance: без специализированного routing expert-ы простаивают, latency растёт — mHC решает это на уровне scheduler.

Семь компонентов: типичный open release — weights плюс inference. openPangu 2.0 добавляет pre-training, post-training (SFT/RLHF) и Ascend operator code — genuine full-stack open release для frontier-scale MoE.

02

Архитектура openPangu 2.0: mHC routing и стек Ascend NPU

openPangu 2.0 построен на Mixture-of-Experts (MoE) и является первым frontier LLM, обученным полностью без NVIDIA hardware — каждый training step выполнялся на Huawei Ascend 910B NPU, без участия A100 или H100.

01

mHC (Multi-Head Combinatorial) routing: повышает эффективность expert routing и снижает load imbalance в MoE-кластере.

02

Muon optimizer: second-order momentum scheme из исследований Microsoft — стабильность на больших масштабах.

03

ModAttn (Modular Attention): модульные attention-блоки, заточенные под последовательности 512K.

04

DSA+SWA ultra-sparse attention (только Flash): дополнительная sparsity для снижения compute на inference.

05

Edge-вариант 30B: on-device модель — inference на 50% быстрее, память −20%, offline на Kirin-смартфонах.

МетрикаopenPangu 2.0Industry baseline
Throughput Ascend single-card mainstream open modelsNon-Ascend-native архитектуры
Hypernode training efficiency+30%Стандартные MoE-кластеры
512K long-sequence training throughput+50%Модели с контекстом 128K
Train/infer consistency>99%Типичная боль MoE
Flash-Int8 W4A8 memory−40% vs BF16Full-precision Flash

Developer stack: CANN (runtime уровня CUDA) + torch_npu (PyTorch backend adapter). Стандартный PyTorch переключается на Ascend через import torch_npu. Пути развёртывания: Huawei Cloud ModelArts (managed API), GitCode Ascend Tribe (self-host), интеграция HarmonyOS on-device. HarmonyOS Agent Framework 2.0 — >90% success на сложных multi-step задачах.

Python
import torch
import torch_npu

model = load_openpangu("./openPangu-Flash")
model = model.to("npu:0")
output = model.generate(input_ids.to("npu:0"), max_new_tokens=512, temperature=0.7)
03

openPangu 2.0 vs DeepSeek, Qwen, Kimi, Llama 4: матрица выбора

МодельTotal paramsActive paramsКонтекстTraining HWГлубина open
openPangu 2.0 Pro505B18B512KAscend NPUFull stack (7 компонентов)
openPangu 2.0 Flash92B6B512KAscend NPUFull stack (7 компонентов)
DeepSeek V4 Pro1.6T~200B128KNVIDIAWeights + inference
Qwen 3.7 Max~400B+varies128KNVIDIAWeights + inference + partial training
Kimi K2.71T32B256KNVIDIAWeights + inference
Llama 4 405B405B128KNVIDIAWeights + inference
CapabilityopenPangu 2.0 ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
Code generationGoodLeaderStrongStrong
Complex reasoningGoodLeaderLeaderStrong
Tool use / AgentStrongStrongStrongLeader
Ultra-long contextLeader (512K)ModerateModerateStrong
Inference efficiencyLeaderModerateModerateStrong
Sovereign / no NVIDIALeaderNot applicableNot applicableNot applicable
Full-stack open sourceLeaderPartialPartialPartial

Code / reasoning → DeepSeek V4 Pro. Agent / multi-tool workflows → Kimi K2.7. Документы >256K → openPangu 2.0 Pro. Sovereign AI / без NVIDIA → openPangu 2.0. Локальный inference с низкой стоимостью → Flash (6B active, ~96GB unified memory).

Независимые third-party бенчмарки openPangu 2.0 ещё не опубликованы. Матрица capability отражает архитектуру и заявленные спеки; обновим при появлении стандартизированных результатов.

04

Развёртывание openPangu 2.0: ModelArts API и GitCode — runbook из шести шагов

01

Регистрация Huawei Cloud: верификация на huaweicloud.com — для API access железо не нужно.

02

Подписка через ModelArts: ModelArts → AI Gallery → поиск «openPangu 2.0», подписка на Flash или Pro.

03

Endpoint и token: скопировать inference endpoint и X-Auth-Token из консоли; вызов в формате Chat Completions.

04

Pull весов с GitCode (self-host): gitcode.com/org/ascend-tribe — clone openPangu-2.0-Flash, openPangu-2.0-Infer, openPangu-2.0-Op и связанные репозитории.

05

Ascend inference: на одном Ascend 910B — python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16. Flash-Int8 W4A8 снижает память на 40% при потере accuracy <10%.

06

Domain fine-tune через LoRA: python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16. Pro multi-card distributed inference — 8-card Ascend cluster после релиза весов в июле.

bash
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "Summarize openPangu 2.0 in three sentences"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'
ВариантРекомендуемое железоМинимумПримечания
Flash (6B active)Single Ascend 910B~96GB unified memoryCommunity trials на large-memory системах
Flash-Int8Single Ascend Atlas A2~48GB memoryW4A8 quantization
Pro (18B active)4+ Ascend 910B cardsMulti-card clusterВалидация после июльского релиза весов
05

Зачем openPangu 2.0: экспортный контроль, sovereign AI и cite-ready данные

Под US export controls, ограничивающими advanced AI chips (A100/H100) для Китая, openPangu 2.0 доказывает: frontier-scale MoE training достижим без NVIDIA. Релиз якорит sovereign AI stack Huawei: HarmonyOS 7 входит в Agent era — Framework 2.0 >90% success на complex tasks; edge-модель 30B работает локально на Kirin-телефонах без cloud dependency.

Лицензия — Huawei openPangu License: commercial use разрешён, royalty-free, non-exclusive (точные terms — на GitCode). Для команд, заблокированных в закупке NVIDIA или строящих domestic AI infrastructure, это наиболее полная open alternative на frontier scale.

A

Open-source roadmap: 2026-06-30 Flash weights + inference + operators live; 2026-07 Pro weights; H2 2026 pre-training, post-training и data tooling.

B

Flash sparsity efficiency: 92B total, только 6B active (~6.5% на token) — inference cost близок к dense 6B при knowledge pool 92B.

C

Flash-Int8 quantization: W4A8 −40% memory при потере accuracy <10% — viable на ~48GB конфигурациях.

Benchmark disclaimer: часть capability assessments — architecture-informed estimates. Независимые third-party бенчмарки добавим при публикации. Дата статьи: 1 июля 2026.

Agent gateway, model routing layer или iOS/macOS automation на локальном Mac — sleep disconnect, memory ceiling, нестабильный gateway process. Для production с OpenClaw, Hermes или аналогами против openPangu API 7×24 — аренда cloud Mac Mini на MESHLAUNCH обычно оптимальнее: выделенный Apple Silicon, гибкая оплата день/неделя/месяц, routing и CI-сборки на одном always-on узле. Тарифы — страница цен.

FAQ

Flash: 92B total / 6B active, live 30 июня на GitCode — high-concurrency API serving. Pro: 505B total / 18B active, релиз в июле — ultra-long document analysis и continued pre-training. Оба — контекст 512K.

GitCode Ascend Tribe: openPangu-2.0-Flash (weights), openPangu-2.0-Flash-Int8 (quantized), openPangu-2.0-Infer (inference), openPangu-2.0-Op (Ascend operators). Быстрый trial — Huawei Cloud ModelArts API. Для стабильного Agent host при интеграции см. цены аренды.

Да. Первый frontier open model без NVIDIA hardware — полностью на Ascend 910B с CANN и torch_npu. Подходит для domestic compliance и Ascend-native deployment. Планирование инфраструктуры — центр помощи.

(1) Архитектура модели (2) Weights (3) Technical report (4) Inference code + training operators — live 30.06 (5) Pre-training code (6) Post-training SFT/RLHF (7) Ascend training operators. Пункты 5–7 — H2 2026, редкость на масштабе MoE.