Когда вышел openPangu 2.0: HDC 2026, таймлайн и параметры MoE
Richard Yu представил openPangu 2.0 на Huawei Developer Conference (HDC) 2026 в Дунгуане 12 июня. 30 июня на GitCode опубликованы веса openPangu-2.0-Flash, базовый inference-стек и training operators. Веса Pro запланированы на июль; pre-training code, post-training code и дополнительный training tooling — на вторую половину 2026.
| Вариант | Total params | Active params | Sparsity | Контекст | Статус |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | ~28:1 | 512K | Июль 2026 |
| openPangu 2.0 Flash | 92B | 6B | ~15:1 | 512K | Live 30.06.2026 |
512K — это примерно восемь полноформатных романов за один forward pass; среди open-weight моделей это один из длиннейших контекстных окон.
Архитектура модели: полное описание MoE-структуры — вместе с Flash.
Веса: Flash live 30.06; Pro — июль.
Technical report: детали архитектуры и обучения рядом с весами.
Inference + training operators: базовый inference-стек и кастомные Ascend-операторы — live 30.06.
Pre-training code: воспроизводимый training pipeline, H2 2026 — редкость на масштабе MoE.
Post-training (SFT/RLHF): toolchain выравнивания и fine-tuning, H2 2026.
Ascend training operators: high-performance kernels для MoE на 910B-кластерах, H2 2026.
Частичный open source: большинство релизов — только weights + inference; без pre-training pipeline невозможна независимая верификация.
Vendor lock-in на CUDA: без Ascend-native стека inference на альтернативном железе даёт деградацию throughput и расхождение train/infer.
Потолок контекста 128K–256K: для legal/RAG на полных корпусах документов этого недостаточно — openPangu закрывает разрыв до 512K.
Экспортный контроль GPU: A100/H100 недоступны — нужен полностью domestic training stack.
MoE load imbalance: без специализированного routing expert-ы простаивают, latency растёт — mHC решает это на уровне scheduler.
Семь компонентов: типичный open release — weights плюс inference. openPangu 2.0 добавляет pre-training, post-training (SFT/RLHF) и Ascend operator code — genuine full-stack open release для frontier-scale MoE.
Архитектура openPangu 2.0: mHC routing и стек Ascend NPU
openPangu 2.0 построен на Mixture-of-Experts (MoE) и является первым frontier LLM, обученным полностью без NVIDIA hardware — каждый training step выполнялся на Huawei Ascend 910B NPU, без участия A100 или H100.
mHC (Multi-Head Combinatorial) routing: повышает эффективность expert routing и снижает load imbalance в MoE-кластере.
Muon optimizer: second-order momentum scheme из исследований Microsoft — стабильность на больших масштабах.
ModAttn (Modular Attention): модульные attention-блоки, заточенные под последовательности 512K.
DSA+SWA ultra-sparse attention (только Flash): дополнительная sparsity для снижения compute на inference.
Edge-вариант 30B: on-device модель — inference на 50% быстрее, память −20%, offline на Kirin-смартфонах.
| Метрика | openPangu 2.0 | Industry baseline |
|---|---|---|
| Throughput Ascend single-card | 2× mainstream open models | Non-Ascend-native архитектуры |
| Hypernode training efficiency | +30% | Стандартные MoE-кластеры |
| 512K long-sequence training throughput | +50% | Модели с контекстом 128K |
| Train/infer consistency | >99% | Типичная боль MoE |
| Flash-Int8 W4A8 memory | −40% vs BF16 | Full-precision Flash |
Developer stack: CANN (runtime уровня CUDA) + torch_npu (PyTorch backend adapter). Стандартный PyTorch переключается на Ascend через import torch_npu. Пути развёртывания: Huawei Cloud ModelArts (managed API), GitCode Ascend Tribe (self-host), интеграция HarmonyOS on-device. HarmonyOS Agent Framework 2.0 — >90% success на сложных multi-step задачах.
import torch
import torch_npu
model = load_openpangu("./openPangu-Flash")
model = model.to("npu:0")
output = model.generate(input_ids.to("npu:0"), max_new_tokens=512, temperature=0.7)
openPangu 2.0 vs DeepSeek, Qwen, Kimi, Llama 4: матрица выбора
| Модель | Total params | Active params | Контекст | Training HW | Глубина open |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend NPU | Full stack (7 компонентов) |
| openPangu 2.0 Flash | 92B | 6B | 512K | Ascend NPU | Full stack (7 компонентов) |
| DeepSeek V4 Pro | 1.6T | ~200B | 128K | NVIDIA | Weights + inference |
| Qwen 3.7 Max | ~400B+ | varies | 128K | NVIDIA | Weights + inference + partial training |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | Weights + inference |
| Llama 4 405B | 405B | — | 128K | NVIDIA | Weights + inference |
| Capability | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| Code generation | Good | Leader | Strong | Strong |
| Complex reasoning | Good | Leader | Leader | Strong |
| Tool use / Agent | Strong | Strong | Strong | Leader |
| Ultra-long context | Leader (512K) | Moderate | Moderate | Strong |
| Inference efficiency | Leader | Moderate | Moderate | Strong |
| Sovereign / no NVIDIA | Leader | Not applicable | Not applicable | Not applicable |
| Full-stack open source | Leader | Partial | Partial | Partial |
Code / reasoning → DeepSeek V4 Pro. Agent / multi-tool workflows → Kimi K2.7. Документы >256K → openPangu 2.0 Pro. Sovereign AI / без NVIDIA → openPangu 2.0. Локальный inference с низкой стоимостью → Flash (6B active, ~96GB unified memory).
Независимые third-party бенчмарки openPangu 2.0 ещё не опубликованы. Матрица capability отражает архитектуру и заявленные спеки; обновим при появлении стандартизированных результатов.
Развёртывание openPangu 2.0: ModelArts API и GitCode — runbook из шести шагов
Регистрация Huawei Cloud: верификация на huaweicloud.com — для API access железо не нужно.
Подписка через ModelArts: ModelArts → AI Gallery → поиск «openPangu 2.0», подписка на Flash или Pro.
Endpoint и token: скопировать inference endpoint и X-Auth-Token из консоли; вызов в формате Chat Completions.
Pull весов с GitCode (self-host): gitcode.com/org/ascend-tribe — clone openPangu-2.0-Flash, openPangu-2.0-Infer, openPangu-2.0-Op и связанные репозитории.
Ascend inference: на одном Ascend 910B — python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16. Flash-Int8 W4A8 снижает память на 40% при потере accuracy <10%.
Domain fine-tune через LoRA: python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16. Pro multi-card distributed inference — 8-card Ascend cluster после релиза весов в июле.
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [{"role": "user", "content": "Summarize openPangu 2.0 in three sentences"}],
"max_tokens": 1024,
"temperature": 0.7
}'
| Вариант | Рекомендуемое железо | Минимум | Примечания |
|---|---|---|---|
| Flash (6B active) | Single Ascend 910B | ~96GB unified memory | Community trials на large-memory системах |
| Flash-Int8 | Single Ascend Atlas A2 | ~48GB memory | W4A8 quantization |
| Pro (18B active) | 4+ Ascend 910B cards | Multi-card cluster | Валидация после июльского релиза весов |
Зачем openPangu 2.0: экспортный контроль, sovereign AI и cite-ready данные
Под US export controls, ограничивающими advanced AI chips (A100/H100) для Китая, openPangu 2.0 доказывает: frontier-scale MoE training достижим без NVIDIA. Релиз якорит sovereign AI stack Huawei: HarmonyOS 7 входит в Agent era — Framework 2.0 >90% success на complex tasks; edge-модель 30B работает локально на Kirin-телефонах без cloud dependency.
Лицензия — Huawei openPangu License: commercial use разрешён, royalty-free, non-exclusive (точные terms — на GitCode). Для команд, заблокированных в закупке NVIDIA или строящих domestic AI infrastructure, это наиболее полная open alternative на frontier scale.
Open-source roadmap: 2026-06-30 Flash weights + inference + operators live; 2026-07 Pro weights; H2 2026 pre-training, post-training и data tooling.
Flash sparsity efficiency: 92B total, только 6B active (~6.5% на token) — inference cost близок к dense 6B при knowledge pool 92B.
Flash-Int8 quantization: W4A8 −40% memory при потере accuracy <10% — viable на ~48GB конфигурациях.
Benchmark disclaimer: часть capability assessments — architecture-informed estimates. Независимые third-party бенчмарки добавим при публикации. Дата статьи: 1 июля 2026.
Agent gateway, model routing layer или iOS/macOS automation на локальном Mac — sleep disconnect, memory ceiling, нестабильный gateway process. Для production с OpenClaw, Hermes или аналогами против openPangu API 7×24 — аренда cloud Mac Mini на MESHLAUNCH обычно оптимальнее: выделенный Apple Silicon, гибкая оплата день/неделя/месяц, routing и CI-сборки на одном always-on узле. Тарифы — страница цен.
Flash: 92B total / 6B active, live 30 июня на GitCode — high-concurrency API serving. Pro: 505B total / 18B active, релиз в июле — ultra-long document analysis и continued pre-training. Оба — контекст 512K.
GitCode Ascend Tribe: openPangu-2.0-Flash (weights), openPangu-2.0-Flash-Int8 (quantized), openPangu-2.0-Infer (inference), openPangu-2.0-Op (Ascend operators). Быстрый trial — Huawei Cloud ModelArts API. Для стабильного Agent host при интеграции см. цены аренды.
Да. Первый frontier open model без NVIDIA hardware — полностью на Ascend 910B с CANN и torch_npu. Подходит для domestic compliance и Ascend-native deployment. Планирование инфраструктуры — центр помощи.
(1) Архитектура модели (2) Weights (3) Technical report (4) Inference code + training operators — live 30.06 (5) Pre-training code (6) Post-training SFT/RLHF (7) Ascend training operators. Пункты 5–7 — H2 2026, редкость на масштабе MoE.