Чем отличаются openPangu 2.0 Flash и Pro?

Flash: 92B total / 6B active (~15:1 sparsity), на GitCode с 30 июня 2026 — высокая конкурентность API. Pro: 505B total / 18B active (~28:1), релиз в июле — ультрадлинные документы и продолжение pre-training. Оба поддерживают контекст 512K.

Где скачать веса и код openPangu 2.0?

GitCode Ascend Tribe: openPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Op. Быстрый старт — Huawei Cloud ModelArts API через AI Gallery.

Как openPangu 2.0 соотносится с DeepSeek V4 Pro?

DeepSeek V4 Pro сильнее в code generation и сложном reasoning. openPangu 2.0 — при контексте 512K (не 256K), sovereign AI без NVIDIA, Ascend-native deployment или полная воспроизводимость обучения через семь открытых компонентов.

Можно ли запустить openPangu 2.0 на Mac?

Официальный inference оптимизирован под Ascend NPU. Сообщество тестирует Flash на системах с ~96GB unified memory. Для стабильных Agent gateway, routing-слоёв и iOS CI — практичнее always-on cloud Mac.

Huawei openPangu 2.0 open source: MoE 505B, контекст 512K, обучение без NVIDIA GPU

30 июня 2026 Huawei выполнил обещание HDC — веса openPangu 2.0 Flash, inference-код и training operators вышли на GitCode. Если нужен контекст 512K, sovereign AI без зависимости от NVIDIA или развёртывание на Ascend NPU, это ключевой релиз года. В материале: ① анонс HDC и поэтапный open-source таймлайн; ② спеки Pro/Flash и все семь открытых компонентов; ③ mHC, Muon, ModAttn и DSA+SWA на кластерах Ascend 910B; ④ таблицы против DeepSeek, Qwen, Kimi и Llama 4 с матрицей выбора; ⑤ ModelArts API и self-host на GitCode — runbook из шести шагов; ⑥ экспортный контроль, экосистема HarmonyOS Agent и лицензия openPangu.

Когда вышел openPangu 2.0: HDC 2026, таймлайн и параметры MoE

Richard Yu представил openPangu 2.0 на Huawei Developer Conference (HDC) 2026 в Дунгуане 12 июня. 30 июня на GitCode опубликованы веса openPangu-2.0-Flash, базовый inference-стек и training operators. Веса Pro запланированы на июль; pre-training code, post-training code и дополнительный training tooling — на вторую половину 2026.

Вариант	Total params	Active params	Sparsity	Контекст	Статус
openPangu 2.0 Pro	505B	18B	~28:1	512K	Июль 2026
openPangu 2.0 Flash	92B	6B	~15:1	512K	Live 30.06.2026

512K — это примерно восемь полноформатных романов за один forward pass; среди open-weight моделей это один из длиннейших контекстных окон.

Архитектура модели: полное описание MoE-структуры — вместе с Flash.

Веса: Flash live 30.06; Pro — июль.

Technical report: детали архитектуры и обучения рядом с весами.

Inference + training operators: базовый inference-стек и кастомные Ascend-операторы — live 30.06.

Pre-training code: воспроизводимый training pipeline, H2 2026 — редкость на масштабе MoE.

Post-training (SFT/RLHF): toolchain выравнивания и fine-tuning, H2 2026.

Ascend training operators: high-performance kernels для MoE на 910B-кластерах, H2 2026.

Частичный open source: большинство релизов — только weights + inference; без pre-training pipeline невозможна независимая верификация.

Vendor lock-in на CUDA: без Ascend-native стека inference на альтернативном железе даёт деградацию throughput и расхождение train/infer.

Потолок контекста 128K–256K: для legal/RAG на полных корпусах документов этого недостаточно — openPangu закрывает разрыв до 512K.

Экспортный контроль GPU: A100/H100 недоступны — нужен полностью domestic training stack.

MoE load imbalance: без специализированного routing expert-ы простаивают, latency растёт — mHC решает это на уровне scheduler.

Семь компонентов: типичный open release — weights плюс inference. openPangu 2.0 добавляет pre-training, post-training (SFT/RLHF) и Ascend operator code — genuine full-stack open release для frontier-scale MoE.

Архитектура openPangu 2.0: mHC routing и стек Ascend NPU

openPangu 2.0 построен на Mixture-of-Experts (MoE) и является первым frontier LLM, обученным полностью без NVIDIA hardware — каждый training step выполнялся на Huawei Ascend 910B NPU, без участия A100 или H100.

mHC (Multi-Head Combinatorial) routing: повышает эффективность expert routing и снижает load imbalance в MoE-кластере.

Muon optimizer: second-order momentum scheme из исследований Microsoft — стабильность на больших масштабах.

ModAttn (Modular Attention): модульные attention-блоки, заточенные под последовательности 512K.

DSA+SWA ultra-sparse attention (только Flash): дополнительная sparsity для снижения compute на inference.

Edge-вариант 30B: on-device модель — inference на 50% быстрее, память −20%, offline на Kirin-смартфонах.

Метрика	openPangu 2.0	Industry baseline
Throughput Ascend single-card	2× mainstream open models	Non-Ascend-native архитектуры
Hypernode training efficiency	+30%	Стандартные MoE-кластеры
512K long-sequence training throughput	+50%	Модели с контекстом 128K
Train/infer consistency	>99%	Типичная боль MoE
Flash-Int8 W4A8 memory	−40% vs BF16	Full-precision Flash

Developer stack: CANN (runtime уровня CUDA) + torch_npu (PyTorch backend adapter). Стандартный PyTorch переключается на Ascend через import torch_npu. Пути развёртывания: Huawei Cloud ModelArts (managed API), GitCode Ascend Tribe (self-host), интеграция HarmonyOS on-device. HarmonyOS Agent Framework 2.0 — >90% success на сложных multi-step задачах.

Python

import torch
import torch_npu

model = load_openpangu("./openPangu-Flash")
model = model.to("npu:0")
output = model.generate(input_ids.to("npu:0"), max_new_tokens=512, temperature=0.7)

openPangu 2.0 vs DeepSeek, Qwen, Kimi, Llama 4: матрица выбора

Модель	Total params	Active params	Контекст	Training HW	Глубина open
openPangu 2.0 Pro	505B	18B	512K	Ascend NPU	Full stack (7 компонентов)
openPangu 2.0 Flash	92B	6B	512K	Ascend NPU	Full stack (7 компонентов)
DeepSeek V4 Pro	1.6T	~200B	128K	NVIDIA	Weights + inference
Qwen 3.7 Max	~400B+	varies	128K	NVIDIA	Weights + inference + partial training
Kimi K2.7	1T	32B	256K	NVIDIA	Weights + inference
Llama 4 405B	405B	—	128K	NVIDIA	Weights + inference

Capability	openPangu 2.0 Pro	DeepSeek V4 Pro	Qwen 3.7 Max	Kimi K2.7
Code generation	Good	Leader	Strong	Strong
Complex reasoning	Good	Leader	Leader	Strong
Tool use / Agent	Strong	Strong	Strong	Leader
Ultra-long context	Leader (512K)	Moderate	Moderate	Strong
Inference efficiency	Leader	Moderate	Moderate	Strong
Sovereign / no NVIDIA	Leader	Not applicable	Not applicable	Not applicable
Full-stack open source	Leader	Partial	Partial	Partial

Code / reasoning → DeepSeek V4 Pro. Agent / multi-tool workflows → Kimi K2.7. Документы >256K → openPangu 2.0 Pro. Sovereign AI / без NVIDIA → openPangu 2.0. Локальный inference с низкой стоимостью → Flash (6B active, ~96GB unified memory).

Независимые third-party бенчмарки openPangu 2.0 ещё не опубликованы. Матрица capability отражает архитектуру и заявленные спеки; обновим при появлении стандартизированных результатов.

Развёртывание openPangu 2.0: ModelArts API и GitCode — runbook из шести шагов

Регистрация Huawei Cloud: верификация на huaweicloud.com — для API access железо не нужно.

Подписка через ModelArts: ModelArts → AI Gallery → поиск «openPangu 2.0», подписка на Flash или Pro.

Endpoint и token: скопировать inference endpoint и X-Auth-Token из консоли; вызов в формате Chat Completions.

Pull весов с GitCode (self-host): gitcode.com/org/ascend-tribe — clone openPangu-2.0-Flash, openPangu-2.0-Infer, openPangu-2.0-Op и связанные репозитории.

Ascend inference: на одном Ascend 910B — python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16. Flash-Int8 W4A8 снижает память на 40% при потере accuracy <10%.

Domain fine-tune через LoRA: python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16. Pro multi-card distributed inference — 8-card Ascend cluster после релиза весов в июле.

bash

curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "Summarize openPangu 2.0 in three sentences"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

Вариант	Рекомендуемое железо	Минимум	Примечания
Flash (6B active)	Single Ascend 910B	~96GB unified memory	Community trials на large-memory системах
Flash-Int8	Single Ascend Atlas A2	~48GB memory	W4A8 quantization
Pro (18B active)	4+ Ascend 910B cards	Multi-card cluster	Валидация после июльского релиза весов

Зачем openPangu 2.0: экспортный контроль, sovereign AI и cite-ready данные

Под US export controls, ограничивающими advanced AI chips (A100/H100) для Китая, openPangu 2.0 доказывает: frontier-scale MoE training достижим без NVIDIA. Релиз якорит sovereign AI stack Huawei: HarmonyOS 7 входит в Agent era — Framework 2.0 >90% success на complex tasks; edge-модель 30B работает локально на Kirin-телефонах без cloud dependency.

Лицензия — Huawei openPangu License: commercial use разрешён, royalty-free, non-exclusive (точные terms — на GitCode). Для команд, заблокированных в закупке NVIDIA или строящих domestic AI infrastructure, это наиболее полная open alternative на frontier scale.

Open-source roadmap: 2026-06-30 Flash weights + inference + operators live; 2026-07 Pro weights; H2 2026 pre-training, post-training и data tooling.

Flash sparsity efficiency: 92B total, только 6B active (~6.5% на token) — inference cost близок к dense 6B при knowledge pool 92B.

Flash-Int8 quantization: W4A8 −40% memory при потере accuracy <10% — viable на ~48GB конфигурациях.

Benchmark disclaimer: часть capability assessments — architecture-informed estimates. Независимые third-party бенчмарки добавим при публикации. Дата статьи: 1 июля 2026.

Agent gateway, model routing layer или iOS/macOS automation на локальном Mac — sleep disconnect, memory ceiling, нестабильный gateway process. Для production с OpenClaw, Hermes или аналогами против openPangu API 7×24 — аренда cloud Mac Mini на MESHLAUNCH обычно оптимальнее: выделенный Apple Silicon, гибкая оплата день/неделя/месяц, routing и CI-сборки на одном always-on узле. Тарифы — страница цен.

FAQ

Flash: 92B total / 6B active, live 30 июня на GitCode — high-concurrency API serving. Pro: 505B total / 18B active, релиз в июле — ultra-long document analysis и continued pre-training. Оба — контекст 512K.

GitCode Ascend Tribe: openPangu-2.0-Flash (weights), openPangu-2.0-Flash-Int8 (quantized), openPangu-2.0-Infer (inference), openPangu-2.0-Op (Ascend operators). Быстрый trial — Huawei Cloud ModelArts API. Для стабильного Agent host при интеграции см. цены аренды.

Да. Первый frontier open model без NVIDIA hardware — полностью на Ascend 910B с CANN и torch_npu. Подходит для domestic compliance и Ascend-native deployment. Планирование инфраструктуры — центр помощи.

(1) Архитектура модели (2) Weights (3) Technical report (4) Inference code + training operators — live 30.06 (5) Pre-training code (6) Post-training SFT/RLHF (7) Ascend training operators. Пункты 5–7 — H2 2026, редкость на масштабе MoE.

К списку блога Арендовать

Huawei openPangu 2.0 — полный open sourceMoE 505B · контекст 512K · стек Ascend без NVIDIA

Когда вышел openPangu 2.0: HDC 2026, таймлайн и параметры MoE

Архитектура openPangu 2.0: mHC routing и стек Ascend NPU

openPangu 2.0 vs DeepSeek, Qwen, Kimi, Llama 4: матрица выбора

Развёртывание openPangu 2.0: ModelArts API и GitCode — runbook из шести шагов

Зачем openPangu 2.0: экспортный контроль, sovereign AI и cite-ready данные

Huawei openPangu 2.0 — полный open source
MoE 505B · контекст 512K · стек Ascend без NVIDIA