Wann erschien openPangu 2.0? HDC-2026-Timeline und Pro/Flash-Kernparameter
Am 12. Juni 2026 kündigte Yu Chengdong auf der Huawei Developer Conference (HDC 2026) in Dongguan openPangu 2.0 an. Am 30. Juni ging openPangu-2.0-Flash mit Modellgewichten, Basis-Inferenzcode und Trainings-/Inferenz-Operatoren live auf GitCode. Pro-Gewichte folgen im Juli 2026; Pre-Training-Code, Post-Training-Code und weitere Operatoren sind für das zweite Halbjahr 2026 angekündigt.
| Version | Gesamtparameter | Aktive Parameter | Sparsitätsverhältnis | Kontext | Status |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | ca. 28:1 | 512K | Juli 2026 geplant |
| openPangu 2.0 Flash | 92B | 6B | ca. 15:1 | 512K | 30.06. live |
512K Kontext entspricht grob acht Bänden eines typischen Science-Fiction-Romanzyklus — damit liegt openPangu 2.0 bei Open-Source-Modellen an der Spitze der verfügbaren Fenstergröße.
128K-Decke: DeepSeek, Qwen und die meisten Frontier-Modelle stoppen bei 128K. Vertragswerke, große Codebasen oder lange Agent-Sessions stoßen dort an harte Grenzen.
NVIDIA-Abhängigkeit: Bisherige Open-Source-Frontier-Modelle setzen A100/H100-Training voraus. In Umgebungen mit Ascend-only oder Exportkontroll-Beschränkungen war Deployment oft unmöglich.
Nur Gewichte: Branchenüblich sind Gewichte plus Inferenzcode. Pre-Training- und Post-Training-Pipelines blieben für Industrie und Forschung intransparent.
MoE-Ungleichgewicht: Standard-MoE leidet unter Trainings-/Inferenz-Verteilungsdrift. Huawei meldet für openPangu 2.0 eine Übereinstimmungsrate von >99%.
Sieben Komponenten: Modellarchitektur, Gewichte, Technikbericht, Inferenzcode plus Operatoren (seit 30.06.), Pre-Training-Code, Post-Training-Code (SFT/RLHF) und Ascend-Trainingsoperatoren (H2 2026) — echtes Full-Stack-Open-Source statt reiner Gewichtsfreigabe.
Full-Stack-Bedeutung: Branchenüblich endet Open Source bei Gewichten und Inferenz. openPangu 2.0 plant bei Frontier-MoE-Größe zusätzlich Pre-/Post-Training-Code und native Ascend-Operatoren — ein seltenes Maß an Reproduzierbarkeit.
openPangu 2.0 Architektur: mHC-Routing und Ascend-NPU-Full-Stack
openPangu 2.0 ist ein MoE-Modell (Mixture of Experts) und laut Huawei das erste Frontier-LLM, das vollständig ohne NVIDIA-Hardware trainiert wurde — ausschließlich auf Ascend-910B-NPUs, ohne A100 oder H100.
mHC (Multi-Head Combinatorial): Verbessertes Experten-Routing mit reduzierter MoE-Lastungleichheit.
Muon-Optimierer: Von Microsoft vorgeschlagener Second-Momentum-Ansatz für stabiles Large-Scale-Training.
ModAttn (Modular Attention): Modulare Attention-Schichten, explizit für 512K-Long-Context ausgelegt.
DSA+SWA Ultra-Sparse Attention (Flash): Extrem sparsame Attention reduziert Inferenz-FLOPs bei Flash-Variante.
Embedded 30B Edge-Version: On-Device-Modell mit 50% schnellerer Inferenz und 20% weniger Speicher; Kirin-Smartphones können LLM offline ausführen.
| Trainings-/Inferenz-KPI | openPangu 2.0 | Branchenreferenz |
|---|---|---|
| Ascend Single-Card-Durchsatz | 2× vs. Mainstream Open Source | Nicht-Ascend-Architekturen |
| Hypernode-Trainingseffizienz | +30% | Standard-MoE-Cluster |
| 512K-Long-Sequence-Training | +50% Durchsatz | 128K-Kontext-Modelle |
| Trainings-/Inferenz-Konsistenz | >99% | Typisches MoE-Problem |
| Inferenz-Latenz | 1,2× besser als Peers | Vergleichbare Open-Source-Modelle |
Das Entwickler-Ökosystem baut auf CANN (Huaweis CUDA-Analog) und torch_npu (PyTorch-Adapter). Standard-PyTorch-Code lässt sich mit import torch_npu auf Ascend-Backend umstellen. Deployment-Pfade: Huawei Cloud ModelArts (API), GitCode Ascend Tribe (Self-Hosting), HarmonyOS-native On-Device-Integration.
import torch
import torch_npu
model = load_openpangu("./openPangu-Flash")
model = model.to("npu:0")
output = model.generate(input_ids.to("npu:0"), max_new_tokens=512, temperature=0.7)
DSGVO-Hinweis: ModelArts-API-Aufrufe verarbeiten Prompts und Antworten in Huawei-Cloud-Rechenzentren — je nach gewählter Region potenziell außerhalb des EWR. Für personenbezogene Daten sind Auftragsverarbeitungsvertrag, Datenminimierung und ggf. EU-Region oder On-Premise-Ascend-Deployment zu prüfen.
openPangu 2.0 vs. DeepSeek, Qwen, Kimi: Vergleichsmatrix und Entscheidungsbaum
| Modell | Gesamtparameter | Aktive Parameter | Kontext | Trainings-HW | Open-Source-Umfang |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend NPU | Full-Stack (7 Komponenten) |
| openPangu 2.0 Flash | 92B | 6B | 512K | Ascend NPU | Full-Stack (7 Komponenten) |
| DeepSeek V4 Pro | 1,6T | ca. 200B | 128K | NVIDIA | Gewichte + Inferenz |
| Qwen 3.7 Max | ca. 400B+ | variabel | 128K | NVIDIA | Gewichte + Inferenz + Teile Training |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | Gewichte + Inferenz |
| Llama 4 405B | 405B | — | 128K | NVIDIA | Gewichte + Inferenz |
| Fähigkeitsachse | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| Code-Generierung | Gut | Spitze | Sehr gut | Sehr gut |
| Komplexes Reasoning | Gut | Spitze | Spitze | Sehr gut |
| Tool-Calling / Agenten | Sehr gut | Sehr gut | Sehr gut | Spitze |
| Ultra-Long-Context | Spitze | Mittel | Mittel | Sehr gut |
| Inferenz-Effizienz | Spitze | Niedrig | Niedrig | Sehr gut |
| Compliance / Souveränität | Spitze | Niedrig | Niedrig | Niedrig |
| Full-Stack Open Source | Spitze | Mittel | Mittel | Mittel |
Code und komplexes Reasoning → DeepSeek V4 Pro; Agenten und Multi-Tool → Kimi K2.7; Kontext >256K → openPangu 2.0 Pro; Exportkontroll / ohne NVIDIA → openPangu 2.0; günstige lokale Inferenz → Flash (6B aktiv, ca. 96 GB Unified Memory).
Hinweis: Unabhängige Third-Party-Benchmarks für openPangu 2.0 laufen noch. Die Fähigkeitsmatrix basiert auf Architekturdaten und wird nach Veröffentlichung externer Ergebnisse aktualisiert.
openPangu 2.0 deployen: ModelArts-API und GitCode in sechs Schritten
Huawei-Cloud-Konto: Registrierung auf huaweicloud.com mit Identitätsverifizierung. API-only-Einstieg ohne eigene Ascend-Hardware möglich.
ModelArts abonnieren: ModelArts → AI Gallery → „openPangu 2.0“ suchen, Flash- oder Pro-Version abonnieren.
API-Endpoint und Token: Inferenz-Endpoint und X-Auth-Token aus der Konsole kopieren; Chat-Completions-Format verwenden.
GitCode-Gewichte (Self-Hosting): Repositories unter gitcode.com/org/ascend-tribe klonen: openPangu-2.0-Flash, openPangu-2.0-Infer, openPangu-2.0-Op.
Ascend Single-Card-Inferenz: Auf Ascend 910B ausführen: python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16. Flash-Int8 (W4A8) spart ca. 40% Speicher bei <10% Genauigkeitsverlust.
Domain-Fine-Tuning (LoRA): python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16. Pro-Multi-Card-Inferenz benötigt 8-Card-Ascend-Cluster — Verifikation nach Pro-Release im Juli 2026.
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [{"role": "user", "content": "Stellen Sie sich kurz vor"}],
"max_tokens": 1024,
"temperature": 0.7
}'
| Version | Empfohlene Hardware | Mindestkonfiguration | Anmerkung |
|---|---|---|---|
| Flash (6B aktiv) | Einzel-Ascend 910B | ca. 96 GB Unified Memory | Community-Tests auf großen Systemen möglich |
| Flash-Int8 | Einzel-Ascend Atlas A2 | ca. 48 GB VRAM | W4A8-Quantisierung |
| Pro (18B aktiv) | 4+ Ascend 910B | Multi-Card-Cluster | Verifikation nach Juli-Release |
Strategische Bedeutung: Exportkontrolle, HarmonyOS Agent und zitierbare Harddaten
Unter US-Exportkontrollen für A100/H100 beweist openPangu 2.0, dass Frontier-MoE-Training ohne NVIDIA möglich ist. Auf der HDC 2026 betonte Yu Chengdong Huaweis Anspruch, in der KI-Ära nur Erster zu sein — kein zweiter Platz.
openPangu 2.0 ist die Basis von Huaweis KI-Strategie: HarmonyOS 7 richtet sich auf die Agent-Ära aus; das HarmonyOS Agent Framework 2.0 erreicht laut Huawei >90% Erfolgsrate bei komplexen Aufgaben. Das On-Device-30B-Modell ermöglicht lokale LLM-Ausführung auf Smartphones. Lizenz: Huawei openPangu License — kommerzielle Nutzung, lizenzgebührenfrei, nicht-exklusiv (Details in GitCode-Repositories).
Open-Roadmap: 30.06.2026 Flash-Gewichte + Inferenz + Operatoren; Juli 2026 Pro-Gewichte; H2 2026 Pre-/Post-Training-Code und Datenverarbeitungs-Tools.
Flash-Sparsität: Von 92B Gesamtparametern sind nur 6B aktiv — ca. 6,5% Aktivierung pro Token, damit dichte-6B-Kosten bei 92B-Wissenspool.
Flash-Int8: W4A8-Quantisierung reduziert Speicher um 40%, Genauigkeitsverlust <10%, geeignet für ca. 48 GB VRAM.
Haftungsausschluss: Teile der Benchmark- und Fähigkeitsbewertungen basieren auf Architekturdaten. Aktualisierung nach unabhängigen Third-Party-Ergebnissen. Stand: 1. Juli 2026.
Wer Agent-Gateways, Modell-Routing und iOS/macOS-Automatisierung auf einem lokalen Mac betreibt, kennt Schlafmodus-Unterbrechungen, Speicherengpässe und instabile Gateway-Prozesse. Für 7×24-Betrieb von openPangu-API-Anbindungen mit OpenClaw, Hermes oder ähnlichen Agent-Frameworks ist MESHLAUNCH Mac Mini Cloud-Miete in der Regel die stabilere Lösung: exklusives Apple Silicon, flexible Tages-/Wochen-/Monatsabrechnung, Routing-Schicht und CI-Builds auf demselben Knoten — ohne Ascend-Hardware für die Orchestrierungsebene.
Flash: 92B gesamt, 6B aktiv, seit 30. Juni 2026 auf GitCode — ideal für kostengünstige Hochlast-APIs. Pro: 505B gesamt, 18B aktiv, Release Juli 2026 — für Ultra-Long-Context-Analyse und sekundäres Pre-Training. Beide unterstützen 512K Kontext.
GitCode Ascend Tribe: openPangu-2.0-Flash (Gewichte), openPangu-2.0-Flash-Int8 (Quantisierung), openPangu-2.0-Infer (Inferenz), openPangu-2.0-Op (Ascend-Operatoren). Schnellster Einstieg: Huawei Cloud ModelArts API. Für stabile Agent-Hosts siehe die Mietpreise.
Ja. openPangu 2.0 ist das einzige Frontier-Open-Source-Modell ohne NVIDIA-Training, vollständig auf Ascend 910B mit CANN und torch_npu. Für EU-Teams gelten bei Cloud-Nutzung zusätzlich DSGVO-Anforderungen an Region, AVV und Datenminimierung. Region- und Deployment-Fragen: Hilfezentrum.
Modellarchitektur, Gewichte, Technikbericht, Inferenzcode plus Trainings-/Inferenz-Operatoren (live), Pre-Training-Code, Post-Training-Code (SFT/RLHF) und Ascend-Trainingsoperatoren. Die letzten drei sind bei Frontier-MoE selten und folgen im zweiten Halbjahr 2026.