Quand openPangu 2.0 est-il sorti ? Chronologie HDC 2026 et paramètres Pro/Flash
Le 12 juin 2026, lors du HDC à Dongguan, Richard Yu présente en keynote openPangu 2.0. Le 30 juin, openPangu-2.0-Flash — poids, code d'inférence de base et opérateurs — arrive sur GitCode. Les poids Pro sont attendus en juillet ; le code de pré-entraînement, de post-entraînement et les opérateurs supplémentaires suivront au second semestre 2026.
| Version | Paramètres totaux | Paramètres actifs | Ratio sparse | Contexte | Statut |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | ~28:1 | 512K | Prévu juillet |
| openPangu 2.0 Flash | 92B | 6B | ~15:1 | 512K | Live 30/06 |
512K tokens équivaut environ à huit volumes du premier tome de Le Problème à trois corps — un ordre de grandeur inédit parmi les modèles open source, utile pour ingérer des montages vidéo longs, des contrats juridiques ou l'intégralité d'un dépôt Xcode sans découpage manuel.
Plafond 128K : DeepSeek, Qwen et la plupart des modèles mainstream s'arrêtent à 128K. Pour une base de code Swift complète ou un dossier créatif multi-fichiers, le contexte devient le goulot.
Dépendance NVIDIA : les frontier open source existants supposent un entraînement A100/H100. Dans un environnement Ascend-only ou soumis à des restrictions matérielles, le déploiement était jusqu'ici hors de portée.
Poids sans pipeline : la majorité des LLM open source s'arrêtent au code d'inférence. Reproduire pré-entraînement et post-entraînement restait bloqué pour l'industrie comme pour la recherche.
Déséquilibre MoE : un MoE classique diverge entre distributions train et infer. openPangu 2.0 revendique un alignement >99% sur ce point.
7 composants : structure, poids, rapport technique, inférence + opérateurs (30/06), code pré-train, post-train SFT/RLHF, opérateurs Ascend (H2) — une ouverture full stack rare sur un MoE de cette taille.
Pourquoi « full stack » compte : l'usage courant se limite aux poids et à l'inférence. openPangu 2.0 annonce aussi le code de pré-entraînement, de post-entraînement et des opérateurs natifs Ascend — un signal fort pour les équipes qui veulent auditer ou adapter la chaîne complète.
Architecture openPangu 2.0 : routage mHC et adaptation Ascend NPU
openPangu 2.0 est un MoE (Mixture of Experts) et le premier grand modèle frontier entraîné intégralement sans matériel NVIDIA — uniquement sur Ascend 910B, sans A100 ni H100.
mHC (Multi-Head Combinatorial) : améliore le routage des experts et atténue la surcharge MoE.
Optimiseur Muon : variante à second ordre proposée par Microsoft, stabilise l'entraînement à grande échelle.
ModAttn (Modular Attention) : attention modulaire conçue pour le contexte 512K.
DSA+SWA ultra-sparse (Flash) : attention extrêmement sparse pour réduire drastiquement le coût d'inférence.
Version Embedded edge : modèle 30B embarqué, +50% vitesse et −20% mémoire, exécutable hors ligne sur smartphone Kirin.
| Indicateur train/infer | openPangu 2.0 | Référence secteur |
|---|---|---|
| Débit carte Ascend seule | 2× vs open source mainstream | Architectures non optimisées Ascend |
| Efficacité hypernœud | +30% | Cluster MoE standard |
| Débit séquences 512K | +50% | Modèles 128K |
| Cohérence train · infer | >99% | Défi MoE courant |
| Latence inférence | 1,2× meilleure | Open source comparable |
L'écosystème repose sur CANN (équivalent CUDA, propriétaire Huawei) et torch_npu (adaptateur PyTorch). Un script PyTorch standard bascule sur Ascend avec import torch_npu. Trois voies de déploiement : API ModelArts (Huawei Cloud), dépôt GitCode Ascend Tribe (self-host), intégration native HarmonyOS on-device.
import torch
import torch_npu
model = load_openpangu("./openPangu-Flash")
model = model.to("npu:0")
output = model.generate(input_ids.to("npu:0"), max_new_tokens=512, temperature=0.7)
openPangu 2.0 vs DeepSeek, Qwen, Kimi : matrice concurrentielle et arbre de décision
| Modèle | Total | Actifs | Contexte | Matériel train | Ouverture |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend NPU | Full stack (7 composants) |
| openPangu 2.0 Flash | 92B | 6B | 512K | Ascend NPU | Full stack (7 composants) |
| DeepSeek V4 Pro | 1,6T | ~200B | 128K | NVIDIA | Poids + inférence |
| Qwen 3.7 Max | ~400B+ | Variable | 128K | NVIDIA | Poids + inférence + train partiel |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | Poids + inférence |
| Llama 4 405B | 405B | — | 128K | NVIDIA | Poids + inférence |
| Axe | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| Génération de code | Bon | Excellent | Très bon | Très bon |
| Raisonnement complexe | Bon | Excellent | Excellent | Très bon |
| Tool calling / Agent | Très bon | Très bon | Très bon | Excellent |
| Ultra-long contexte | Excellent | Moyen | Moyen | Très bon |
| Efficacité inférence | Excellent | Faible | Faible | Très bon |
| Souveraineté / conformité | Excellent | Faible | Faible | Faible |
| Ouverture full stack | Excellent | Moyen | Moyen | Moyen |
Code et raisonnement → DeepSeek V4 Pro ; agents multi-outils → Kimi K2.7 ; documents >256K → openPangu 2.0 Pro ; contrôles export / sans NVIDIA → openPangu 2.0 ; inférence locale économique → Flash (6B actifs, ~96 Go mémoire unifiée).
Note : les benchmarks tiers indépendants pour openPangu 2.0 sont encore en cours ; la matrice ci-dessus repose sur une inférence architecturale. Mise à jour dès publication des résultats.
Comment utiliser openPangu 2.0 ? Runbook ModelArts et GitCode en six étapes
Compte Huawei Cloud : créer un compte sur huaweicloud.com et finaliser la vérification d'identité. Permet de démarrer par API sans matériel Ascend local.
Abonnement ModelArts : ModelArts → AI Gallery → rechercher « openPangu 2.0 », souscrire Flash ou Pro.
Endpoint et token : copier l'endpoint d'inférence et le X-Auth-Token depuis la console ; appeler au format Chat Completions.
Téléchargement GitCode (self-host) : cloner depuis gitcode.com/org/ascend-tribe les dépôts openPangu-2.0-Flash, openPangu-2.0-Infer, openPangu-2.0-Op, etc.
Inférence carte Ascend unique : sur Ascend 910B, exécuter python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16. Flash-Int8 (W4A8) : −40% mémoire, perte de précision <10%.
Fine-tuning domaine (LoRA) : python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16. Inférence Pro multi-cartes : cluster 8× Ascend 910B (validation après sortie des poids Pro en juillet).
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [{"role": "user", "content": "Bonjour, présentez-vous brièvement"}],
"max_tokens": 1024,
"temperature": 0.7
}'
| Version | Matériel recommandé | Configuration minimale | Remarque |
|---|---|---|---|
| Flash (6B actifs) | Ascend 910B seul | ~96 Go mémoire unifiée | Tests communautaires sur gros systèmes possibles |
| Flash-Int8 | Ascend Atlas A2 seul | ~48 Go VRAM | Quantification W4A8 |
| Pro (18B actifs) | 4+ Ascend 910B | Cluster multi-cartes | Validation après juillet |
Portée stratégique de l'open source openPangu 2.0 : export, HarmonyOS Agent et données citables
Dans un contexte de contrôles américains sur les puces A100/H100, openPangu 2.0 démontre qu'un MoE frontier peut être entraîné sans NVIDIA. Au HDC 2026, Richard Yu affirme qu'il « n'accepte que la première place, jamais la seconde » dans sa carrière.
openPangu 2.0 ancre la stratégie IA de Huawei. HarmonyOS 7 bascule vers l'ère Agent ; le framework HarmonyOS Agent 2.0 affiche >90% de succès sur les tâches complexes. Un modèle 30B on-device permet l'exécution locale de LLM sur smartphone. Licence : Huawei openPangu License — usage commercial, sans redevance, non exclusive (détails dans les dépôts GitCode).
Feuille de route : 30/06/2026 Flash poids + inférence + opérateurs ; 07/2026 poids Pro ; H2 2026 code pré-train, post-train et outils de traitement de données.
Efficacité sparse Flash : 6B actifs sur 92B total — ~6,5% d'activation par token, coût proche d'un dense 6B avec la profondeur d'un réservoir 92B.
Quantification Flash-Int8 : W4A8, −40% mémoire, perte <10%, adapté aux environnements ~48 Go VRAM.
Avertissement : une partie des benchmarks et évaluations repose sur une inférence architecturale ; mise à jour après publication de résultats tiers indépendants. Date de publication : 1er juillet 2026.
Sur un Mac local — que ce soit pour router les appels openPangu, orchestrer OpenClaw ou Hermes, ou enchaîner builds Xcode et pipelines créatifs — le sommeil du système, la pression mémoire et l'instabilité du gateway agent restent des freins fréquents. Pour une couche de routage modèle et des agents 7×24 fiables, la location Mac Mini cloud MESHLAUNCH est en général la meilleure option : Apple Silicon dédié, facturation jour/semaine/mois, CI iOS/macOS et couche agent sur le même nœud bare metal.
Flash : 92B total, 6B actifs, live GitCode le 30 juin 2026, idéal pour API à fort trafic. Pro : 505B total, 18B actifs, prévu en juillet, pour analyse ultra-longue et second pré-entraînement. Contexte 512K sur les deux versions.
GitCode Ascend Tribe : openPangu-2.0-Flash (poids), openPangu-2.0-Flash-Int8 (quantifié), openPangu-2.0-Infer (inférence), openPangu-2.0-Op (opérateurs Ascend). Essai rapide via ModelArts API ; hébergement agent stable : voir la page tarifs location.
Oui. openPangu 2.0 est le seul frontier open source entraîné sans NVIDIA, sur Ascend 910B de bout en bout avec CANN + torch_npu — adapté aux déploiements IA souverains. Région et hébergement : consulter le centre d'aide.
Structure, poids, rapport technique, code d'inférence + opérateurs train/infer (publié), code pré-entraînement, post-entraînement SFT/RLHF, opérateurs train Ascend. Les trois derniers sont rares sur les MoE géants et arrivent au second semestre 2026.