화웨이 openPangu 2.0 정식 오픈소스
505B MoE · 512K 컨텍스트 · Ascend 전 스택 공개

HDC 2026 공개 · 6/30 Flash 라이브 · 7대 컴포넌트 순차 오픈 · NVIDIA 없이 학습한 최초 프론티어 모델

화웨이 openPangu 2.0 오픈소스 공개 505B MoE 512K 컨텍스트
2026년 6월 30일, 화웨이는 HDC 2026 약속을 이행하여 openPangu 2.0 Flash 가중치·추론 코드·훈련·추론 연산자를 GitCode에 공개했습니다. 512K 초장문맥, Ascend 단독 학습, 수출 통제 대응형 AI 스택을 검토하는 Ascend·화웨이 클라우드 개발자와 IT 의사결정자를 위해 본문은 ① HDC 공개부터 6/30 Flash 라이브까지 타임라인, ② Pro/Flash 파라미터와 7대 오픈소스 컴포넌트, ③ mHC/Muon/ModAttn 아키텍처와 Ascend 하드웨어 적응, ④ DeepSeek·Qwen·Kimi 대비 선정 매트릭스, ⑤ ModelArts API·GitCode 6단계 Runbook, ⑥ 지정학적 의미·HarmonyOS Agent·openPangu License를 정리합니다.
01

openPangu 2.0은 언제 공개됐나? HDC 2026 타임라인과 Pro/Flash 핵심 파라미터

2026년 6월 12일 중국 동관에서 개최된 HDC 2026에서 위청동이 기조연설로 openPangu 2.0을 공식 발표했습니다. 6월 30일 openPangu-2.0-Flash 가중치·기본 추론 코드·훈련·추론 연산자가 GitCode에 공개되었고, Pro 가중치는 7월, 사전학습·후학습 코드와 추가 연산자는 2026년 하반기 순차 공개 예정입니다.

버전총 파라미터활성 파라미터희소 비율컨텍스트상태
openPangu 2.0 Pro505B18B약 28:1512K7월 공개 예정
openPangu 2.0 Flash92B6B약 15:1512K6/30 공개 완료

512K 컨텍스트는 《三体》 1부 약 8권 분량에 해당하며, 현재 오픈소스 모델 중 최상위 급입니다.

01

128K 한계: DeepSeek·Qwen 등 주류 모델은 128K에서 멈춥니다. 계약서·대규모 코드베이스·장시간 대화를 한 번에 넣으려면 컨텍스트가 병목이 됩니다.

02

NVIDIA 의존: 기존 프론티어 오픈소스는 A100/H100 학습 전제입니다. Ascend·국산화 스택만 허용되는 환경에서는 배포 자체가 불가능했습니다.

03

가중치만 공개: 대부분 오픈소스 LLM은 추론 코드까지만 제공합니다. 사전학습·후학습 파이프라인 재현은 학술·산업 모두 막혀 있었습니다.

04

MoE 불균형: 표준 MoE는 학습·추론 분포 불일치로 품질이 흔들립니다. openPangu 2.0은 이 문제를 >99% 일치율로 해결했다고 보고합니다.

05

7대 컴포넌트: 모델 구조·가중치·기술 보고서·추론 코드+연산자(6/30 공개), 사전학습 코드·후학습 코드(SFT/RLHF)·Ascend 훈련 연산자(하반기)로 진정한 전 스택 오픈을 지향합니다.

전 스택 오픈의 의미: 업계 관행은 가중치+추론 코드 수준입니다. openPangu 2.0은 초대형 MoE에서 극히 드문 사전학습·후학습 코드와 Ascend 네이티브 연산자까지 공개 계획을 밝혔습니다.

02

openPangu 2.0 기술 아키텍처: mHC 라우팅과 Ascend NPU 전 스택 적응

openPangu 2.0은 MoE(혼합 전문가) 아키텍처이며, NVIDIA 하드웨어 없이 전 규모 학습을 완료한 최초의 프론티어 대형 모델입니다. Ascend 910B NPU만으로 A100·H100을 사용하지 않았습니다.

01

mHC(Multi-Head Combinatorial) 라우팅: 전문가 라우팅 효율을 개선하고 MoE 부하 불균형을 완화합니다.

02

Muon 옵티마이저: 마이크로소프트가 제안한 2차 모멘텀 방식으로 대규모 학습 안정성을 높입니다.

03

ModAttn(Modular Attention): 모듈형 어텐션으로 512K 초장문맥에 맞춰 설계되었습니다.

04

DSA+SWA 초희소 어텐션(Flash 전용): 극한 희소 비율로 추론 연산량을 대폭 절감합니다.

05

엣지 Embedded 버전: 30B 온디바이스 모델로 추론 속도 50% 향상·메모리 20% 절감, Kirin 칩 스마트폰 오프라인 실행을 지원합니다.

학습/추론 지표openPangu 2.0업계 참조
Ascend 단일 카드 처리량주류 오픈소스 대비 2배비 Ascend 친화 아키텍처
하이퍼노드 학습 효율+30%표준 MoE 클러스터
512K 장시퀀스 학습 처리량+50%128K 컨텍스트 모델
학습·추론 일치율>99%MoE 공통 과제
추론 지연동급 대비 1.2배 우수동급 오픈소스

개발자 생태계는 CANN(CUDA 유사, 화웨이 자체) + torch_npu(PyTorch 어댑터) 위에 구축됩니다. 표준 PyTorch 코드는 import torch_npu 한 줄로 Ascend 백엔드로 전환할 수 있습니다. 배포 경로는 화웨이 클라우드 ModelArts(API 직접 호출), GitCode Ascend Tribe(자체 배포), HarmonyOS 네이티브 온디바이스 통합입니다.

Python
import torch
import torch_npu

model = load_openpangu("./openPangu-Flash")
model = model.to("npu:0")
output = model.generate(input_ids.to("npu:0"), max_new_tokens=512, temperature=0.7)
03

openPangu 2.0 vs DeepSeek·Qwen·Kimi: 경쟁 모델 비교와 선정 결정 트리

모델총 파라미터활성 파라미터컨텍스트학습 하드웨어오픈 범위
openPangu 2.0 Pro505B18B512KAscend NPU전 스택(7 컴포넌트)
openPangu 2.0 Flash92B6B512KAscend NPU전 스택(7 컴포넌트)
DeepSeek V4 Pro1.6T약 200B128KNVIDIA가중치+추론
Qwen 3.7 Max약 400B+가변128KNVIDIA가중치+추론+일부 학습
Kimi K2.71T32B256KNVIDIA가중치+추론
Llama 4 405B405B128KNVIDIA가중치+추론
능력 축openPangu 2.0 ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
코드 생성양호최상우수우수
복잡 추론양호최상최상우수
도구 호출/Agent우수우수우수최상
초장문맥최상보통보통우수
추론 효율최상낮음낮음우수
자주국/컴플라이언스최상낮음낮음낮음
전 스택 오픈최상보통보통보통

코드 생성·복잡 추론 → DeepSeek V4 Pro; Agent·다중 도구 협업 → Kimi K2.7; 초장문(>256K) → openPangu 2.0 Pro; 수출 통제 대응·NVIDIA 불가 → openPangu 2.0; 저비용 로컬 추론 → Flash(6B 활성, 약 96GB 통합 메모리).

참고: openPangu 2.0 독립 서드파티 벤치마크는 아직 진행 중이며, 위 능력 매트릭스는 아키텍처 기반 추정입니다. 결과 공개 후 갱신합니다.

04

openPangu 2.0 사용법: ModelArts API와 GitCode 6단계 배포 Runbook

01

화웨이 클라우드 계정 등록: huaweicloud.com에서 실명 인증을 완료합니다. 자체 하드웨어 없이 API만으로 시작할 수 있습니다.

02

ModelArts 구독: ModelArts → AI Gallery → 「openPangu 2.0」 검색 후 Flash 또는 Pro 버전을 구독합니다.

03

API Endpoint·Token 확보: 콘솔에서 추론 엔드포인트와 X-Auth-Token을 복사하고 Chat Completions 형식으로 호출합니다.

04

GitCode 가중치 다운로드(자체 배포): gitcode.com/org/ascend-tribe에서 openPangu-2.0-Flash, openPangu-2.0-Infer, openPangu-2.0-Op 등 저장소를 클론합니다.

05

Ascend 단일 카드 추론: Ascend 910B에서 python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16을 실행합니다. Flash-Int8(W4A8)은 메모리 40% 절감, 정확도 손실 <10%입니다.

06

도메인 미세조정(LoRA): python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16. Pro 다중 카드 분산 추론은 8카드 Ascend 클러스터가 필요하며 7월 가중치 공개 후 검증 예정입니다.

bash
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "안녕하세요, 자기소개를 해 주세요"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'
버전권장 하드웨어최소 구성비고
Flash(6B 활성)단일 Ascend 910B약 96GB 통합 메모리커뮤니티 대용량 시스템 시도 가능
Flash-Int8단일 Ascend Atlas A2약 48GB VRAMW4A8 양자화
Pro(18B 활성)4+ Ascend 910B다중 카드 클러스터7월 가중치 공개 후 검증
05

openPangu 2.0 오픈소스의 전략적 의미: 수출 통제·HarmonyOS Agent·인용 가능 하드 데이터

미국의 A100/H100 등 첨단 AI 칩 수출 통제 속에서 openPangu 2.0은 NVIDIA 없이도 프론티어 규모 MoE를 학습할 수 있음을 입증했습니다. HDC 2026에서 위청동은 「내 여생 사전에 2등은 없고 1등만 있다」고 선언했습니다.

openPangu 2.0은 화웨이 AI 전략의 핵심 베이스입니다. HarmonyOS 7은 Agent 시대로 전환하고, HarmonyOS Agent 프레임워크 2.0의 복잡 작업 성공률은 >90%입니다. 온디바이스 30B 모델로 스마트폰 로컬 LLM 실행이 가능합니다. 라이선스는 Huawei openPangu License로 상업적 사용·로열티 면제·비독점(세부 조항은 GitCode 저장소 기준)입니다.

A

오픈 로드맵: 2026-06-30 Flash 가중치+추론+연산자 공개; 2026-07 Pro 가중치; 2026 하반기 사전학습·후학습 코드·데이터 처리 도구.

B

Flash 희소 효율: 92B 총 파라미터 중 6B만 활성화, 토큰당 약 6.5% 활성화로 밀집 6B 수준 비용에 92B 지식 풀을 활용합니다.

C

Flash-Int8 양자화: W4A8로 메모리 40% 절감, 정확도 손실 <10%, 약 48GB VRAM 환경에 적합합니다.

면책: 본문 일부 벤치마크·능력 평가는 아키텍처 기반 추정이며, 독립 서드파티 결과 공개 후 갱신합니다. 발행일: 2026년 7월 1일.

로컬 Mac에서 Agent 게이트웨이·모델 라우팅·iOS/macOS 자동화 파이프라인을 구축할 때 슬립 단절·메모리 부족·Gateway 프로세스 불안정이 흔한 병목입니다. openPangu API와 OpenClaw·Hermes 등 Agent 프레임워크를 7×24로 안정 운영하려면 MESHLAUNCH Mac Mini 클라우드 대여가 일반적으로 더 나은 선택입니다. Apple Silicon 단독 점유, 일·주·월 유연 과금, 라우팅 계층과 CI 빌드를 동일 노드에서 병행할 수 있습니다.

자주 묻는 질문

Flash는 총 92B·활성 6B로 2026년 6월 30일 GitCode에 공개되어 저비용 고동시 API에 적합합니다. Pro는 총 505B·활성 18B로 7월 공개 예정이며 초장문 분석·2차 사전학습에 적합합니다. 두 버전 모두 512K 컨텍스트를 지원합니다.

GitCode Ascend Tribe: openPangu-2.0-Flash(가중치), openPangu-2.0-Flash-Int8(양자화), openPangu-2.0-Infer(추론 소스), openPangu-2.0-Op(Ascend 연산자). 가장 빠른 체험은 화웨이 클라우드 ModelArts API이며, 안정 Agent 호스트는 대여 가격 페이지를 참고하세요.

가능합니다. openPangu 2.0은 NVIDIA 없이 학습한 유일한 프론티어 오픈소스 모델이며 Ascend 910B 전 과정 학습·CANN+torch_npu 스택과 결합해 자주국 AI·컴플라이언스 배포에 적합합니다. 리전·배포 선택은 고객 센터를 참고하세요.

모델 구조, 모델 가중치, 기술 보고서, 추론 코드+훈련·추론 연산자(공개 완료), 사전학습 코드, 후학습 코드(SFT/RLHF), Ascend 훈련 연산자입니다. 후 3항은 초대형 MoE에서 극히 드물며 2026년 하반기 순차 공개 예정입니다.