GPT-5.6은 언제 출시되었고 접근이 왜 제한되나요?
OpenAI는 6월 26일 태양계 명명 체계로 GPT-5.6을 공개했습니다. Sol(플래그십), Terra(균형형), Luna(경량형)입니다. Sol은 TerminalBench 2.1에서 기록적인 91.9%로 Claude Mythos 5를 제치고 1위에 올랐습니다. 세 모델 모두 OpenAI 사이버보안 High 등급을 달성했으며, 전 라인업이 동시에 High를 받은 것은 처음입니다.
| 모델 | 적합 용도 | 입력 | 출력 | 핵심 |
|---|---|---|---|---|
| Sol | 복잡 코딩·에이전트 | $5 / 1M | $30 / 1M | TerminalBench 1위 91.9% |
| Terra | 대량 비즈니스 | $2.50 / 1M | $15 / 1M | GPT-5.5 성능, 50% 저렴 |
| Luna | 요약·자동화 | $1 / 1M | $6 / 1M | Sol 대비 입력 80% 절감 |
다만 미국 정부 요청으로 현재 약 20개 검증된 조직만 모델에 접근할 수 있습니다. 수주 내 광범위 공개가 예상됩니다.
프리뷰 전용 접근: 일반 ChatGPT 사용자는 아직 GPT-5.6을 쓸 수 없습니다. API는 정부 승인 파트너에만 개방되어 프로덕션 계획 공백이 생깁니다.
3단계 가격 혼란: Sol 입력 토큰은 Luna의 5배입니다. Terra는 GPT-5.5 동급을 절반 가격에 제공한다고 하지만, 자체 워크로드 벤치마크 없이는 검증이 어렵습니다.
경쟁 공백: Claude Fable 5와 Mythos 5는 6월 12일 오프라인되었고, Gemini 3.5 Pro는 7월로 미뤄졌습니다. 2026년 6월은 역대 최대 AI 출시 달이 될 예정이었습니다.
High 사이버 리스크: 세 티어 모두 OpenAI High 사이버보안 분류를 받았습니다. 컴플라이언스 팀은 배포 가드레일을 명확히 해야 합니다.
미완성 시스템 카드: SWE-Bench Pro 등 일부 차원은 아직 공개되지 않았습니다. TerminalBench만으로 프로덕션 결정을 내리기엔 부족합니다.
GPT-5.6 Sol vs Terra vs Luna: 스택에 맞는 모델은?
GPT-5.6 Sol은 OpenAI 최고 성능 모델입니다. 이전에 없던 두 가지 추론 모드를 도입했습니다.
Max 모드: Sol이 응답 전 추가 추론 시간을 씁니다. 빠름보다 정확함이 중요한 작업에 지연을 감수하고 정확도를 높입니다.
Ultra 모드: 여러 서브 에이전트를 생성해 작업을 분할·병렬 실행·결과 병합합니다. 이 멀티 에이전트 아키텍처가 TerminalBench 기록을 이끕니다. 토큰 사용량이 크게 늘므로 진짜 복잡한 작업에만 쓰세요.
GPT-5.6 Terra는 대규모 고객 지원, 내부 도구, 문서 분석 등 일상 엔터프라이즈 업무를 겨냥합니다. GPT-5.5에 근접한 성능을 50% 낮은 비용에 제공하며, 대규모 배포에 가장 가성비가 좋습니다.
GPT-5.6 Luna는 고빈도·저지연 작업에 최적화됩니다. Luna는 사이버보안과 생물학 분야 모두에서 High 등급을 받은 OpenAI 최초의 비플래그십 모델입니다.
| 차원 | Sol | Terra | Luna |
|---|---|---|---|
| 컨텍스트 윈도우 | 약 1.5M 토큰 | 약 1.5M 토큰 | 약 1.5M 토큰 |
| 입력 / 출력 가격 | $5 / $30 | $2.50 / $15 | $1 / $6 |
| 사이버 등급 | High | High | High |
| 적합 워크로드 | 에이전트·보안 연구 | 엔터프라이즈 API 규모 | 초안·분류 |
Claude Mythos 5는 6월 9일 출시 이후 단 17일간 TerminalBench 1위를 유지했고, Sol이 그 자리를 대체했습니다.
GPT-5.6 벤치마크: TerminalBench, CTF, 생명과학
코딩: TerminalBench 2.1 — 89개 복잡 CLI 계획 과제로 실제 에이전트 행동을 검증합니다.
| 모델 | 점수 | 모드 |
|---|---|---|
| GPT-5.6 Sol | 91.9% | Ultra(멀티 에이전트) |
| GPT-5.6 Sol | 88.8% | Standard |
| Claude Mythos 5 | 88.0% | Standard |
| GPT-5.5 | 83.4% | Standard |
| Gemini 3.1 Pro Preview | 70.7% | Standard |
장기 에이전트: Agent's Last Exam
| 모델 | 과제 완료율(코드 모드) |
|---|---|
| GPT-5.6 Sol | 50.9% — 50% 초과 유일 모델 |
| GPT-5.6 Luna | GPT-5.5보다 소폭 상회 |
사이버보안: CTF 적중률
| 모델 | 적중률 |
|---|---|
| Sol | 96.7% |
| Terra | 91.84% |
| Luna | 85.19% |
ExploitBench: Sol은 Anthropic Mythos Preview와 거의 동일한 성능을 출력 토큰 약 1/3로 달성합니다. 레드팀 검증 결과 Sol은 강화된 Chromium·Firefox 대상 완전한 기능적 익스플로잇 체인을 자율적으로 구성할 수 없음이 확인되었습니다.
생명과학: GeneBench v1에서 Sol은 더 적은 토큰으로 GPT-5.5와 동급 이상입니다. HealthBench Professional은 60.5로 GPT-5.5 대비 8.7점 상승했습니다.
안전 스택: 실시간 오용 분류기, 민감 워크플로 계정 수준 검토, A100 환산 70만 GPU 시간 자동 레드팀, 범용 탈옥 테스트, 사용자 출력 전 최종 필터로 대형 추론 모델을 운용합니다.
GPT-5.6 접근 방법: 6단계 개발자 Runbook
접근 티어 확인: 조직이 승인된 약 20개 파트너에 포함되는지 확인합니다. 아니라면 GPT-5.5와 Claude Opus 4.8을 유지하고 OpenAI 상태 페이지 알림을 설정하세요.
워크로드별 모델 매칭: 복잡 코딩 에이전트는 Sol(Ultra), 문서 파이프라인·지원 API는 Terra, 요약·경량 자동화는 Luna. 예산이 빠듯하면 Terra를 GPT-5.5 절반 가격 대체재로 씁니다.
모델 ID 외부화: 환경 변수로 gpt-5.6-sol, gpt-5.6-terra, gpt-5.6-luna를 사용합니다. claude-mythos-5 같은 오프라인 ID 하드코딩 대신 LiteLLM 폴백 체인을 구성하세요.
회귀 벤치마크 실행: 자체 코드베이스에서 다단계 에이전트 과제를 GPT-5.5 기준선과 재현합니다. Ultra 모드 토큰 비용·지연을 프로파일링하고, 오버헤드가 정당화되는 작업에만 켭니다.
7월 Cerebras 대비: Cerebras Sol은 초당 750 토큰을 목표로 하며, 현재 대부분 프론티어 모델(50~150) 대비 10초 응답이 1초 미만으로 줄 수 있습니다. 할당량은 OpenAI 엔터프라이즈 영업에 조기 문의하세요.
컴플라이언스 검토 완료: 세 티어 모두 High 사이버 리스크입니다. 내부 배포 전 분류기 정책을 검토하세요. 30일 검토 기간 내 7월 2일경 예상되는 미국 사이버 행정명령 프레임워크를 주시하세요.
GPT-5.6 vs Claude Mythos 5와 정부 제한 선례
| 항목 | GPT-5.6 Sol | Claude Mythos 5 |
|---|---|---|
| TerminalBench 2.1 | 91.9%(Ultra) | 88.0% |
| ExploitBench | 거의 동일, 3배 저렴 | 강력(접근 제한) |
| 가격 | $5 / $30 | $10 / $50(오프라인) |
| 가용성 | 제한 프리뷰, GA 임박 | 오프라인(수출 통제) |
| 컨텍스트 | 약 1.5M 토큰 | 200K 토큰 |
2026년 6월 2일 트럼프 대통령은 프론티어 AI 모델 출시 전 최대 30일간 정부 사전 접근을 허용하는 행정명령에 서명했습니다. 6월 26일 OpenAI는 GPT-5.6을 약 20개 사전 승인 신뢰 파트너로 제한하기로 합의했으며, 미국 정부가 AI 기업에 모델 출시 제한을 공식 요구한 최초 사례입니다.
| 기업 | 모델 | 상태 |
|---|---|---|
| OpenAI | GPT-5.6 Sol/Terra/Luna | 제한 프리뷰(약 20개 조직) |
| Anthropic | Claude Fable 5 / Mythos 5 | 6월 12일 강제 오프라인 |
| Gemini 3.5 Pro | 7월로 연기 |
타임라인: 현재 — 약 20개 파트너가 API·Codex로 접근. 7월 — ChatGPT GA(Plus/Pro 우선), 공개 API, 엔터프라이즈용 Cerebras Sol 750 token/s. Polymarket은 2026년 7월 31일까지 광범위 출시 확률을 87%로 봅니다.
TerminalBench 2.1: Sol Ultra 91.9%로 17일간 1위였던 Mythos 5를 제치고 정상에 올랐습니다.
Cerebras 속도: 7월부터 최대 750 token/s — 오늘 프론티어 모델 대비 5~15배 빠릅니다.
토큰 효율: ExploitBench 동급 성능을 경쟁사 대비 출력 토큰 약 1/3로 달성합니다.
주의: 클라우드 API만으로는 정부 제한이나 갑작스러운 모델 중단에 대비할 수 없습니다. 공유 VPS 에이전트 호스트는 리소스 경합과 스왑 지터가 발생합니다. 로컬 Mac 구매는 감가상각과 불확실한 업그레이드 주기 리스크가 있습니다.
7×24 AI 에이전트, Sol Ultra 멀티 에이전트 워크플로, Cursor/Codex 평가 파이프라인을 돌리는 프로덕션 환경에는 MESHLAUNCH Mac Mini M4 베어메탈 클라우드 대여가 보통 더 적합합니다. 전용 Apple Silicon, 일·주·월 유연 과금, launchd 에이전트 감독을 제공합니다. 관련 글: Claude Fable 5 금지 대안, AI 코딩 어시스턴트 비교. 요금은 가격 페이지, 배포·절차는 고객 센터를 참고하세요.
일반 사용자는 아직 사용할 수 없습니다. 현재 API·Codex를 통해 약 20개 신뢰 파트너 조직에만 제한됩니다. 2026년 7월 ChatGPT 전면 공개가 수주 내 예상됩니다. 모델이 광범위 공개되면 가격 페이지에서 에이전트 호스트 옵션을 확인하세요.
Sol은 Max/Ultra 멀티 에이전트 모드를 갖춘 플래그십으로 TerminalBench 2.1 91.9%, MTok당 $5/$30입니다. Terra는 GPT-5.5 수준 성능을 절반 비용($2.50/$15)에 제공하며 대량 비즈니스 문서·지원 API에 적합합니다.
트럼프 6월 2일 행정명령 이후 백악관(OSTP·ONCD 경유)이 보안 검토 기간 동안 접근 제한을 요청했습니다. OpenAI는 따랐지만, 이것이 영구적 업계 관행이 되는 것에 반대한다고 공개적으로 밝혔습니다.
2026년 7월부터 선정 엔터프라이즈 고객 대상 초당 최대 750 토큰입니다. 현재 대부분 프론티어 모델의 초당 50~150 토큰 대비 약 5~15배 빠릅니다.
Sol은 TerminalBench 2.1 91.9%로 Mythos 5 88.0%를 앞섭니다. ExploitBench는 거의 동일한데 토큰 비용은 약 1/3입니다. 컨텍스트는 약 1.5M vs 200K입니다. SWE-Bench Pro에서는 Fable 5가 앞설 수 있으며, GPT-5.6 시스템 카드 전체 데이터는 아직 대기 중입니다.
복잡 코딩 에이전트·보안 연구에는 Sol, 대량 배포에는 Terra, 초안·자동화에는 Luna, 7월 이후 지연 민감 실시간 앱에는 Cerebras Sol을 권장합니다. 멀티 모델 평가 환경은 고객 센터를 참고하세요.