벤치마크 리더보드 vs 청구 처리량: 실제 AI 도입을 더 잘 반영하는 것은?
결론부터 말씀드리면, 프로덕션 라우팅에는 주간 청구 데이터가 정적 벤치마크보다 우위에 있습니다. OpenRouter는 300+ 모델과 60+ 공급자를 집계하며, 800만+ 사용자에게 서비스를 제공하고 월 약 100T 토큰을 처리합니다. 리더보드는 7일 롤링 입력+출력 토큰으로 순위를 매기며, 자체 보고 점수가 아닌 실제 유료 사용량을 반영합니다.
벤치마크의 사각지대: 고득점 모델이라도 API가 불안정하거나 가격이 과도하면 트래픽이 빠르게 이탈합니다. 리더보드는 이러한 마이그레이션을 포착하지 못합니다.
청구 데이터의 정직성: 모든 토큰은 연산 비용과 지출로 이어집니다. 처리량은 시장이 채택한 모델을 가리키는 체온계입니다.
Agent 시대의 전환: OpenRouter와 a16z의 2025 AI Usage Report(100T 익명 토큰)에 따르면, 벤치마크 점수와 시장 점유는 거의 역상관 관계입니다. 팀은 비용과 API 안정성을 우선합니다.
유스케이스 믹스: 코딩 트래픽은 2025년 초 약 11%에서 50%를 넘어 단일 최대 카테고리가 되었습니다. 이것이 DeepSeek의 주간 1위를 설명합니다.
플랫폼 주간 처리량은 1년 전 약 2.4T에서 5월 18–24일 구간 28.9T로 성장했으며, 연간 약 12배 급증입니다. 주간 관측 창의 중요성이 그 어느 때보다 커졌습니다.
OpenRouter 주간 통계 읽는 법: 5월 18–24일 28.9T 해독
openrouter.ai/rankings에서 네 가지 차원이 핵심입니다. 주간 토큰 합계, 모델별 순위, 공급자 시장 점유, 달러 매출 점유 vs 토큰 점유입니다. 마지막 쌍은 가격 구조에 따른 이중 진실을 드러냅니다. 최신 완결 주간 요약은 다음과 같습니다.
| 지표 | 수치 | 전주 대비 | 해석 |
|---|---|---|---|
| 글로벌 주간 토큰 | 28.9T | +7.4% | 5주 연속 상승 |
| 중국 발 모델 | 9.223T | +19.89% | 글로벌 평균 초과 |
| 미국 발 모델 | 4.93T | +16.27% | 절대량은 증가, 점유는 하락 |
| 중국 vs 미국 순위 | 중국 4주 연속 1위 | — | 2026년 2월 미국 최초 추월 |
| 시점 | 중국 모델 트래픽 점유 | 비고 |
|---|---|---|
| 2025년 초 | < 2% | 미미한 수준 |
| 2026년 2월 | 미국 최초 추월 | 변곡점 |
| 2026년 5월 | 약 45%+ | 4주 연속 1위 |
토큰 처리량은 기술 지표를 넘어 상업 바로미터로 자리 잡았습니다. 투자자, 빌더, 미디어가 같은 주간 차트에 투표합니다.
5월 18–24일 Top 10: DeepSeek 3모델 매트릭스가 선두를 차지한 방식
DeepSeek 변형 3종이 상위 9위 안에 진입했습니다. 시리즈 합산 처리량은 5.74T 토큰(전주 대비 +25.9%)이며, 공급자 단위로 2주 연속 Anthropic과 Google을 앞섰습니다.
| # | 모델 | 벤더 | 주간 토큰 | 전주 대비 | 역할 |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek | 3.43T | +66% | Agent 기본값, 초저가 |
| 2 | Tencent Hy3 Preview | Tencent | 3.07T | +16% | 무료 티어 종료 후 성장 |
| 3 | Claude Sonnet 4.6 | Anthropic | 1.35T | — | 1M 컨텍스트, 기업 코딩 |
| 4 | DeepSeek-V3.2 | DeepSeek | 1.31T | — | 저가 롱테일 |
| 5 | Owl Alpha | OpenRouter | 1.15T | +29% | 무료 Agent 특화 |
| 6 | Gemini 3 Flash Preview | 1.06T | — | 멀티모달, 학술 | |
| 7 | DeepSeek-V4-Pro | DeepSeek | 1.00T | — | 플래그십(시리즈 합 5.74T) |
| 8 | MiniMax M2.7 | MiniMax | 806B | — | 장컨텍스트 가성비 |
| 9 | Grok 4.1 Fast | xAI | 721B | — | 2M 컨텍스트, 법무 워크플로 |
| 10 | Step 3.5 Flash | StepFun | 673B | — | 고속 배치 처리 |
세 가지 티어가 드러납니다. 고가치·저처리량(복잡한 기업 추론용 Claude Opus), 중간 비용·중간 처리량(멀티모달용 Gemini Flash), 초저가·고처리량(Agent·배치용 DeepSeek, MiniMax, StepFun)입니다. Anthropic의 프리미엄 역설도 여기서 나타납니다. 토큰 점유 약 12%(1년 전 25%에서 하락)인데 달러 매출 점유 약 46%입니다. Claude Opus 4.6 단독으로 월 약 $25M을 기록하면서 DeepSeek 토큰의 일부만 처리합니다.
참고: Kimi K2.6은 전주 6위였으나 이번 주 Top 10에서 이탈했습니다. V4-Pro 처리량은 5.74T 시리즈 합계에서 V4-Flash와 V3.2를 뺀 값으로 산출했습니다. OpenRouter 공개 데이터와 2026년 5월 25일 보도를 교차 검증했습니다.
6단계 Runbook: OpenRouter 주간 순위를 추적하고 라우팅을 조정합니다
고정 주기: 매주 월요일 openrouter.ai/rankings를 열고 7일 순위와 공급자 점유를 캡처해 내부에 보관합니다.
청구서 대조: OpenRouter 또는 벤더 청구 내역을 다운로드해 대조합니다. 자사 토큰 믹스가 글로벌 주간 순위와 크게 어긋나면 라우팅이 노후화되었을 수 있습니다.
작업 티어별 라우팅: Agent·배치는 DeepSeek-V4-Flash, 복잡한 기업 추론은 Claude Opus, 멀티모달은 Gemini Flash로 분기합니다.
신규 진입 모니터링: Hy3 Preview와 Owl Alpha 급등은 다음 기본 모델의 전조가 됩니다. 5% Shadow 트래픽 A/B를 실행합니다.
토큰 vs 매출 점유 분리: 고토큰·저매출 모델은 저비용 확장에, 고매출 모델은 크리티컬 경로에 배치합니다.
안정 호스트 연결: 노트북이 슬립하면 OAuth 갱신이 끊기고 병렬 dev 서버가 메모리를 압박하면 라우팅 로직이 무너집니다. Gateway는 24/7 클라우드 Mac에 두고 주간 리뷰를 SOP에 포함합니다.
주간 차트 뒤에 있는 인용 가능한 3가지 수치
연간 12배 성장: 주간 플랫폼 처리량이 약 2.4T에서 28.9T로 상승했습니다. 보고된 26배 PS 밸류에이션 기준, 주간 차트는 AI 상용화의 핵심 투자 신호가 되었습니다.
코딩이 지배: 코딩이 OpenRouter 트래픽의 50%를 넘습니다(2025년 초 약 11% 대비). V4-Flash의 주간 3.43T 1위는 Agent가 피크 추론 점수보다 단가를 우선한다는 뜻입니다.
중국·미국 역전 속도: 중국 발 점유가 18개월 만에 2% 미만에서 약 45%+로 올랐습니다. 개방형 초저가 API가 글로벌 호출 패턴을 재편하고 있습니다.
주의: 주간 수치는 일별로 변동합니다. 본문은 2026-05-24까지의 데이터를 사용했습니다. Owl Alpha 같은 무료 모델은 프로토타입에 적합하며, 프로덕션 전에 프라이버시 약관을 검토하십시오.
개인 Mac에서 멀티모델 Agent 라우팅을 운영하면 슬립 단절, 병렬 dev 서버의 메모리 압박, OAuth 갱신 실패가 발생합니다. VPS는 Xcode·iOS CI용 네이티브 Apple Silicon이 부족합니다. 24/7 Gateway 가동, 병렬 dev 서버, 다지역 API 라우팅이 필요하다면 MESHLAUNCH 클라우드 Mac Mini 임대가 일반적으로 더 나은 프로덕션 선택입니다. 전용 Apple Silicon, 일·주·월 유연 과금, 주간 OpenRouter 리뷰와 연계할 수 있습니다.