Benchmark leaderboard vs billing throughput: что отражает реальное внедрение ИИ?
Вывод сразу: для production routing недельный billing побеждает статические бенчмарки. OpenRouter агрегирует 300+ моделей от 60+ провайдеров, обслуживает 8M+ пользователей и обрабатывает порядка 100T токенов в месяц. Leaderboard ранжирует по 7-дневному rolling input+output tokens — фактически оплаченному usage, а не self-reported скорам.
Слепая зона бенчмарков: Высокоскоринговые модели с нестабильным API или экстремальным pricing теряют трафик быстро. Leaderboard не фиксирует эту миграцию.
Честность billing: Каждый токен мапится на compute и spend. Throughput — термометр рынка для adoption.
Сдвиг agent-эры: OpenRouter и AI Usage Report a16z за 2025 (100T анонимизированных токенов) показали: benchmark scores и market share почти обратно коррелируют. Команды оптимизируют cost и стабильность API.
Mix use-case: Coding вырос с ~11% трафика в начале 2025 до свыше 50% — крупнейшая категория. Это объясняет недельное доминирование DeepSeek.
Недельный объём платформы вырос с ~2,4T токенов год назад до 28,9T в окне 18–24 мая — примерно 12× годовой скачок. Недельные observation windows важнее, чем когда-либо.
Как читать недельную статистику OpenRouter: декодирование 28,9T за 18–24 мая
На openrouter.ai/rankings важны четыре измерения: недельный итог токенов, ранг модели, доля провайдера и пара доля выручки в долларах vs доля токенов. Последняя пара вскрывает pricing-driven «двойную правду». Сводка за последнюю полную неделю:
| Метрика | Значение | WoW | Интерпретация |
|---|---|---|---|
| Глобальные недельные токены | 28,9T | +7,4% | Пятый рост подряд |
| Китайские модели | 9,223T | +19,89% | Опережает глобальное среднее |
| Американские модели | 4,93T | +16,27% | Растут в абсолюте, теряют долю |
| Ранг Китай vs США | Китай #1 четвёртую неделю | — | Впервые обогнал США в фев 2026 |
| Таймлайн | Доля трафика китайских моделей | Примечание |
|---|---|---|
| Начало 2025 | < 2% | Незначительно |
| Фев 2026 | Впервые обогнал США | Точка перелома |
| Май 2026 | ~45%+ | Четвёртая неделя на #1 |
Token throughput перестал быть чисто технической метрикой — стал коммерческим барометром: инвесторы, билдеры и медиа голосуют одним недельным чартом.
Top 10 за 18–24 мая: как трёхмодельная матрица DeepSeek захватила лидерство
Три варианта DeepSeek попали в top nine. Совокупный объём серии — 5,74T токенов (+25,9% WoW), вторую неделю подряд обгоняя Anthropic и Google на уровне провайдера.
| # | Модель | Вендор | Недельные токены | WoW | Роль |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek | 3,43T | +66% | Agent default, ultra-low price |
| 2 | Tencent Hy3 Preview | Tencent | 3,07T | +16% | Рост после free-tier |
| 3 | Claude Sonnet 4.6 | Anthropic | 1,35T | — | 1M context, enterprise coding |
| 4 | DeepSeek-V3.2 | DeepSeek | 1,31T | — | Low-cost long tail |
| 5 | Owl Alpha | OpenRouter | 1,15T | +29% | Бесплатный Agent-specialized |
| 6 | Gemini 3 Flash Preview | 1,06T | — | Multimodal, academic | |
| 7 | DeepSeek-V4-Pro | DeepSeek | 1,00T | — | Flagship (5,74T серии) |
| 8 | MiniMax M2.7 | MiniMax | 806B | — | Long-context value |
| 9 | Grok 4.1 Fast | xAI | 721B | — | 2M context, legal workflows |
| 10 | Step 3.5 Flash | StepFun | 673B | — | Fast batch processing |
Три tier: high-value / low-volume (Claude Opus для сложного enterprise reasoning); mid-cost / mid-volume (Gemini Flash для multimodal); ultra-low-cost / high-volume (DeepSeek, MiniMax, StepFun для агентов и batch jobs). Парадокс премиума Anthropic: ~12% доли токенов (было 25% год назад), но ~46% доли выручки в долларах. Claude Opus 4.6 один генерирует ~$25M/мес, двигая долю токенов DeepSeek.
Примечание: Kimi K2.6 выпал из top 10 после #6 на прошлой неделе. Объём V4-Pro выведен из 5,74T серии минус V4-Flash и V3.2. Перекрёстная проверка с публичными данными OpenRouter и прессой от 25 мая 2026.
Шестишаговый runbook: отслеживать недельный рейтинг OpenRouter и корректировать routing
Фиксированный cadence: Каждый понедельник открывайте openrouter.ai/rankings, скриншот 7-дневных рангов и долей провайдеров, внутренний архив.
Сверка со счётом: Экспорт инвойсов OpenRouter или вендора. Если ваш token mix резко расходится с глобальным недельным рейтингом — routing устарел.
Routing по task tier: Агенты и batch jobs — DeepSeek-V4-Flash; сложный enterprise reasoning — Claude Opus; multimodal — Gemini Flash.
Следить за новичками: Всплески Hy3 Preview и Owl Alpha часто предшествуют следующей default-модели. Запускайте 5% shadow traffic A/B.
Разделять долю токенов и выручки: High-token / low-revenue модели масштабируются дёшево; high-revenue — на critical paths.
Привязать стабильный host: Routing logic ломается, если ноутбук засыпает на OAuth refresh или задыхается от параллельных dev-серверов. Gateway — на 24/7 cloud Mac host, недельные review вшить в SOP.
Три цитируемые точки данных за недельным чартом
12× годовой рост: Недельный объём платформы вырос с ~2,4T до 28,9T. При заявленной оценке 26× PS недельный чарт — core investor signal для коммерциализации ИИ.
Доминирование coding: Coding превышает 50% трафика OpenRouter (vs ~11% в начале 2025) — объясняет недельную корону V4-Flash с 3,43T: агенты ценят unit economics выше peak reasoning scores.
Скорость разворота Китай–США: Доля китайских моделей выросла с <2% до ~45%+ менее чем за 18 месяцев — open ultra-low-cost API перестраивают глобальные call patterns.
Осторожно: Недельные цифры колеблются ежедневно. Статья использует данные по 2026-05-24. Бесплатные модели вроде Owl Alpha — для прототипов; перед production проверьте privacy terms.
Multi-model agent routing на личном Mac даёт sleep disconnects, memory pressure от параллельных dev-серверов и сбои OAuth refresh. VPS не даёт нативный Apple Silicon для Xcode и iOS CI. Для 24/7 Gateway uptime, параллельных dev-серверов и multi-region API routing аренда cloud Mac Mini MESHLAUNCH — обычно лучший production-выбор: выделенный Apple Silicon, гибкие daily/weekly/monthly terms, замыкание цикла с недельными OpenRouter review. При чтении всего репозитория агентом long-context input tokens растут быстро — tiered routing на cloud host снижает bill shock. Цены аренды, центр помощи; trial — оформить заказ.
Бенчмарки тестируют потолок; недельный рейтинг — оплаченный throughput. Используйте оба, но за направлением рынка следите по billing. Варианты Agent host — на странице цен.
V4-Flash — default agent router; V4-Pro — flagship coding; V3.2 — low-cost long tail. Совокупные 5,74T серии задают квоты API key allocation.
Каждый понедельник сверяйте с инвойсами; 5% shadow traffic в течение семи дней после крупных релизов моделей. Проблемы с host — центр помощи.