Зачем включать рейтинг OpenRouter в процесс закупки LLM в 2026
OpenRouter агрегирует сотни моделей от Anthropic, Google, DeepSeek, Tencent, Moonshot, NVIDIA и других. Leaderboard отражает оплаченный developer traffic, а не пресс-релизные скоры. К середине 2026 mix резко сместился: китайские open MoE доминируют по объёму, контекст 1M токенов — baseline, надёжность tool-calling у агентов важнее «красоты» чата. OpenRouter не заменяет внутренний eval, но показывает, какие модели разработчики повторно выбирают после проверки цены, latency и стабильности tools в бою.
Перегруз выбором: Одна agent-задача на Opus vs V4 Flash может стоить в 50× дороже без tiered routing policy.
Bill shock: Long-context агенты, перечитывающие весь repo, сжигают input tokens; неверные defaults взрывают месячный счёт.
Failure modes агентов: Вложенные JSON tool errors и drift суб-агентов болезненнее слабой прозы — SWE-bench Verified — новая планка.
Несовпадение host: Дешёвые модели падают, когда ноутбук уходит в sleep, истекает OAuth или 16 ГБ RAM свопит под параллельными dev-серверами.
Сопоставьте leaderboard с shadow-трафиком на своём репозитории до фиксации default route в CI или OpenClaw Gateway. Для команд с compliance-требованиями документируйте, какие inference-провайдеры получают prompt, пути repo и tool output.
OpenRouter Top 10 (июнь 2026): usage, рост и routing matrix
| # | Модель | Вендор | Tokens | Рост | Контекст | Роль |
|---|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | 10,9T | ↑995 % | 1M | Cost-first agent default |
| 2 | Hy3 Preview | Tencent | 10,7T | ↑>999 % | 256K | Open MoE, +40 % infer efficiency |
| 3 | Claude Opus 4.7 | Anthropic | 7,48T | ↑197 % | 1M β | Flagship agents & vision |
| 4 | Claude Sonnet 4.6 | Anthropic | 7,45T | ↑34 % | 200K/1M | Сбалансированный production |
| 5 | Owl Alpha | OpenRouter | 5,03T | ↑>999 % | 1,05M | $0 agent experiments |
| 6 | Gemini 3 Flash | 4,6T | ↑3 % | 1M+ | Multimodal, низкая latency | |
| 7 | DeepSeek V4 Pro | DeepSeek | 4,54T | ↑739 % | 1M | Flagship MoE coding |
| 8 | DeepSeek V3.2 | DeepSeek | 4,31T | ↓14 % | 128K | Хвост прошлого поколения |
| 9 | Kimi K2.6 | Moonshot | 3,72T | ↑1 % | 256K | Agent Swarm orchestration |
| 10 | Nemotron 3 Super | NVIDIA | 2,65T | ↑3 % | 1M | Free open high throughput |
| Сценарий | Primary | Fallback | Input $/M (approx) |
|---|---|---|---|
| Высокочастотный API | DeepSeek V4 Flash | Nemotron 3 Super (free) | ~0,10 / 0 |
| Длинные автономные агенты | Claude Opus 4.7 | Kimi K2.6 | 5,00 / self-host |
| Multimodal docs | Gemini 3 Flash | Claude Opus 4.7 | 0,50 / 5,00 |
| Private MoE deploy | Hy3 Preview | DeepSeek V4 Pro | self-hosted |
DeepSeek V4 Flash (284B total, 13B active MoE) сжимает KV cache до ~7 % от V3.2 при 1M контекста и поддерживает XML-style tool calls — де-факто стандарт в Claude Code и OpenClaw. Hy3 Preview — 74,4 % SWE-bench Verified. Kimi K2.6 масштабируется до 300 sub-agents и 4 000 coordination steps. Stealth/free вроде Owl Alpha — только прототипы без чувствительных данных в prompt.
Шесть LLM-трендов 2026: контекст, open MoE, агенты и free tier
1M context — норма: Целые repo и книги в окне; RAG сжимается для части workload, compute толкает MoE.
Китайские open models глобально: Около пяти мест Top 10 из Китая, часто MIT/Apache — рост 700 %+.
Агенты важнее chat score: Gemini 3 Flash — 78 % SWE-bench Verified, обгоняет Pro-линейку на coding agents.
MoE побеждает: Dense frontier уходит с chart; Nemotron смешивает Mamba + Transformer до 7,5× throughput vs peers.
Free tier ломает pricing: Owl Alpha и Nemotron (free) при $0 заставляют Claude/Gemini расширять free quota и caching (~90 % на repeat input у Gemini).
Multimodal обязателен: Text-only теряют долю; Opus vision (~3,75 MP) vs полный multimodal input у Gemini.
Agent frameworks сходятся к стабильным tool schemas: в production измеряют retry rate и параллельные sub-agent runs, а не только качество прозы. Тренд 2 открывает self-host open weights на bare metal — при наличии inference и ops.
Шестишаговый runbook выбора модели для production routing
Task profile: Теги Q&A, long doc, multi-step agent, multimodal; среднее число tool calls на run.
Hard constraints: Исключить Stealth-training models при PII; Hy3/DeepSeek/Nemotron weights при обязательном self-hosting.
Трёхуровневые routes: Draft (V4 Flash / free) → production (Sonnet 4.6 / Gemini 3 Flash) → escalation (Opus 4.7 / V4 Pro).
Context budget: Provider caching выше 200K при повторных чтениях; не гонять full-repo loops на Opus по умолчанию.
Host soak test: 24 ч на dedicated Mac с Cursor Agent и openclaw doctor; tokens/min и retry rate.
Quarterly review: Перечитывать сдвиги OpenRouter; 5 % shadow traffic семь дней после flagship launch до cutover.
curl https://openrouter.ai/api/v1/chat/completions \
-H "Authorization: Bearer $OPENROUTER_API_KEY" \
-d '{"model":"deepseek/deepseek-v4-flash","messages":[{"role":"user","content":"Review @src/..."}]}'
Разделяйте API keys по tier и ротируйте после каждого quarterly review. Документируйте, какие inference endpoints получают prompt и пути repo до exposure клиентских данных.
Три цитируемые метрики — и зачем агентам cloud Mac host
Эффективность V4 Flash: ~10 % FLOPs на token vs V3.2 при 1M; KV cache ~7 % (vendor technical report).
Opus 4.7 long runs: ~вдвое ниже agent «lost» rate vs Sonnet 4.6 за ~1 ч; CursorBench 70 % vs Sonnet 58 %.
Разрыв open vs closed: Порядка 3–7 месяцев и сужается с DeepSeek R1 — закупку смотреть ежеквартально.
Выбор модели фиксирует intelligence per dollar, но агентам нужен always-on macOS host. Sleep ломает LaunchAgents; 16 ГБ ноутбуки свопят при dev servers, browser automation и мелких local models. Разброс API keys по личным машинам даёт OAuth drift и port conflicts.
Аренда bare-metal Mac Mini M4 MESHLAUNCH — единый jump box для OpenRouter, Claude и DeepSeek routes: dedicated Apple Silicon, pinned macOS, SSH для .cursor и OpenClaw Gateway, переносимое состояние при offboarding. Цены аренды, центр помощи по регионам и сети; trial — оформить заказ.
OpenRouter — оплаченный production traffic; benchmarks — lab ceiling. Комбинируйте оба, затем shadow A/B на своём repo.
V4 Flash — cost-sensitive long-context repo reads. Sonnet 4.6 — строже instruction following и vision. Сравнение side-by-side через оформить заказ на cloud Mac.
Минимум ежеквартально по OpenRouter и счёту. Host issues — центр помощи.