ベンチマーク表と課金スループット——本番採用を映すのはどちらか
結論から言えば、本番ルーティングの判断には週次課金データの方が実態に近いです。OpenRouterは300超のモデルを60超のプロバイダーから束ね、800万以上のユーザーにサービスを提供し、月間およそ100兆トークンを処理しています。リーダーボードは7日間ローリングの入出力トークン合計で順位付けするため、自己申告スコアではなく実際の有料利用量が反映されます。
ベンチマークの盲点:スコアが高くても API が不安定だったり単価が極端に高いモデルは、トラフィックが急速に他へ移ります。静的ランキングはその移行を捉えられません。
課金の正直さ:すべてのトークンは計算コストと支出に直結します。スループットは市場が採用をどう評価しているかの体温計です。
Agent 時代の転換:OpenRouter と a16z の 2025 AI Usage Report(100兆トークンの匿名データ)によれば、ベンチマークスコアと市場シェアはほぼ逆相関に近い傾向があります。チームはコストと API 安定性を優先するようになっています。
ユースケース構成の変化:コーディング用途は 2025 年初頭の約11%から50%超へと拡大し、最大の単一カテゴリーになりました。これが DeepSeek の週次首位を説明する背景です。
プラットフォームの週次ボリュームは一年前の約2.4Tから、5月18日〜24日の28.9Tへと伸び、年間でおよそ12倍の急拡大を遂げています。週次の観測窓の重要性はかつてないほど高まっています。
OpenRouter 週次統計の読み方:5月18日〜24日の28.9Tを解読する
openrouter.ai/rankingsでは四つの軸が重要です。週次トークン合計、モデル別順位、プロバイダー市場シェア、そしてドル収益シェア対トークンシェアの組み合わせです。後者は単価差による「二重の真実」を露わにします。直近の完全週の概要は次のとおりです。
| 指標 | 値 | 前週比 | 読み取り |
|---|---|---|---|
| 全世界週次トークン | 28.9T | +7.4% | 5週連続の週次増加 |
| 中国発モデル | 9.223T | +19.89% | 全世界平均を上回る伸び |
| 米国発モデル | 4.93T | +16.27% | 絶対量は増加、シェアは低下 |
| 中国対米国の順位 | 中国が4週連続1位 | — | 2026年2月に初めて米国を逆転 |
| 時期 | 中国発モデルのトラフィックシェア | 備考 |
|---|---|---|
| 2025年初頭 | < 2% | 無視できる水準 |
| 2026年2月 | 米国を初逆転 | 転換点 |
| 2026年5月 | 約45%超 | 4週連続で首位維持 |
トークンスループットは技術指標から商業バロメーターへと昇格しました。投資家も開発者もメディアも、同じ週次チャートに票を投じています。
5月18日〜24日 Top 10:DeepSeek 三モデルマトリクスが主導権を握る
DeepSeek の三バリアントが Top 9 に入りました。シリーズ合計は5.74T トークン(前週比+25.9%)で、プロバイダー単位では Anthropic と Google を2週連続で上回っています。
| # | モデル | ベンダー | 週次トークン | 前週比 | 役割 |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek | 3.43T | +66% | Agent 既定、超低単価 |
| 2 | Tencent Hy3 Preview | Tencent | 3.07T | +16% | 無料枠終了後の伸長 |
| 3 | Claude Sonnet 4.6 | Anthropic | 1.35T | — | 100万コンテキスト、企業向けコーディング |
| 4 | DeepSeek-V3.2 | DeepSeek | 1.31T | — | 低単価ロングテール |
| 5 | Owl Alpha | OpenRouter | 1.15T | +29% | 無料 Agent 特化 |
| 6 | Gemini 3 Flash Preview | 1.06T | — | マルチモーダル、学術用途 | |
| 7 | DeepSeek-V4-Pro | DeepSeek | 1.00T | — | 旗艦(シリーズ合計5.74T) |
| 8 | MiniMax M2.7 | MiniMax | 806B | — | 長コンテキストのコスパ |
| 9 | Grok 4.1 Fast | xAI | 721B | — | 200万コンテキスト、法務ワークフロー |
| 10 | Step 3.5 Flash | StepFun | 673B | — | 高速バッチ処理 |
三層構造が見えてきます。高単価・低ボリューム(Claude Opus による複雑な企業推論)、中単価・中ボリューム(Gemini Flash によるマルチモーダル)、超低単価・高ボリューム(DeepSeek、MiniMax、StepFun による Agent とバッチ処理)です。Anthropic のプレミアム矛盾もここに表れます。トークンシェアは約12%(一年前の25%から低下)なのに対し、ドル収益シェアは約46%を維持しています。Claude Opus 4.6 単体で月間およそ2,500万ドルの収益を生みながら、DeepSeek のトークン量のほんの一部しか動かしていません。
補足:Kimi K2.6 は前週6位だったものの、今週は Top 10 から脱落しました。V4-Pro のボリュームはシリーズ合計5.74Tから V4-Flash と V3.2 を差し引いて算出しています。OpenRouter 公開データと2026年5月25日付の報道を照合済みです。
六ステップ Runbook:週次ランキングを追跡しルーティングを調整する
固定サイクル:毎週月曜に openrouter.ai/rankings を開き、7日間の順位とプロバイダーシェアをスクリーンショットで社内アーカイブします。
自社請求との照合:OpenRouter または各ベンダーの請求書をエクスポートします。トークン構成が全世界週次ランキングと大きく乖離しているなら、ルーティングが古い可能性があります。
タスク階層で振り分け:Agent とバッチ処理は DeepSeek-V4-Flash、複雑な企業推論は Claude Opus、マルチモーダルは Gemini Flash へ。
新規参入を監視:Hy3 Preview や Owl Alpha の急伸は、次の既定モデルの前兆になりがちです。5%の Shadow トラフィックで A/B テストを行います。
トークンと収益シェアを分離:高トークン・低収益モデルは安価にスケールでき、高収益モデルはクリティカルパスに限定します。
安定ホストに固定:ノート PC のスリープで OAuth 更新が途切れたり、並列 dev サーバーでメモリが逼迫すると、ルーティング設計は紙切れになります。Gateway は24時間稼働のクラウド Macに載せ、週次レビューを SOP に組み込みます。
週次チャートを支える三つの引用可能な数値
年間12倍の成長:週次プラットフォームボリュームは約2.4Tから28.9Tへ拡大しました。報道ベースの26倍 PS評価を踏まえると、週次チャートは AI 商用化の中核指標になりつつあります。
コーディングが過半:コーディング用途は OpenRouter トラフィックの50%超(2025年初頭は約11%)を占め、V4-Flash の週次3.43T首位を説明します。Agent はピーク推論スコアより単価経済性を優先しています。
中国・米国逆転の速度:中国発シェアは18か月未満で2%未満から約45%超へ急伸しました。オープンで超低単価の API が全世界の呼び出しパターンを塗り替えています。
注意:週次数値は日々変動します。本稿は2026-05-24時点のデータを使用しています。Owl Alpha のような無料モデルはプロトタイプ向けです。本番投入前にプライバシー条項を確認してください。
個人 Mac でマルチモデル Agent ルーティングを回すと、スリープによる切断、並列 dev サーバーによるメモリ圧迫、OAuth 更新失敗が頻発します。VPS には Xcode や iOS CI に必要なネイティブ Apple Silicon がありません。24時間 Gateway 稼働、並列 dev サーバー、多地域 API ルーティングを求めるなら、MESHLAUNCH クラウド Mac mini レンタルが本番向けの選択肢になります。専用 Apple Silicon、日次・週次・月次の柔軟な契約で、週次 OpenRouter レビューと運用を一つのループに閉じられます。
ベンチマークは上限性能を測り、週次ランキングは有料スループットを追跡します。両方を参照しつつ、市場の方向性は課金データに従うのが現実的です。Agent ホストの選択は料金ページをご覧ください。
V4-Flash を Agent の既定ルーターに、V4-Pro を旗艦コーディングに、V3.2 を低単価ロングテールに割り当てます。シリーズ合計5.74Tが API Key のクォータ配分の目安になります。並列検証には注文ページからクラウド Mac を借りるのが早いです。
毎週月曜に請求書と照合し、大型モデル公開後7日以内に5% Shadow トラフィックで比較することを推奨します。ホスト関連の問題はヘルプセンターをご確認ください。