2026 OpenRouter Недельный рейтинг токенов: данные счетов, Agent-routing и матрица удалённого Mac
За неделю 18–24 мая 2026 OpenRouter обработал 28,9 триллиона токенов — пятый рост подряд. DeepSeek V4 Flash лидирует с 3,43T, Tencent Hy3 Preview — 3,07T. Китайские модели: 9,223T, США: 4,93T — четвёртая неделя преимущества Китая. Разбор с фокусом на throughput, MoE-архитектуру и production routing; пять шагов OpenClaw и матрица размещения gateway на удалённом Mac Apple Silicon.
1. Billing data vs benchmark: что измеряет production
OpenRouter агрегирует 300+ моделей за единым API endpoint и пропускает ~100T токенов в месяц. Недельный рейтинг сортирует по фактически списанным и бесплатно consumed token, а не по self-reported MMLU. Это единственный публичный датасет, где каждый вызов — measurable event с привязкой к cost.
Год назад weekly throughput был ~2,4T. Сейчас 28,9T — рост ~12×. Это не hype curve: это migration от demo-chatbot к persistent agent loops, CI-integrated LLM steps и batch inference с sustained QPS.
SWE-bench Verified и HumanEval фиксируют ceiling quality под controlled conditions. Рейтинг OpenRouter отвечает на другой вопрос: «Какой model ID реально грузит ваш pipeline при заданном $/1M tokens?» Для platform engineer'а первый metric — latency p99 под parallel tool calls; второй — aggregate token burn rate. Benchmark даёт upper bound; billing data даёт operating point.
Отчёт OpenRouter + a16z «State of AI Usage 2025» фиксирует inverse correlation: высокий benchmark score часто не совпадает с market share. MoE-модели с aggressive price/throughput ratio доминируют в agent layer — не потому что они «умнее», а потому что они дешевле на единицу полезного output в tight loop с dozens of round-trips.
Hardcore вывод: если ваш routing table построен только на leaderboard MMLU, вы оптимизируете wrong objective function. Production objective — minimize cost subject to quality SLA, где SLA определяется вашим use case, а не academic benchmark suite.
2. Источник данных и методология подсчёта
Все цифры — из публичного рейтинга openrouter.ai/rankings. OpenRouter агрегирует API calls всех registered users, разделяет paid/free tiers, публикует weekly token volume per model, provider share by country и split token share vs dollar revenue share.
Cutoff date: 2026-05-24. Рейтинг обновляется continuously — для ops decisions сверяйте live data каждый понедельник. Week-over-week growth rates — trend indicator, не forecast конкретного vendor.
Три caveat при интерпретации. One: free models (Owl Alpha) inflate volume hobby/prototype traffic — weak signal для enterprise SLA. Two: direct Anthropic/Google contracts не полностью visible в OpenRouter stats. Three: tokenizer differences — сравнивайте models within same platform, не absolute cross-platform token counts.
Несмотря на limits, альтернатив с comparable transparency нет. Marketing claims не проходят billing filter — только sustained API load.
3. 28,9T недельной нагрузки и CN/US split
| Metric | Value | WoW |
|---|---|---|
| Global weekly tokens | 28,9T | +7,4% (5th consecutive rise) |
| China-origin models | 9,223T | +19,89% |
| US-origin models | 4,93T | +16,27% |
| CN vs US rank | China leads 4th week | Share: <2% early 2025 → 45%+ May 2026 |
CN/US split — structural shift, не weekly noise. С начала 2025 доля chinese open-source models на OpenRouter росла с <2% до 45%+. MoE architectures (DeepSeek, Tencent Hy3, MiniMax M2.7, StepFun 3.5 Flash) дают high throughput при fraction of Opus pricing — developers vote API keys.
Для infra teams важен не только geopolitical narrative, а latency path: routing через OpenRouter aggregator добавляет hop; direct region placement vs remote Mac gateway location влияет на p99 не меньше, чем model choice. Китайские models дешевле на token — но network RTT до вашего gateway остаётся вашей problem.
Оба блока растут: CN +19,89%, US +16,27% WoW. Total addressable agent load расширяется быстрее, чем vendors теряют share — signal mass adoption, не zero-sum cannibalization.
4. Top10: DeepSeek matrix и MoE-throughput
| Rank | Model | Vendor | Weekly tokens | Tech profile |
|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek (CN) | 3,43T (+66%) | Agent default, min $/token, MoE flash path |
| 2 | Tencent Hy3 Preview | Tencent (CN) | 3,07T (+16%) | Post-free-tier sustained growth |
| 3 | Claude Sonnet 4.6 | Anthropic (US) | 1,35T | 1M context, enterprise coding SLA |
| 4 | DeepSeek-V3.2 | DeepSeek (CN) | 1,31T | Long-tail, roleplay load |
| 5 | Owl Alpha | OpenRouter | 1,15T (+29%) | Free tier, agent-specialized |
| 6–10 | Gemini 3 Flash / V4-Pro / MiniMax M2.7 / Grok 4.1 Fast / Step 3.5 Flash | Google / DeepSeek / MiniMax / xAI / StepFun | 673B–1,06T | Multimodal, flagship, long ctx, legal, batch |
DeepSeek — three SKUs in top nine, series total ~5,74T (+25,9%). Single vendor owns agent throughput layer. Kimi K2.6 выпал из top ten за неделю — static model pinning опасен; weekly re-read обязателен.
V4-Flash +66% WoW — indicator aggressive adoption в tool-calling loops, где каждый agent step генерирует multi-K token context replay. Hy3 +16% после end of free tier — production signal, не promo spike.
Sonnet 4.6 на #3 — US enterprise coding path остаётся; million-token context window снижает need for aggressive truncation, но price per token выше на порядок. Layered routing: Flash для volume, Sonnet/Opus для escalation.
5. Три anti-pattern при выборе модели
- Benchmark-only routing на Opus everywhere: SWE-bench peak не оправдывает million-token daily burn в agent loops. Вы платите за lab ceiling, не за operating point.
- Free tier в production с secrets: Owl Alpha и stealth models могут log prompts. Source code с credentials, PII — не на free routes без documented DPA.
- Model chosen, gateway unstable: OpenClaw на sleeping laptop = zero effective throughput независимо от ranking accuracy. Model selection и infra — coupled optimization problem.
Эти anti-patterns видим на каждом architecture review. Fix: weekly sync ranking data + compliance matrix + gateway health probe в одном runbook.
6. Token share vs revenue share: dual metric
| Layer | Example | Token profile | Revenue profile |
|---|---|---|---|
| High value, low volume | Claude Opus | ~12% token share (was 25% year ago) | ~46% revenue share |
| Mid cost, mid volume | Gemini Flash | Stable multimodal/research | Mid price band |
| Min price, max volume | DeepSeek / MiniMax / StepFun | Agent, coding, batch dominate | High tokens, low dollar % |
Anthropic premium paradox: Opus ~$25M monthly revenue при token volume на порядки ниже DeepSeek. Ranking измеряет call frequency under price constraints — не raw intelligence. CFO смотрит revenue layer; platform engineer — token burn rate. Оба нужны в routing spreadsheet.
Practical: двумерная OpenClaw routing table — column A cost/token для agent volume, column B quality reserve для Opus/Sonnet escalation. Single-column table → budget explosion или quality bottleneck.
7. Programming >50%: сдвиг workload profile
OpenRouter/a16z usage report: programming tasks выросли с ~11% до 50%+ platform workloads. Объясняет co-leadership V4-Flash и Sonnet 4.6 — same domain (code), different points на cost-quality Pareto frontier.
DevOps implication: explicit split по coding scenarios — inline completion, PR review, agent tool-loop, batch refactor. Каждый scenario — different latency SLA и token multiplier. Weekly ranking показывает market drift; fine-tuning per pipeline.
Programming dominance потому что OpenClaw, Cursor Agent, CI LLM steps run massively parallel с multi-million token context replay per task. Ignore это — underestimate bill до first production week.
8. Performance coupling: model + gateway + UMA
Model throughput на paper ≠ end-to-end agent throughput. Bottleneck chain: OpenRouter API RTT → gateway event loop → channel webhook → local tool execution → context re-injection. На Apple Silicon remote Mac UMA даёт zero-copy path между Neural Engine offload (если local model) и unified memory для large context buffers — но при pure API routing dominant factor остаётся gateway uptime и persistent workspace I/O.
launchd-managed gateway на remote Mac устраняет sleep-induced connection drop — типичный killer p99 latency для WeChat/Telegram channels. SFTP/rsync sync workspace без full re-clone после restart — сохраняет agent memory state на disk, снижает cold-start token replay.
Metal и ANE relevant когда вы mix local Ollama fallback с OpenRouter primary — hybrid routing на M-series даёт offline degrade path. Pure cloud-only setup всё равно выигрывает от macOS launchd persistence vs nohup на Linux VPS с OOM killer roulette.
Performance checklist: (1) gateway probe green 7×24; (2) fallback model pre-warmed in openclaw.json; (3) 429 handler без manual intervention; (4) workspace on fast APFS volume, не network mount с high latency.
Дополнительный ops metric — sustained tokens per hour (TPH) на gateway node: при agent loop с 20–40 round-trips на task и context replay 8K–32K tokens per step, weekly ranking top models (V4-Flash, Hy3) экономят не только $/1M, но и aggregate wall-clock time за счёт lower queue depth на OpenRouter side. Sonnet 4.6 остаётся reserve path для tasks, где truncation error дороже premium pricing.
На remote Mac с Apple Silicon unified memory agent workspace и gateway process co-locate без PCIe copy penalty — релевантно при hybrid setup (local Ollama smoke test + OpenRouter prod). Даже в pure cloud mode launchd KeepAlive снижает mean time to recovery после kernel patch reboot compared to manual SSH nohup на commodity VPS.
9. OpenClaw routing: пять шагов
- Weekly ranking track: каждый понедельник
openrouter.ai/rankings— Top10, vendor shares, mark new entrants (Hy3, Owl Alpha). - Task stratification: agent batch/tool loops → DeepSeek V4 Flash; complex enterprise inference → Claude Opus; multimodal/docs → Gemini Flash.
- openclaw.json: primary + fallback via SecretRef; OpenRouter IDs с provider prefix (
deepseek/,anthropic/,google/). - Persistent gateway на remote Mac:
openclaw gateway install+ launchd; workspace sync SFTP/rsync для consistent agent state across reboots. - Greyscale + rollback: production channels после
channels status --probepass; auto-fallback на 429/rate limit.
openclaw doctor
openclaw channels status --probe
Пять шагов — repeatable ops loop. Связывает market observation с config drift control; предотвращает model decisions в vacuum без gateway validation.
10. Матрица remote Mac 7×24
| Deploy target | Fit | Primary risk |
|---|---|---|
| Local laptop | Solo ranking read, debug sessions | Sleep kills gateway; no sustained agent QPS |
| Minimal Linux VPS | Pure API relay, no Apple toolchain | No Xcode/notarization; split pipeline from macOS builds |
| SFTPMAC remote Mac | OpenClaw prod + build artifacts same host | Directory permissions planning (see SFTP guides) |
Matrix conclusion: model routing и deploy target — single decision. Weekly routing tune на sleeping laptop optimizes wrong variable. Apple Silicon remote Mac = launchd persistence + native toolchain + SFTP/rsync — combo that converts ranking data в measurable agent ROI.
На M-series UMA large context staging для local tools; Metal path для optional local inference fallback. Даже pure API setup выигрывает от macOS process supervision vs ephemeral VPS container restart loops.
11. FAQ
Отличие от июньского Top10 article? Этот — week 18–24 May, angle «billing doesn't lie». Июньский — multi-week structural trends.
DeepSeek permanent #1? V4-Pro price cut to 1/4 permanent — likely cements lead. Weekly track still mandatory.
Hy3/DeepSeek для PII? Depends on DPA и data classification. Technically fit agent volume; legal clearance separate.
Как weekly ranking correlates с local Metal inference? Ranking отражает cloud API load; local Ollama/MLX path не visible в OpenRouter stats. Hybrid teams используют ranking для primary cloud route и отдельный benchmark для on-device fallback — оба слоя должны быть в openclaw.json fallback chain.
12. Итог: vote billing data, deploy на always-on node
Week 21/2026 ranking proves: chinese open-source reshapes market via MoE cost efficiency; agents + programming = main battlefield; Anthropic captures premium где quality non-negotiable. Understand layering → better routing than benchmark-only readers.
Limit — ops, не model: laptop gateways и intermittent VPS не sustain weekly routing ritual. Long-running OpenClaw agents need 7×24 macOS node с synced workspaces.
SFTPMAC remote Mac — Apple Silicon hosting, launchd persistence, SFTP/rsync integration. Ranking-driven model choice должен land в production agent pipelines, не в architecture slides.