Недельный рейтинг токенов OpenRouter и визуализация billing data LLM май 2026

2026 OpenRouter Недельный рейтинг токенов: данные счетов, Agent-routing и матрица удалённого Mac

За неделю 18–24 мая 2026 OpenRouter обработал 28,9 триллиона токенов — пятый рост подряд. DeepSeek V4 Flash лидирует с 3,43T, Tencent Hy3 Preview3,07T. Китайские модели: 9,223T, США: 4,93T — четвёртая неделя преимущества Китая. Разбор с фокусом на throughput, MoE-архитектуру и production routing; пять шагов OpenClaw и матрица размещения gateway на удалённом Mac Apple Silicon.

1. Billing data vs benchmark: что измеряет production

OpenRouter агрегирует 300+ моделей за единым API endpoint и пропускает ~100T токенов в месяц. Недельный рейтинг сортирует по фактически списанным и бесплатно consumed token, а не по self-reported MMLU. Это единственный публичный датасет, где каждый вызов — measurable event с привязкой к cost.

Год назад weekly throughput был ~2,4T. Сейчас 28,9T — рост ~12×. Это не hype curve: это migration от demo-chatbot к persistent agent loops, CI-integrated LLM steps и batch inference с sustained QPS.

SWE-bench Verified и HumanEval фиксируют ceiling quality под controlled conditions. Рейтинг OpenRouter отвечает на другой вопрос: «Какой model ID реально грузит ваш pipeline при заданном $/1M tokens?» Для platform engineer'а первый metric — latency p99 под parallel tool calls; второй — aggregate token burn rate. Benchmark даёт upper bound; billing data даёт operating point.

Отчёт OpenRouter + a16z «State of AI Usage 2025» фиксирует inverse correlation: высокий benchmark score часто не совпадает с market share. MoE-модели с aggressive price/throughput ratio доминируют в agent layer — не потому что они «умнее», а потому что они дешевле на единицу полезного output в tight loop с dozens of round-trips.

Hardcore вывод: если ваш routing table построен только на leaderboard MMLU, вы оптимизируете wrong objective function. Production objective — minimize cost subject to quality SLA, где SLA определяется вашим use case, а не academic benchmark suite.

2. Источник данных и методология подсчёта

Все цифры — из публичного рейтинга openrouter.ai/rankings. OpenRouter агрегирует API calls всех registered users, разделяет paid/free tiers, публикует weekly token volume per model, provider share by country и split token share vs dollar revenue share.

Cutoff date: 2026-05-24. Рейтинг обновляется continuously — для ops decisions сверяйте live data каждый понедельник. Week-over-week growth rates — trend indicator, не forecast конкретного vendor.

Три caveat при интерпретации. One: free models (Owl Alpha) inflate volume hobby/prototype traffic — weak signal для enterprise SLA. Two: direct Anthropic/Google contracts не полностью visible в OpenRouter stats. Three: tokenizer differences — сравнивайте models within same platform, не absolute cross-platform token counts.

Несмотря на limits, альтернатив с comparable transparency нет. Marketing claims не проходят billing filter — только sustained API load.

3. 28,9T недельной нагрузки и CN/US split

Metric Value WoW
Global weekly tokens 28,9T +7,4% (5th consecutive rise)
China-origin models 9,223T +19,89%
US-origin models 4,93T +16,27%
CN vs US rank China leads 4th week Share: <2% early 2025 → 45%+ May 2026

CN/US split — structural shift, не weekly noise. С начала 2025 доля chinese open-source models на OpenRouter росла с <2% до 45%+. MoE architectures (DeepSeek, Tencent Hy3, MiniMax M2.7, StepFun 3.5 Flash) дают high throughput при fraction of Opus pricing — developers vote API keys.

Для infra teams важен не только geopolitical narrative, а latency path: routing через OpenRouter aggregator добавляет hop; direct region placement vs remote Mac gateway location влияет на p99 не меньше, чем model choice. Китайские models дешевле на token — но network RTT до вашего gateway остаётся вашей problem.

Оба блока растут: CN +19,89%, US +16,27% WoW. Total addressable agent load расширяется быстрее, чем vendors теряют share — signal mass adoption, не zero-sum cannibalization.

4. Top10: DeepSeek matrix и MoE-throughput

Rank Model Vendor Weekly tokens Tech profile
1 DeepSeek-V4-Flash DeepSeek (CN) 3,43T (+66%) Agent default, min $/token, MoE flash path
2 Tencent Hy3 Preview Tencent (CN) 3,07T (+16%) Post-free-tier sustained growth
3 Claude Sonnet 4.6 Anthropic (US) 1,35T 1M context, enterprise coding SLA
4 DeepSeek-V3.2 DeepSeek (CN) 1,31T Long-tail, roleplay load
5 Owl Alpha OpenRouter 1,15T (+29%) Free tier, agent-specialized
6–10 Gemini 3 Flash / V4-Pro / MiniMax M2.7 / Grok 4.1 Fast / Step 3.5 Flash Google / DeepSeek / MiniMax / xAI / StepFun 673B–1,06T Multimodal, flagship, long ctx, legal, batch

DeepSeek — three SKUs in top nine, series total ~5,74T (+25,9%). Single vendor owns agent throughput layer. Kimi K2.6 выпал из top ten за неделю — static model pinning опасен; weekly re-read обязателен.

V4-Flash +66% WoW — indicator aggressive adoption в tool-calling loops, где каждый agent step генерирует multi-K token context replay. Hy3 +16% после end of free tier — production signal, не promo spike.

Sonnet 4.6 на #3 — US enterprise coding path остаётся; million-token context window снижает need for aggressive truncation, но price per token выше на порядок. Layered routing: Flash для volume, Sonnet/Opus для escalation.

5. Три anti-pattern при выборе модели

  1. Benchmark-only routing на Opus everywhere: SWE-bench peak не оправдывает million-token daily burn в agent loops. Вы платите за lab ceiling, не за operating point.
  2. Free tier в production с secrets: Owl Alpha и stealth models могут log prompts. Source code с credentials, PII — не на free routes без documented DPA.
  3. Model chosen, gateway unstable: OpenClaw на sleeping laptop = zero effective throughput независимо от ranking accuracy. Model selection и infra — coupled optimization problem.

Эти anti-patterns видим на каждом architecture review. Fix: weekly sync ranking data + compliance matrix + gateway health probe в одном runbook.

6. Token share vs revenue share: dual metric

Layer Example Token profile Revenue profile
High value, low volume Claude Opus ~12% token share (was 25% year ago) ~46% revenue share
Mid cost, mid volume Gemini Flash Stable multimodal/research Mid price band
Min price, max volume DeepSeek / MiniMax / StepFun Agent, coding, batch dominate High tokens, low dollar %

Anthropic premium paradox: Opus ~$25M monthly revenue при token volume на порядки ниже DeepSeek. Ranking измеряет call frequency under price constraints — не raw intelligence. CFO смотрит revenue layer; platform engineer — token burn rate. Оба нужны в routing spreadsheet.

Practical: двумерная OpenClaw routing table — column A cost/token для agent volume, column B quality reserve для Opus/Sonnet escalation. Single-column table → budget explosion или quality bottleneck.

7. Programming >50%: сдвиг workload profile

OpenRouter/a16z usage report: programming tasks выросли с ~11% до 50%+ platform workloads. Объясняет co-leadership V4-Flash и Sonnet 4.6 — same domain (code), different points на cost-quality Pareto frontier.

DevOps implication: explicit split по coding scenarios — inline completion, PR review, agent tool-loop, batch refactor. Каждый scenario — different latency SLA и token multiplier. Weekly ranking показывает market drift; fine-tuning per pipeline.

Programming dominance потому что OpenClaw, Cursor Agent, CI LLM steps run massively parallel с multi-million token context replay per task. Ignore это — underestimate bill до first production week.

8. Performance coupling: model + gateway + UMA

Model throughput на paper ≠ end-to-end agent throughput. Bottleneck chain: OpenRouter API RTT → gateway event loop → channel webhook → local tool execution → context re-injection. На Apple Silicon remote Mac UMA даёт zero-copy path между Neural Engine offload (если local model) и unified memory для large context buffers — но при pure API routing dominant factor остаётся gateway uptime и persistent workspace I/O.

launchd-managed gateway на remote Mac устраняет sleep-induced connection drop — типичный killer p99 latency для WeChat/Telegram channels. SFTP/rsync sync workspace без full re-clone после restart — сохраняет agent memory state на disk, снижает cold-start token replay.

Metal и ANE relevant когда вы mix local Ollama fallback с OpenRouter primary — hybrid routing на M-series даёт offline degrade path. Pure cloud-only setup всё равно выигрывает от macOS launchd persistence vs nohup на Linux VPS с OOM killer roulette.

Performance checklist: (1) gateway probe green 7×24; (2) fallback model pre-warmed in openclaw.json; (3) 429 handler без manual intervention; (4) workspace on fast APFS volume, не network mount с high latency.

Дополнительный ops metric — sustained tokens per hour (TPH) на gateway node: при agent loop с 20–40 round-trips на task и context replay 8K–32K tokens per step, weekly ranking top models (V4-Flash, Hy3) экономят не только $/1M, но и aggregate wall-clock time за счёт lower queue depth на OpenRouter side. Sonnet 4.6 остаётся reserve path для tasks, где truncation error дороже premium pricing.

На remote Mac с Apple Silicon unified memory agent workspace и gateway process co-locate без PCIe copy penalty — релевантно при hybrid setup (local Ollama smoke test + OpenRouter prod). Даже в pure cloud mode launchd KeepAlive снижает mean time to recovery после kernel patch reboot compared to manual SSH nohup на commodity VPS.

9. OpenClaw routing: пять шагов

  1. Weekly ranking track: каждый понедельник openrouter.ai/rankings — Top10, vendor shares, mark new entrants (Hy3, Owl Alpha).
  2. Task stratification: agent batch/tool loops → DeepSeek V4 Flash; complex enterprise inference → Claude Opus; multimodal/docs → Gemini Flash.
  3. openclaw.json: primary + fallback via SecretRef; OpenRouter IDs с provider prefix (deepseek/, anthropic/, google/).
  4. Persistent gateway на remote Mac: openclaw gateway install + launchd; workspace sync SFTP/rsync для consistent agent state across reboots.
  5. Greyscale + rollback: production channels после channels status --probe pass; auto-fallback на 429/rate limit.
openclaw doctor
openclaw channels status --probe

Пять шагов — repeatable ops loop. Связывает market observation с config drift control; предотвращает model decisions в vacuum без gateway validation.

10. Матрица remote Mac 7×24

Deploy target Fit Primary risk
Local laptop Solo ranking read, debug sessions Sleep kills gateway; no sustained agent QPS
Minimal Linux VPS Pure API relay, no Apple toolchain No Xcode/notarization; split pipeline from macOS builds
SFTPMAC remote Mac OpenClaw prod + build artifacts same host Directory permissions planning (see SFTP guides)

Matrix conclusion: model routing и deploy target — single decision. Weekly routing tune на sleeping laptop optimizes wrong variable. Apple Silicon remote Mac = launchd persistence + native toolchain + SFTP/rsync — combo that converts ranking data в measurable agent ROI.

На M-series UMA large context staging для local tools; Metal path для optional local inference fallback. Даже pure API setup выигрывает от macOS process supervision vs ephemeral VPS container restart loops.

11. FAQ

Отличие от июньского Top10 article? Этот — week 18–24 May, angle «billing doesn't lie». Июньский — multi-week structural trends.

DeepSeek permanent #1? V4-Pro price cut to 1/4 permanent — likely cements lead. Weekly track still mandatory.

Hy3/DeepSeek для PII? Depends on DPA и data classification. Technically fit agent volume; legal clearance separate.

Как weekly ranking correlates с local Metal inference? Ranking отражает cloud API load; local Ollama/MLX path не visible в OpenRouter stats. Hybrid teams используют ranking для primary cloud route и отдельный benchmark для on-device fallback — оба слоя должны быть в openclaw.json fallback chain.

12. Итог: vote billing data, deploy на always-on node

Week 21/2026 ranking proves: chinese open-source reshapes market via MoE cost efficiency; agents + programming = main battlefield; Anthropic captures premium где quality non-negotiable. Understand layering → better routing than benchmark-only readers.

Limit — ops, не model: laptop gateways и intermittent VPS не sustain weekly routing ritual. Long-running OpenClaw agents need 7×24 macOS node с synced workspaces.

SFTPMAC remote Mac — Apple Silicon hosting, launchd persistence, SFTP/rsync integration. Ranking-driven model choice должен land в production agent pipelines, не в architecture slides.