OpenRouter май 2026 стратифицированная конкуренция LLM и маршрутизация мультимоделей OpenClaw на удалённом Mac

Рейтинг OpenRouter май 2026: Китай 52% токенов против Anthropic 46% выручки — стратифицированная конкуренция LLM и матрица решений маршрутизации мультимоделей OpenClaw

Три рейтинга OpenRouter рассказывают три разных истории. Китайские поставщики теперь обрабатывают 52% токенов. Anthropic собирает 46% выручки при доле токенов всего 12%. Это руководство превращает цифры в конкретную матрицу маршрутизации мультимоделей для шлюзов OpenClaw на удалённых Mac-нодах, ориентированную на инженеров платформы и техлидов агентских пайплайнов.

1. Три числа, определяющие май 2026

Первое, что нужно усвоить: OpenRouter публикует три различных рейтинга, и каждый поощряет свой вопрос. Только это разделение позволяет вести содержательный разговор о долях рынка без вульгаризации.

  1. Рейтинг по токенам. Xiaomi MiMo-V2-Pro на первом месте с более чем 4,65 триллиона токенов в неделю. Sonnet 4.6 от Anthropic на втором, Qwen 3.6 Plus от Alibaba на третьем. Объём — любимая метрика тех, кто конкурирует по цене.
  2. Рейтинг по выручке. Anthropic забирает 46,3% выручки платформы. OpenAI следует с 24,2%. Весь китайский флот вместе набирает примерно 13%. Выручка — любимая метрика тех, кто конкурирует по качеству.
  3. SWE-bench Verified. GPT-5.5 лидирует с 88,7%, Claude Opus 4.7 с 87,6%, Gemini 3.1 Pro и DeepSeek V4 Pro делят третье место с 80,6%, Kimi K2.6 и MiniMax M2.5 с 80,2%. Код — любимая метрика тех, кто строит агентов.

2. Токены против долларов: структурные ножницы

Доля токенов Anthropic упала с 25% год назад до 12% сегодня, тогда как доля выручки выросла до 46,3%. Google прошёл похожий путь: доля токенов с 37% до 13%, абсолютная выручка при этом росла. Механизм — ценовая власть. Opus 4.6 стоит 5 долларов на входе и 25 долларов на выходе за миллион токенов и приносит около 22,58 миллиона долларов в месяц на двадцати двух из топ-двадцати приложений. Sonnet 4.6 показывает 19,65 миллиона долларов при 3 на 15. MiMo-V2-Pro при обработке 5,5 триллиона токенов даёт лишь 7,68 миллиона долларов при смешанной цене около 1,50 доллара за миллион.

Урок прост: перестаньте читать один рейтинг как приговор. Рынок расслаивается, а не выбирает сторону. Премиальная полоса и товарная полоса разделились. Обе выросли. Разные полосы поощряют разные метрики. Прагматичная команда использует обе, а не определяет победителя.

С российской и евразийской перспективы добавляется ещё один фактор: задержка между провайдером и оконечной точкой и валютный риск при оплате. Если матрица маршрутизации не учитывает физическую географию точек присутствия и стабильность курса оплаты, выбранный по цене резервный канал может срабатывать слишком медленно или внезапно подорожать в локальной валюте. Записывайте в каждой строке матрицы не только цену, но и регион размещения, среднюю RTT-задержку из своих ЦОД и план оплаты на квартал вперёд.

Учтите также, что общий объём рынка вырос примерно в одиннадцать раз за двенадцать месяцев. На рынке, который расширяется так быстро, стабильный процентный показатель означает резкий рост абсолютного объёма. Anthropic и Google в абсолютном выражении выросли, теряя при этом относительную долю, поэтому их инженерные команды продолжают выпускать релизы быстрее, чем это выглядит в публичных нарративах.

3. Китайская формула победы

Год назад модели китайского происхождения держали 15% платформы, и почти всё принадлежало DeepSeek. К маю 2026 кластер преодолел 52%, и пять поставщиков вырезают разные полосы:

  • Xiaomi MiMo-V2-Pro. Агрессивные бесплатные акции, сырая пропускная способность, доллар на входе и три на выходе. Идеально для RAG, пакетной обработки документов и пайплайнов эмбеддингов.
  • Alibaba Qwen 3.6 Plus. Гибридная архитектура mixture-of-experts, присутствует в двадцати семи из тридцати топовых приложений OpenRouter. Прагматичный универсальный резерв для нагрузки, чувствительной к цене.
  • DeepSeek V4 Pro. Специалист по рассуждениям с 80,6 процента на SWE-bench Verified за 0,435 доллара на входе и 0,87 на выходе. Примерно в тридцать раз дешевле Opus при сопоставимой пропускной способности для кода.
  • Moonshot Kimi K2.6. Модель со 128K контекстом и стабильным поведением долгих агентов. SWE-bench Verified 80,2 процента при 0,75 и 3,50 доллара. Полезна для рефакторингов в масштабе всего репозитория и многошаговых циклов кодирования.
  • MiniMax M2.5. Мультимодальный творческий вывод при 0,30 доллара на входе и 1,20 на выходе. Отлично подходит для маркетинга, реферирования и лёгкой обработки изображений.

4. SWE-bench Verified: способность делить на цену вывода

Рейтинг бенчмарка сортирует модели по точности, но счёт агента-кодера определяется выходными токенами. Честное сравнение делит точность на цену вывода за миллион токенов. GPT-5.5 даёт примерно 2,96, Claude Opus 4.7 около 3,50, Gemini 3.1 Pro около 6,72, Kimi K2.6 около 22,9, DeepSeek V4 Pro около 92,6. Тот же цикл агента на той же задаче меняет месячный счёт на порядок в зависимости от выбранной модели.

Эта арифметика — не аргумент против фронтирных моделей. Это аргумент за их аккуратную маршрутизацию. Используйте Opus или GPT-5.5 на шагах планирования, определяющих успех агента, и передавайте длинные выходные фазы более дешёвой почти-фронтирной модели. OpenClaw делает этот выбор через метаданные скиллов, и архитектурное решение живёт рядом с промптом, а не спрятано в отдельном маршрутизаторе.

Более сложный бенчмарк SWE-bench Pro также перестраивает таблицу. Kimi K2.6 получает 58,6%, что выше GPT-5.4 с 57,7%. Такая инверсия — именно та причина, по которой портфельный подход устойчивее, чем привязка к одному поставщику. Средняя производительность на лёгком бенчмарке не предсказывает тяжёлый хвост распределения, а ваш продуктивный агент рано или поздно встретит этот хвост.

5. Три сценария на три пути развёртывания

Сценарий Основная модель Цепочка резервов Рекомендуемый путь
Экстрим по цене (пакет) DeepSeek V4 Flash 0,14 / 0,28 MiniMax M2.5, MiMo-V2-Pro OpenRouter напрямую с авто-резервом
Экстрим по коду (агенты) Claude Opus 4.7 или GPT-5.5 Gemini 3.1 Pro, DeepSeek V4 Pro Прямой официальный, OpenRouter как сетка
Длинный контекст и мультимодал Gemini 3.1 Pro 1M контекста Claude Sonnet 4.6, Kimi K2.6 Прямой Google и локальный Ollama
Чувствительный или офлайн Локальный Ollama с Qwen или DeepSeek Соответствующее официальное API Удалённый Mac 7x24 с белым списком

6. Маршрутизация OpenClaw на практике

Переведите матрицу в реальную конфигурацию. Задайте основную модель в agents.defaults, перечислите цепочку резервов по возрастанию цены в fallbacks, и разделите cliBackends так, чтобы короткие интерактивные вызовы не делили очередь с длинными пакетными задачами. Типичная установка:

openclaw config set agents.defaults.model "anthropic/claude-opus-4.7"
openclaw config set agents.defaults.fallbacks \
  "openrouter/gemini-3.1-pro,openrouter/deepseek-v4-pro,openrouter/kimi-k2.6"
openclaw gateway restart
openclaw channels status --probe
openclaw doctor

OpenClaw автоматически проходит цепочку при 429, переполнении контекста и таймаутах провайдера. Подробный плейбук инцидентов читайте в Канал онлайн но молчит (429), настройку xAI Grok и короткоживущих токенов — в Руководстве по развёртыванию v2026.5.19, гибридный подход с локальным Ollama — в Устранение неполадок установки OpenClaw.

Небольшая операционная дисциплина окупается за недели. Логируйте переход провайдера на каждом резерве и стройте график частоты вынужденных повторов по часам. Пик обычно опережает видимый сбой на десять-двадцать минут, и этого предупреждения достаточно, чтобы заранее переключить основную модель до видимого клиентам инцидента. Совместите график с синтетическим зондом, который малыми объёмами испытывает каждую модель в цепочке, чтобы тихая регрессия резерва не всплыла лишь в момент падения основной.

Ещё одно практическое замечание. Лимит выходных токенов, а не окно входного контекста, часто становится скрытым узким местом цикла агента. Если у резервной модели лимит меньше, чем у основной, агент завершит шаг планирования на основной, а финальный патч обрежет на резерве. Добавьте явный по-шаговый maxOutputTokens и позвольте маршрутизатору выбрать модель, способную уважать этот потолок.

На уровне платформы Apple Silicon важно помнить о деталях, которые редко всплывают в общих обзорах. Apple-чипы M3 Ultra и M4 Pro отдают Metal-пропускную способность памяти, которая для квантизованного 70B-инференса сопоставима с энтерпрайз-GPU при дробной цене ватта. Это делает Mac-ноды экономически разумным выбором для гибридной маршрутизации: облако для тяжёлых фронтирных запросов, локальный Ollama на Apple Silicon для предобработки промптов и для оффлайн-копии словаря векторов. Маршрутизатор OpenClaw различает оба пути через тег provider, и инженер платформы может задавать политику разделения нагрузки точно по этому полю.

Для команд, эксплуатирующих собственную сеть удалённых Mac-нод, имеет смысл явно фиксировать целевую RTT-задержку до OpenRouter и до каждого прямого провайдера. Эмпирически разница между ближайшим к ЦОД OpenRouter-узлом и обходным маршрутом через посредника может достигать 80-120 мс на запрос, что для длинной агентской цепочки превращается в секунды накладных. Зафиксируйте этот бюджет на этапе проектирования матрицы, и резервные модели не будут проигрывать SLA только из-за географии.

7. Риски и мост к удалённому Mac

Три перспективных риска стоит заложить в цепочку резервов уже сегодня:

  1. Бесплатные тарифы закроются. Промоакции Xiaomi и Qwen не вечны. Держите вторую китайскую модель и западный якорь в каждой цепочке, чтобы одно изменение политики не оставило агентов без хода.
  2. Суверенитет данных. Прежде чем пользовательский текст покинет машину, ограничьте workspaceAccess по линиям бизнеса и предпочитайте per-environment credentials глобальным ключам. Для регулируемого трафика документируйте цепочку обработки на каждом скачке.
  3. Привязка к поставщику. Переведите API-ключи в SecretRef, параметризуйте идентификатор модели и её версию, отрепетируйте тридцатисекундное переключение, чтобы сбой не превратился в инцидент.

8. Часто задаваемые вопросы

Взимает ли OpenRouter надбавку поверх официальных API? Большинство моделей идут по паритетной цене или в пределах пяти процентов выше официального прайс-листа. Платформа зарабатывает свою маржу, устраняя расходы на ведение множества биллинговых аккаунтов и инженерные расходы на кросс-провайдерные повторы.

Может ли локальный Ollama заменить облачные модели для серьёзной работы? Хорошо настроенная квантизованная 32B-модель отстаёт от облачных флагманов на SWE-bench Verified примерно на пятнадцать-двадцать пунктов. Компромисс приемлем для внутренних инструментов, офлайн-пакетов и чувствительных данных, но чистое облако остаётся быстрее на самых тяжёлых задачах.

Поддерживает ли OpenClaw автоматический фейловер провайдеров нативно? Да. С версии 2026.4 шлюз повторяет вниз по цепочке fallbacks, а лог шлюза записывает точный переход провайдера, что упрощает разбор инцидентов.

Как часто пересматривать матрицу маршрутизации? Ежемесячный обзор, синхронизированный с тарифными уведомлениями поставщиков, и ежеквартальное обновление бенчмарков достаточны большинству команд. Повышайте резерв до основного только после трёх недель синтетических зондов с паритетом или лучше.

Какой набор метрик минимально достаточен для эксплуатации? Для каждой записи в цепочке держите четыре показателя: процент успешных ответов за окно в пять минут, медианную задержку до первого токена, среднюю стоимость завершённого запроса и долю отказов из-за переполнения контекста. Эти четыре числа описывают качество, скорость, экономику и устойчивость и закрывают почти все вопросы дежурной смены без необходимости заходить в логи.

9. Вывод: от выбора модели к управлению моделями и обратно к 7x24-ноде

Настоящий сигнал из майской таблицы OpenRouter 2026 не в том, что Китай победил, и не в том, что Anthropic проиграл. Сигнал в том, что рынок больших языковых моделей разделился на две сосуществующие полосы. Премиальная полоса продолжает платить за фронтирное качество. Товарная полоса продолжает поглощать объём при почти нулевой марже. Любой серьёзной команде нужна портфельная стратегия, а не одна ставка, и мультипровайдерная маршрутизация OpenClaw превращает эту стратегию из слайда в конфигурационный файл.

Однако матрица маршрутизации решает только программную часть задачи. Она не удержит ноутбук в активном состоянии при закрытии крышки, не помешает Windows-хосту уснуть, не спасёт VPS с малой памятью от убийства ядром именно тогда, когда цепочка резервов добирается до самого безопасного узла. Аппаратный слой важен, потому что самый тщательно подготовленный повтор помогает только в том случае, если шлюз жив в момент повтора. Размещение шлюза, учётных данных, рабочего пространства и базы синхронизации SFTP на стабильном по питанию и сети узле macOS превращает стратифицированный план маршрутизации в стратифицированную доступность. Аренда удалённого Mac SFTPMAC предлагает узлы Apple Silicon, настроенные для OpenClaw и OpenRouter: нативный надзор launchd, низкая задержка обратных вызовов каналов и операционная база, которая чисто стыкуется с интеграцией xAI Grok, плейбуком инцидентов 429 и руководствами по перезапуску шлюза. Рассматривайте их как продуктивный субстрат, позволяющий вашей портфельной стратегии пережить первую настоящую аварию.