OpenRouter mai 2026 compétition stratifiée des LLM et routage multi-modèles OpenClaw sur Mac distant

Classement OpenRouter mai 2026 : Chine 52% Tokens vs Anthropic 46% Revenus — Compétition stratifiée des LLM et matrice décisionnelle de routage multi-modèles OpenClaw

Trois classements sur OpenRouter racontent trois histoires différentes. Les fournisseurs chinois traitent désormais 52% des tokens. Anthropic capte 46% des revenus avec une part de tokens de seulement 12%. Ce guide transforme ces nombres en une matrice concrète de routage multi-modèles pour les passerelles OpenClaw hébergées sur des Mac distants, pensée pour les studios créatifs, les laboratoires d'innovation et les équipes produit qui orchestrent des agents.

1. Trois nombres qui définissent mai 2026

La première chose à intérioriser est que OpenRouter publie trois classements distincts, chacun récompensant une question différente. C'est précisément cette distinction qui rend la lecture du marché honnête.

  1. Classement par tokens. Xiaomi MiMo-V2-Pro domine avec plus de 4,65 trillions de tokens hebdomadaires. Sonnet 4.6 d'Anthropic occupe la deuxième place, Qwen 3.6 Plus d'Alibaba la troisième. Le volume est la métrique préférée des fournisseurs qui se battent sur le prix.
  2. Classement par revenus. Anthropic capte 46,3% du chiffre d'affaires de la plateforme. OpenAI suit avec 24,2%. La flotte chinoise toute entière n'atteint qu'environ 13%. Le revenu est la métrique préférée des fournisseurs qui se battent sur la qualité.
  3. SWE-bench Verified. GPT-5.5 mène avec 88,7%, Claude Opus 4.7 avec 87,6%, Gemini 3.1 Pro et DeepSeek V4 Pro à égalité à 80,6%, Kimi K2.6 et MiniMax M2.5 à 80,2%. Le code est la métrique préférée des équipes qui construisent des agents.

2. Tokens et revenus : un écart en ciseau structurel

La part de tokens d'Anthropic est passée de 25% il y a un an à 12% aujourd'hui, tandis que sa part de revenus a grimpé à 46,3%. Google a suivi un chemin similaire : part de tokens de 37% à 13%, mais revenu absolu toujours en croissance. Le mécanisme est le pouvoir tarifaire. Opus 4.6 se facture à cinq dollars en entrée et vingt-cinq dollars en sortie par million de tokens, et rapporte environ 22,58 millions de dollars par mois sur vingt-deux des vingt premières applications. Sonnet 4.6 enregistre 19,65 millions de dollars à trois sur quinze. MiMo-V2-Pro, malgré ses 5,5 trillions de tokens, ne génère que 7,68 millions de dollars à un prix mélangé de 1,50 dollar par million.

La leçon est de cesser de lire un classement isolé comme un verdict. Le marché se stratifie au lieu de choisir. Une voie premium et une voie volume se sont séparées. Les deux ont crû. Chaque voie récompense des indicateurs différents. Une équipe pragmatique utilise les deux plutôt que de désigner un vainqueur.

Pour les studios créatifs et les agences européennes, une dimension supplémentaire s'ajoute : la dignité de l'œuvre et la traçabilité des contenus. Lorsque les pipelines orchestrent à la fois rédaction, génération visuelle et synthèse vocale, la matrice de routage doit aussi mémoriser quel modèle a produit quelle sortie. Cette discipline éditoriale facilite les futures retouches, protège les droits d'auteur et donne aux directeurs artistiques un journal de bord lisible.

Notez également que le marché total a été multiplié par environ onze en douze mois. Dans un marché qui s'élargit à cette vitesse, conserver un pourcentage stable signifie une croissance absolue forte. Anthropic et Google ont tous deux progressé en valeur absolue tout en perdant de la part relative, ce qui explique pourquoi leurs équipes continuent à publier plus vite que ne le laisse entendre la narration publique.

3. La formule chinoise de la victoire

Il y a un an, les modèles d'origine chinoise détenaient 15% de la plateforme, presque exclusivement portés par DeepSeek. En mai 2026, l'ensemble dépasse 52%, et cinq fournisseurs creusent des voies distinctes :

  • Xiaomi MiMo-V2-Pro. Promotion gratuite agressive, débit brut, un dollar en entrée et trois en sortie. Idéal pour la génération augmentée par recherche, le traitement par lots et les pipelines d'embeddings.
  • Alibaba Qwen 3.6 Plus. Architecture hybride à mixture d'experts présente dans vingt-sept des trente plus grandes applications OpenRouter. Le repli généraliste pragmatique pour la production sensible au coût.
  • DeepSeek V4 Pro. Spécialiste du raisonnement obtenant 80,6 pour cent sur SWE-bench Verified pour 0,435 dollar en entrée et 0,87 dollar en sortie. Environ trente fois moins cher qu'Opus pour des performances de codage quasi-frontière.
  • Moonshot Kimi K2.6. Modèle à contexte de cent vingt-huit mille tokens et comportement agentique stable sur le long terme. SWE-bench Verified 80,2 pour cent à 0,75 et 3,50 dollars par million. Utile pour les refactorings à l'échelle du dépôt.
  • MiniMax M2.5. Production multimodale créative à 0,30 dollar en entrée et 1,20 dollar en sortie. Excellent pour le marketing, la synthèse et les charges de vision légères.

4. SWE-bench Verified : capacité divisée par prix de sortie

Le classement des benchmarks ordonne les modèles par précision, mais la facture d'un agent de code est dominée par les tokens de sortie. La comparaison honnête divise la précision par le prix de sortie au million de tokens. GPT-5.5 renvoie environ 2,96, Claude Opus 4.7 environ 3,50, Gemini 3.1 Pro environ 6,72, Kimi K2.6 environ 22,9, et DeepSeek V4 Pro environ 92,6. La même boucle d'agent réalisant la même tâche fait alors varier la facture mensuelle d'un ordre de grandeur entier selon le modèle retenu.

Ce calcul n'est pas un argument pour abandonner les modèles de pointe. C'est un argument pour les router avec discernement. Utilisez Opus ou GPT-5.5 pour les étapes de planification qui déterminent la réussite de l'agent, puis confiez les phases longues riches en sortie à un modèle moins coûteux mais quasi-frontière. OpenClaw expose ce choix via les métadonnées de skill, de sorte que la décision d'architecture vit à côté de l'invite plutôt que d'être enfouie dans un routeur séparé.

Le benchmark plus difficile, SWE-bench Pro, réordonne également le tableau. Kimi K2.6 y obtient 58,6%, soit plus que GPT-5.4 à 57,7%. Ce type d'inversion est exactement la raison pour laquelle une approche de portefeuille est plus robuste qu'un engagement mono-fournisseur. La performance moyenne sur le benchmark facile ne prédit pas la queue difficile, et votre agent de production rencontrera tôt ou tard cette queue difficile.

5. Trois scénarios par trois chemins de déploiement

Scénario Modèle principal Chaîne de repli Chemin recommandé
Coût extrême (lot) DeepSeek V4 Flash 0,14 / 0,28 MiniMax M2.5, MiMo-V2-Pro OpenRouter direct avec repli automatique
Codage extrême (agents) Claude Opus 4.7 ou GPT-5.5 Gemini 3.1 Pro, DeepSeek V4 Pro API officielle directe, OpenRouter en filet
Long contexte plus multimodal Gemini 3.1 Pro à 1M de contexte Claude Sonnet 4.6, Kimi K2.6 Google direct plus Ollama local
Sensible ou hors ligne Ollama local avec Qwen ou DeepSeek API officielle conforme Mac distant 7x24 avec liste blanche

6. Routage OpenClaw en pratique

Traduisez la matrice en configuration réelle. Définissez le modèle principal sous agents.defaults, listez une chaîne de repli ascendante par prix sous fallbacks, et séparez cliBackends afin que les appels courts et interactifs ne partagent pas la file des longs traitements par lots. Une configuration typique :

openclaw config set agents.defaults.model "anthropic/claude-opus-4.7"
openclaw config set agents.defaults.fallbacks \
  "openrouter/gemini-3.1-pro,openrouter/deepseek-v4-pro,openrouter/kimi-k2.6"
openclaw gateway restart
openclaw channels status --probe
openclaw doctor

OpenClaw parcourt automatiquement la chaîne en cas de 429, de débordement de contexte et de temps morts de fournisseur. Consultez le manuel d'incident détaillé dans Canal en ligne mais silencieux (429), l'intégration xAI Grok et les tokens éphémères dans Guide de déploiement v2026.5.19, et l'approche hybride Ollama dans Dépannage installation OpenClaw.

Une discipline opérationnelle légère porte ses fruits en quelques semaines. Tracez la transition de fournisseur à chaque repli, puis visualisez le taux de réessais forcés à l'heure. Un pic précède généralement chaque panne visible de dix à vingt minutes, et cet avertissement précoce suffit pour basculer le modèle principal avant un incident visible par les clients. Associez le graphique à une sonde synthétique qui exerce chaque modèle de la chaîne à faible volume, afin qu'une régression silencieuse sur un modèle de secours ne se révèle pas au moment où le principal tombe.

Une note pratique additionnelle. Le plafond de tokens de sortie, plutôt que la fenêtre de contexte d'entrée, devient souvent le goulot caché d'une boucle d'agent. Lorsqu'un modèle de repli possède un plafond inférieur au principal, l'agent peut terminer l'étape de planification sur le principal puis tronquer le correctif final sur le secours. Ajoutez un maxOutputTokens explicite par étape et laissez le routeur choisir un modèle capable d'honorer ce plafond.

7. Risques et passerelle Mac distant

Trois risques à anticiper doivent être intégrés dès aujourd'hui dans la chaîne de repli :

  1. Les paliers gratuits fermeront. Les promotions de Xiaomi et Qwen ne sont pas permanentes. Conservez un second modèle chinois et un ancrage occidental dans chaque chaîne afin qu'un seul changement de politique ne laisse pas vos agents en perdition.
  2. Souveraineté des données. Avant que tout texte utilisateur ne quitte la machine, restreignez workspaceAccess par ligne métier et préférez des justificatifs par environnement plutôt que des clés globales. Pour les contenus créatifs sous droits, conservez une trace écrite du fournisseur traversé.
  3. Verrouillage fournisseur. Déplacez les clés API vers SecretRef, paramétrez l'identifiant et la version du modèle, et répétez un exercice de bascule de trente secondes pour qu'une panne ne devienne pas un incident.

8. Questions fréquentes

OpenRouter facture-t-il une marge par rapport aux API officielles ? La plupart des modèles sont à parité de prix ou à cinq pour cent au-dessus de la liste officielle. La plateforme gagne sa marge en supprimant le coût de gestion de plusieurs comptes de facturation et le coût d'ingénierie des reprises inter-fournisseurs.

Ollama local peut-il remplacer les modèles cloud pour un travail sérieux ? Un modèle quantifié 32B bien réglé reste à environ quinze à vingt points en dessous des modèles cloud de pointe sur SWE-bench Verified. Le compromis est acceptable pour les outils internes, les travaux par lots hors ligne et les données sensibles, mais le cloud pur demeure plus rapide sur les tâches les plus difficiles.

OpenClaw prend-il en charge nativement le basculement automatique entre fournisseurs ? Oui. À partir de la version 2026.4, la passerelle réessaie le long de la chaîne fallbacks et le journal de passerelle enregistre la transition exacte de fournisseur, ce qui simplifie les post-mortems.

À quelle fréquence revoir la matrice de routage ? Une revue mensuelle calée sur les annonces tarifaires des fournisseurs et un rafraîchissement trimestriel des benchmarks suffisent à la plupart des équipes. Ne promouvez un repli au rang de principal qu'après trois semaines consécutives de sondes synthétiques à parité ou supérieures.

9. Conclusion : du choix du modèle à sa gouvernance, et au nœud 7x24

Le véritable signal du tableau OpenRouter de mai 2026 n'est ni la victoire de la Chine ni la défaite d'Anthropic. Le signal est que le marché des grands modèles de langage s'est scindé en deux voies coexistantes. Une voie premium continue de payer pour la qualité de pointe. Une voie volume continue d'absorber le volume à marge quasi nulle. Toute équipe sérieuse a besoin d'une stratégie de portefeuille plutôt que d'un pari unique, et le routage multi-fournisseur d'OpenClaw transforme cette stratégie d'une diapositive en un fichier de configuration.

Une matrice de routage ne résout cependant que le côté logiciel du problème. Elle ne peut pas garder un portable réveillé lorsque le capot se referme, empêcher un hôte Windows de se mettre en veille, ni sauver un VPS à faible mémoire d'être tué par le noyau juste au moment où la chaîne de repli atteint son entrée la plus sûre. La couche matérielle compte parce que la reprise la plus soignée n'aide que si la passerelle est vivante au moment de la reprise. Héberger la passerelle, les justificatifs, l'espace de travail et la base de synchronisation SFTP sur un nœud macOS stable en alimentation et en réseau transforme un plan de routage stratifié en disponibilité stratifiée. La location de Mac distant SFTPMAC fournit des nœuds Apple Silicon réglés pour OpenClaw et OpenRouter : supervision launchd native, rappels de canaux à faible latence, et une base opérationnelle qui s'articule proprement avec l'intégration xAI Grok, le manuel d'incident 429 et les guides de redémarrage de passerelle référencés ci-dessus. Traitez-les comme le substrat de production qui permet à votre stratégie de portefeuille de survivre à sa première vraie panne.