OpenRouter-Rangliste Mai 2026: China 52% Token vs. Anthropic 46% Umsatz — Stratifizierter LLM-Wettbewerb und OpenClaw-Multi-Modell-Routing-Entscheidungsmatrix
Drei Ranglisten auf OpenRouter erzählen drei verschiedene Geschichten. Chinesische Anbieter verarbeiten inzwischen 52 Prozent der Token. Anthropic verbucht 46 Prozent des Umsatzes auf nur 12 Prozent Token-Anteil. Dieser Leitfaden überträgt diese Zahlen in eine konkrete Multi-Modell-Routing-Matrix für OpenClaw-Gateways auf Remote-Mac-Knoten.
1. Drei Zahlen, die den Mai 2026 prägen
Zunächst muss man verinnerlichen, dass OpenRouter drei verschiedene Ranglisten publiziert. Jede bewertet eine andere Frage und belohnt eine andere Strategie. Erst diese Trennung erlaubt eine seriöse Diskussion über Marktanteile.
- Token-Rangliste. Xiaomi MiMo-V2-Pro liegt mit mehr als 4,65 Billionen Token pro Woche an der Spitze. Anthropic Sonnet 4.6 folgt auf Platz zwei, Alibaba Qwen 3.6 Plus auf Platz drei. Volumen ist die Lieblingskennzahl von Anbietern, die über Preis konkurrieren.
- Umsatz-Rangliste. Anthropic verbucht 46,3 Prozent des Plattformumsatzes. OpenAI folgt mit 24,2 Prozent. Die gesamte chinesische Flotte kommt zusammengenommen auf etwa 13 Prozent. Umsatz ist die Lieblingskennzahl von Anbietern, die über Qualität konkurrieren.
- SWE-bench Verified. GPT-5.5 führt mit 88,7 Prozent, Claude Opus 4.7 mit 87,6 Prozent, Gemini 3.1 Pro und DeepSeek V4 Pro liegen gleichauf bei 80,6 Prozent, Kimi K2.6 und MiniMax M2.5 bei 80,2 Prozent. Code ist die Lieblingskennzahl von Teams, die Agenten bauen.
2. Token vs. Umsatz: die strukturelle Schere
Der Token-Anteil von Anthropic ist binnen eines Jahres von 25 Prozent auf 12 Prozent gefallen, während der Umsatzanteil auf 46,3 Prozent gestiegen ist. Google verzeichnet einen ähnlichen Pfad: Token-Anteil von 37 Prozent auf 13 Prozent, absoluter Umsatz dennoch weiter gestiegen. Der Mechanismus ist Preissetzungsmacht. Opus 4.6 wird mit fünf US-Dollar Eingabe und fünfundzwanzig US-Dollar Ausgabe pro Million Token berechnet und erzielt etwa 22,58 Millionen US-Dollar Umsatz pro Monat auf zweiundzwanzig der Top-zwanzig-Apps. Sonnet 4.6 verbucht 19,65 Millionen US-Dollar bei drei zu fünfzehn US-Dollar. MiMo-V2-Pro generiert trotz 5,5 Billionen Token nur 7,68 Millionen US-Dollar bei einem gemischten Preis von etwa eineinhalb US-Dollar pro Million.
Die Lehre lautet, eine einzelne Rangliste nicht als Urteil zu lesen. Der Markt schichtet sich, statt sich zu entscheiden. Eine Premiumspur und eine Volumenspur sind entstanden. Beide wachsen. Verschiedene Spuren belohnen verschiedene Kennzahlen. Ein pragmatisches Team nutzt beide, statt einen Sieger zu küren.
Aus deutscher und europäischer Perspektive kommt eine zusätzliche Schicht hinzu: Die DSGVO verlangt eine dokumentierte Rechtsgrundlage, Auftragsverarbeitungsverträge und eine bewusste Wahl des Verarbeitungsorts. Wer ausschließlich auf die günstigste API setzt, ohne die rechtliche Spur zu prüfen, baut sich technische Schuld auf, die spätestens bei der ersten Auditierung sichtbar wird. Eine Routing-Matrix sollte deshalb in jeder Zeile auch die regulatorische Eignung des Anbieters notieren.
Bedenken Sie auch, dass der Gesamtmarkt im Jahresvergleich um etwa das Elffache gewachsen ist. In einem so rasch expandierenden Markt bedeutet ein stabiler Prozentanteil ein stark steigendes absolutes Volumen. Anthropic und Google sind absolut beide gewachsen, obwohl sie relativ Anteile verloren haben. Das ist der Grund, warum die jeweiligen Engineering-Teams weiterhin schneller liefern als die öffentliche Erzählung vermuten lässt.
3. Die chinesische Siegerformel
Vor einem Jahr hielten Modelle chinesischen Ursprungs 15 Prozent der Plattform, und nahezu der gesamte Anteil entfiel auf DeepSeek. Bis Mai 2026 hat die Gruppe 52 Prozent überschritten, wobei fünf Anbieter eigene Spuren ziehen:
- Xiaomi MiMo-V2-Pro. Aggressive kostenlose Promotion, hoher Durchsatz, ein US-Dollar Eingabe und drei US-Dollar Ausgabe. Geeignet für Retrieval-Augmented-Generation, Stapelverarbeitung und Embedding-Pipelines.
- Alibaba Qwen 3.6 Plus. Eine hybride Mixture-of-Experts-Architektur, die in siebenundzwanzig der dreißig größten OpenRouter-Anwendungen vorkommt. Der pragmatische Allzweck-Fallback für kostensensitive Produktion.
- DeepSeek V4 Pro. Reasoning-Spezialist mit 80,6 Prozent auf SWE-bench Verified zu 0,435 US-Dollar Eingabe und 0,87 US-Dollar Ausgabe. Rund dreißigmal günstiger als Opus für nahezu vergleichbare Coding-Leistung.
- Moonshot Kimi K2.6. Ein Modell mit 128K Kontext und stabilen langfristigen Agenten-Verhalten. SWE-bench Verified 80,2 Prozent zu 0,75 und 3,50 US-Dollar pro Million. Geeignet für repository-weite Refactorings und mehrstufige Coding-Schleifen.
- MiniMax M2.5. Multimodale Kreativausgabe bei 0,30 US-Dollar Eingabe und 1,20 US-Dollar Ausgabe. Ausgezeichnet für Marketing-, Zusammenfassungs- und leichte Bildverarbeitungsaufgaben.
4. SWE-bench Verified: Leistung durch Ausgabepreis
Die Benchmark-Rangliste sortiert Modelle nach Genauigkeit, aber die Rechnung eines Coding-Agenten wird von Output-Token dominiert. Der ehrliche Vergleich teilt Genauigkeit durch Ausgabepreis pro Million Token. GPT-5.5 liefert rund 2,96, Claude Opus 4.7 etwa 3,50, Gemini 3.1 Pro etwa 6,72, Kimi K2.6 etwa 22,9 und DeepSeek V4 Pro etwa 92,6. Die gleiche Agentenschleife verändert die monatliche Rechnung damit um eine ganze Größenordnung, abhängig vom gewählten Modell.
Diese Rechnung ist kein Argument, Spitzenmodelle fallen zu lassen. Sie ist ein Argument, sie sorgfältig zu routen. Verwenden Sie Opus oder GPT-5.5 für die Planungsschritte, die über den Erfolg eines Agenten entscheiden, und übergeben Sie die langen ausgabelastigen Phasen an ein günstigeres Quasi-Spitzenmodell. OpenClaw exponiert diese Wahl über Skill-Metadaten, sodass die Architekturentscheidung neben dem Prompt lebt und nicht in einem separaten Router versteckt ist.
Der härtere Benchmark SWE-bench Pro ordnet die Tabelle ebenfalls neu. Kimi K2.6 erreicht dort 58,6 Prozent, mehr als GPT-5.4 mit 57,7 Prozent. Eine derartige Inversion ist genau der Grund, warum ein Portfolio-Ansatz robuster ist als die Festlegung auf einen einzelnen Anbieter. Die durchschnittliche Leistung im leichten Benchmark sagt nichts über das schwere Ende der Verteilung, und Ihr produktiver Agent wird das schwere Ende früher oder später treffen.
Für deutsche Teams kommt eine pragmatische Beobachtung hinzu. Viele Kunden verlangen vertraglich eine maximale Verarbeitungszeit pro Anfrage. Wenn Sie diese Latenz nicht in der Routing-Matrix berücksichtigen, kann ein günstiges Fallback-Modell vertragliche Service Level verletzen, obwohl es technisch funktioniert. Notieren Sie daher in jeder Zeile zusätzlich zu Genauigkeit und Preis auch die typische Antwortlatenz in den relevanten Regionen.
5. Drei Szenarien mal drei Bereitstellungspfade
| Szenario | Primäres Modell | Fallback-Kette | Empfohlener Pfad |
|---|---|---|---|
| Kostenextrem (Batch-RAG) | DeepSeek V4 Flash 0,14 / 0,28 | MiniMax M2.5, MiMo-V2-Pro | OpenRouter direkt mit Auto-Fallback |
| Coding-Extrem (Agenten) | Claude Opus 4.7 oder GPT-5.5 | Gemini 3.1 Pro, DeepSeek V4 Pro | Offizieller Direktzugang plus OpenRouter |
| Langer Kontext plus Multimodal | Gemini 3.1 Pro mit 1M Kontext | Claude Sonnet 4.6, Kimi K2.6 | Direkt Google plus lokales Ollama |
| DSGVO-sensibel oder offline | Lokales Ollama mit Qwen oder DeepSeek | Konforme offizielle API | Remote Mac 7x24 mit Gateway-Allowlist |
6. OpenClaw-Routing in der Praxis
Übersetzen Sie die Matrix in eine tatsächliche Konfiguration. Setzen Sie das primäre Modell unter agents.defaults, listen Sie eine preisaufsteigende Fallback-Kette unter fallbacks, und teilen Sie cliBackends so auf, dass kurze interaktive Aufrufe keine Warteschlange mit langen Batch-Jobs teilen. Eine typische Einrichtung:
openclaw config set agents.defaults.model "anthropic/claude-opus-4.7"
openclaw config set agents.defaults.fallbacks \
"openrouter/gemini-3.1-pro,openrouter/deepseek-v4-pro,openrouter/kimi-k2.6"
openclaw gateway restart
openclaw channels status --probe
openclaw doctor
OpenClaw läuft die Kette automatisch bei 429-Ratenbegrenzungen, Kontext-Überlauf und Anbieter-Timeouts entlang. Lesen Sie das detaillierte Incident-Playbook in Kanal online aber stumm (429), die xAI-Grok- und Kurzzeit-Token-Einrichtung in v2026.5.19 Bereitstellungsleitfaden und den lokalen Ollama-Hybridansatz in OpenClaw-Installationsfehlerbehebung.
Eine kleine operative Disziplin zahlt sich binnen Wochen aus. Loggen Sie den Provider-Übergang bei jedem Fallback und visualisieren Sie die Rate erzwungener Wiederholungen stündlich. Eine Spitze geht jedem sichtbaren Ausfall in der Regel zehn bis zwanzig Minuten voraus, und diese Vorwarnung reicht, um das primäre Modell vor einem kundensichtbaren Vorfall zu wechseln. Paaren Sie das Diagramm mit einer synthetischen Sonde, die jedes Modell in der Kette mit geringem Volumen ausübt, damit eine stille Regression auf einem Backup-Modell nicht erst dann sichtbar wird, wenn das primäre bereits ausgefallen ist.
Ein praktischer Hinweis sei ergänzt. Die Ausgabe-Token-Obergrenze, nicht das Eingabekontextfenster, wird in einer Agentenschleife oft zum versteckten Engpass. Wenn ein Fallback-Modell eine kleinere Obergrenze hat als das primäre, schließt der Agent den Planungsschritt auf dem primären Modell ab, verkürzt den finalen Patch jedoch auf dem Backup. Setzen Sie ein explizites schrittweises maxOutputTokens und lassen Sie den Router ein Modell wählen, das diese Obergrenze einhalten kann.
7. Risiken und die Remote-Mac-Brücke
Drei vorausschauende Risiken sollten heute in die Fallback-Kette eingepreist werden:
- Kostenlose Stufen schließen. Die Aktionen von Xiaomi und Qwen sind nicht dauerhaft. Halten Sie ein zweites chinesisches Modell und einen westlichen Anker in jeder Kette bereit, damit eine einzelne Richtlinienänderung Ihre Agenten nicht strandet.
- Datensouveränität. Bevor Nutzertext die Box verlässt, begrenzen Sie
workspaceAccesspro Geschäftsbereich und bevorzugen Sie Anmeldedaten pro Umgebung statt globaler Schlüssel. Für DSGVO-relevante Daten dokumentieren Sie die Verarbeitungskette in jedem Modellsprung. - Anbieterbindung. Verschieben Sie API-Schlüssel in
SecretRef, parametrisieren Sie Modell-ID und -Version und üben Sie eine Dreißig-Sekunden-Wechselübung, damit ein Ausfall nicht zu einem Vorfall wird.
8. Häufige Fragen
Erhebt OpenRouter einen Aufschlag gegenüber offiziellen APIs? Die meisten Modelle liegen preisparitätisch oder innerhalb von fünf Prozent über der offiziellen Liste. Die Plattform verdient ihren Aufschlag, indem sie die Kosten mehrerer Abrechnungskonten und die Engineering-Kosten anbieterübergreifender Wiederholungen entfernt.
Kann lokales Ollama Cloud-Modelle für ernsthafte Arbeit ersetzen? Ein gut abgestimmtes 32B-quantisiertes Modell liegt auf SWE-bench Verified noch etwa fünfzehn bis zwanzig Punkte hinter den Spitzen-Cloud-Modellen. Der Kompromiss ist für interne Werkzeuge, Offline-Batch-Jobs und sensible Daten akzeptabel, reine Cloud bleibt jedoch bei den schwersten Aufgaben schneller.
Unterstützt OpenClaw automatischen Anbieter-Failover nativ? Ja. Ab Version 2026.4 wiederholt das Gateway entlang der fallbacks-Kette und das Gateway-Log protokolliert den exakten Anbieter-Übergang, was Post-Mortems vereinfacht.
Wie häufig sollte die Routing-Matrix überprüft werden? Eine monatliche Überprüfung im Takt der jeweiligen Preisbekanntmachungen und eine vierteljährliche Benchmark-Aktualisierung sind für die meisten Teams ausreichend. Befördern Sie ein Fallback nur dann zur primären Wahl, wenn drei aufeinanderfolgende Wochen synthetischer Sonden Parität oder bessere Werte zeigen, und nur nachdem die Last in einer Staging-Umgebung mit realistischer Latenz- und Kosten-Telemetrie wiedergespielt wurde.
Wie passt das Ganze zu europäischen Vergaberichtlinien? Die meisten öffentlichen Vergaben fordern Anbieterdiversifizierung und nachvollziehbare Exit-Pläne. Ein dokumentiertes Multi-Modell-Routing mit aktiven Fallback-Ketten ist daher nicht nur betrieblich, sondern auch vertraglich ein Vorteil und erleichtert Audits gegenüber öffentlichen Auftraggebern wie auch internen Compliance-Funktionen erheblich.
9. Fazit: Vom Modell-Wählen zum Modell-Verwalten und zurück zum 7x24-Knoten
Das eigentliche Signal aus OpenRouters Mai-2026-Tafel lautet weder dass China gewonnen noch dass Anthropic verloren hat. Das Signal lautet, dass sich der Markt großer Sprachmodelle in zwei koexistierende Spuren aufgespalten hat. Eine Premiumspur zahlt weiterhin für Spitzenqualität. Eine Volumenspur absorbiert weiterhin Volumen bei nahezu null Marge. Jedes ernsthafte Team braucht eine Portfoliostrategie statt einer einzelnen Wette, und OpenClaws Multi-Provider-Routing macht aus dieser Strategie aus einer Folie eine Konfigurationsdatei.
Eine Routing-Matrix löst jedoch nur die Software-Seite des Problems. Sie kann einen Laptop nicht wach halten, wenn der Deckel zuklappt, einen Windows-Host nicht am Schlafen hindern oder einen VPS mit wenig Arbeitsspeicher nicht davor bewahren, vom Kernel beendet zu werden, gerade wenn die Fallback-Kette ihren sichersten Eintrag erreicht. Die Hardware-Schicht zählt, weil die sorgfältigste Wiederholung nur hilft, wenn das Gateway im Moment der Wiederholung lebt. Das Hosten des Gateways, der Anmeldedaten, des Arbeitsbereichs und der SFTP-Synchronisationsbasis auf einem stromstabilen und netzwerkstabilen macOS-Knoten verwandelt einen stratifizierten Routing-Plan in stratifizierte Verfügbarkeit. SFTPMAC-Remote-Mac-Mieten liefern auf OpenClaw und OpenRouter abgestimmte Apple-Silicon-Knoten: native launchd-Überwachung, latenzarme Kanalrückrufe und eine Betriebsbasis, die sauber an die xAI-Grok-Integration, das 429-Incident-Playbook und die Gateway-Restart-Leitfäden anschließt. Behandeln Sie sie als die Produktionsbasis, die Ihre Portfoliostrategie auch einen echten Ausfall überstehen lässt.