Ist die OpenRouter-Wochenrangliste verlässlicher als SWE-bench?

Die Wochenrangliste spiegelt reale bezahlte und kostenlose API-Aufrufe wider und eignet sich für Budget- und Trendentscheidungen. SWE-bench misst Coding-Obergrenzen. Beide Tabellen gehören zusammen in die Entscheidungsmatrix; Abrechnungsdaten liegen näher an Ihren tatsächlichen Kosten.

Warum sinkt Anthropics Token-Anteil, während der Umsatzanteil hoch bleibt?

Claude Opus und Sonnet haben hohe Stückpreise; Unternehmen zahlen Premium für komplexe Inferenz. DeepSeek und ähnliche Anbieter tauschen extrem niedrige Preise gegen massives Agent-Volumen — eine Schere zwischen Token- und Umsatzanteil.

Wie oft soll OpenClaw-Routing nach Ranglistenänderungen angepasst werden?

Empfohlen wird ein wöchentliches Review. Primärmodelle müssen nicht jede Woche wechseln, aber neue Top-10-Einträge wie Hy3 oder Owl Alpha sollten als Graustufen-Kandidaten geprüft werden.

2026 OpenRouter Wöchentliche Token-Rankings: Abrechnungsdaten, Agent-Routing & Remote-Mac-Matrix

In der Kalenderwoche vom 18. bis 24. Mai 2026 verarbeitete OpenRouter weltweit 28,9 Billionen Token — der fünfte Anstieg in Folge. DeepSeek V4 Flash führte mit 3,43 Billionen, gefolgt von Tencent Hy3 Preview mit 3,07 Billionen. Chinesische Modelle erreichten 9,223 Billionen und übertrafen US-Modelle mit 4,93 Billionen zum vierten Mal in Folge. Dieser Leitfaden interpretiert die Wochenrangliste aus Sicht von Abrechnungsdaten, DSGVO und Betriebsstabilität und liefert eine OpenClaw-Routing-Matrix für produktive Agenten auf dauerhaft erreichbaren Remote Macs.

1. Warum Abrechnungsdaten ehrlicher sind als Benchmarks

OpenRouter bündelt über 300 Modelle hinter einer einheitlichen API und verarbeitet monatlich rund 100 Billionen Token. Die öffentliche Wochenrangliste sortiert nicht nach Marketingversprechen oder MMLU-Spitzenwerten, sondern nach tatsächlich abgerechneten und kostenlos verbrauchten Token. Wer Geld ausgibt oder produktive Workloads fährt, hinterlässt einen messbaren Spuren — und genau diese Spuren lesen wir in der KW 21/2026.

Vor einem Jahr lag das wöchentliche Plattformvolumen bei etwa 2,4 Billionen Token. Mit 28,9 Billionen in der Mai-Woche entspricht das einem Wachstum von rund zwölffachem auf Jahresbasis. Diese Größenordnung ist kein statistisches Rauschen: Sie spiegelt die Verlagerung von experimentellen Chatbots hin zu dauerhaften Agenten-Pipelines, CI-gestützten Code-Reviews und Batch-Inferenz in Unternehmen wider.

Benchmarks wie SWE-bench Verified oder HumanEval messen theoretische Obergrenzen unter kontrollierten Bedingungen. Sie beantworten die Frage: „Was kann ein Modell unter Laborbedingungen maximal leisten?“ Die OpenRouter-Rangliste beantwortet eine andere, für Budgetplaner relevantere Frage: „Was nutzen Teams, die jeden Tag Rechnungen bezahlen?“ In der Praxis entscheiden Architekten selten allein nach MMLU-Punkten — sie entscheiden nach Stückkosten pro Million Token, Latenz unter Last, Tool-Calling-Zuverlässigkeit und — in der EU — nach DSGVO-Konformität.

Für deutsche und europäische Teams bedeutet das: Die Rangliste liefert Marktdaten, die Sie in Ihre Architektur-Reviews einfließen lassen sollten, ohne sie blind zu kopieren. Ein Modell auf Platz eins ist nicht automatisch das richtige Modell für personenbezogene Gesundheitsdaten oder vertrauliche Quellcode-Repositories. Die Rangliste zeigt den Markt; Ihre Compliance-Matrix zeigt die Grenzen.

Der OpenRouter- und a16z-Bericht „State of AI Usage 2025“ dokumentiert zudem eine bemerkenswerte Umkehr: Benchmark-Scores und Marktanteile korrelieren oft invers. Modelle mit Spitzenwerten in akademischen Tests landen nicht automatisch oben in der Abrechnungsstatistik. Stattdessen dominieren kosteneffiziente MoE-Architekturen und speziell für Agenten optimierte Varianten — ein Signal, das produktionsnahe Teams ernst nehmen sollten.

2. Datenquelle und statistische Methodik

Alle Kennzahlen in diesem Artikel stammen aus der öffentlichen Rangliste unter openrouter.ai/rankings. OpenRouter aggregiert API-Aufrufe aller registrierten Nutzer und unterscheidet zwischen kostenpflichtigen und kostenlosen Modellen. Die Wochenstatistik erfasst Token-Volumen pro Modell, Anbieteranteile nach Herkunftsland sowie die Schere zwischen Token-Anteil und Umsatzanteil in US-Dollar.

Stichtag für die hier zitierten Werte ist der 24. Mai 2026. OpenRouter aktualisiert die Rangliste fortlaufend; für operative Entscheidungen empfehlen wir, die Live-Daten wöchentlich abzugleichen. Wachstumsraten beziehen sich auf Vorwochenvergleiche und dienen der Trendabschätzung, nicht der Prognose einzelner Anbieter.

Bei der Interpretation sollten Sie drei Einschränkungen kennen. Erstens: Kostenlose Modelle wie Owl Alpha können ihr Volumen durch Hobby-Entwickler und Prototypen überhöhen — das sagt wenig über Enterprise-Tauglichkeit aus. Zweitens: OpenRouter ist ein Aggregator; Nutzer mit direkten Anthropic- oder Google-Verträgen erscheinen nicht vollständig in der Statistik. Drittens: Token-Zählung variiert je nach Tokenizer — Vergleiche innerhalb einer Plattform sind valide, absolute Cross-Platform-Vergleiche erfordern Vorsicht.

Trotz dieser Grenzen bleibt die Wochenrangliste die transparenteste Quelle für Marktanteile im API-Zeitalter. Kein Anbieter kann seine Position dort dauerhaft durch Marketing kaufen — nur durch tatsächliche Nutzung.

3. 28,9 Billionen Wochen-Token und das China-USA-Gefälle

Kennzahl	Wert	Wochenvergleich
Globales Wochenvolumen	28,9 Billionen Token	+7,4 % (fünfter Anstieg in Folge)
Chinesische Modelle	9,223 Billionen Token	+19,89 %
US-Modelle	4,93 Billionen Token	+16,27 %
China vs. USA	China führt zum vierten Mal in Folge	Anteil stieg von unter 2 % Anfang 2025 auf über 45 %

Das China-USA-Verhältnis ist kein kurzfristiger Ausreißer. Seit Anfang 2025 wächst der Anteil chinesischer Open-Source-Modelle auf OpenRouter kontinuierlich — von marginalen unter 2 Prozent auf über 45 Prozent im Mai 2026. Entwickler stimmen mit API-Keys ab: MoE-Architekturen von DeepSeek, Tencent, MiniMax und StepFun liefern für Agenten-Workloads ausreichende Qualität zu Bruchteilen der Kosten westlicher Flaggschiff-Modelle.

Für europäische Architekten bedeutet das eine strategische Frage: Wollen Sie ausschließlich auf US-Anbieter setzen, akzeptieren Sie höhere Stückkosten und potenziell andere Datenverarbeitungsbedingungen. Wollen Sie chinesische Modelle einbinden, benötigen Sie eine dokumentierte Risikoanalyse unter DSGVO — insbesondere bei personenbezogenen Daten. Die Rangliste zeigt, dass der Markt chinesische Modelle massiv nutzt; die Compliance-Schicht entscheidet, ob das für Ihr Team zulässig ist.

Bemerkenswert ist auch das Wachstum beider Blöcke: China +19,89 % und USA +16,27 % Woche über Woche. Der Kuchen wächst schneller, als einzelne Anbieter Marktanteile verlieren — ein Zeichen für die anhaltende Agenten-Adoption in der Breite, nicht nur bei Early Adopters.

4. Top 10 der Woche und die DeepSeek-Matrix

Rang	Modell	Anbieter	Wochen-Token	Merkmal
1	DeepSeek-V4-Flash	DeepSeek (China)	3,43T (+66 %)	Agent-Standard, extrem niedriger Preis
2	Tencent Hy3 Preview	Tencent (China)	3,07T (+16 %)	Hohes Wachstum nach Testphase
3	Claude Sonnet 4.6	Anthropic (USA)	1,35T	Millionen-Kontext, Enterprise-Coding
4	DeepSeek-V3.2	DeepSeek (China)	1,31T	Langschwanz, Rollenspiel aktiv
5	Owl Alpha	OpenRouter	1,15T (+29 %)	Kostenlos, Agent-spezialisiert
6–10	Gemini 3 Flash / V4-Pro / MiniMax M2.7 / Grok 4.1 Fast / Step 3.5 Flash	Google / DeepSeek / MiniMax / xAI / StepFun	673B–1,06T	Multimodal, Flaggschiff, Langkontext, Recht, Batch

DeepSeek platzierte drei Varianten unter den Top neun; die Serie summiert sich auf etwa 5,74 Billionen Token (+25,9 %). Damit dominiert ein einzelner Anbieter die Agenten-Schicht der Plattform. Kimi K2.6 fiel in dieser Woche aus den Top 10 — ein Warnsignal, dass Ranglisten wöchentlich kippen können und statische Modellwahl riskant ist.

Hy3 Preview verdient besondere Aufmerksamkeit: Trotz Ende der Gratisphase wuchs das Volumen um 16 Prozent. Das deutet auf echte Produktionsreife hin, nicht nur auf Preisgeschenke. Für Teams, die Tencent-Infrastruktur ohnehin nutzen, ist Hy3 ein natürlicher Kandidat für Graustufen-Tests.

Claude Sonnet 4.6 auf Platz drei zeigt, dass US-Enterprise-Modelle in qualitätskritischen Coding-Pfaden unverzichtbar bleiben — auch wenn ihr Token-Anteil gesamt sinkt. Die Kunst liegt in der Schichtung: Billige Modelle für Volumen, Premium für Grenzfälle.

5. Drei typische Auswahlfehler in der Praxis

Nur Benchmarks lesen und Opus überall einsetzen: SWE-bench-Spitzenwerte rechtfertigen nicht automatisch Millionen-Token-Tagesrechnungen in Agenten-Schleifen. Wer jeden Tool-Call über Claude Opus routet, optimiert für Laborqualität statt für ROI.
Nur den Stückpreis vergleichen und Free-Tiers produktiv nutzen: Owl Alpha und ähnliche Stealth-Modelle können Prompts protokollieren. Quellcode mit Credentials, personenbezogene Kundendaten oder interne Architekturdokumente gehören nicht auf kostenlose Routen ohne dokumentierte AV-Verarbeitung.
Modell gewählt, Gateway instabil: OpenClaw auf einem Notebook, das nachts schläft, liefert keine zuverlässigen Kanäle — egal wie präzise die Wochenrangliste gelesen wurde. Modellauswahl und Betriebsführung sind untrennbar.

Diese drei Fehler sehen wir in Architektur-Reviews regelmäßig. Sie lassen sich vermeiden, wenn Token-Rangliste, Compliance-Matrix und Gateway-Stabilität in einem wöchentlichen Review zusammenlaufen — nicht in isolierten Silos.

6. Token-Volumen versus Umsatz — die doppelte Wahrheit

Schicht	Vertreter	Token-Profil	Umsatz-Profil
Hoher Wert, geringes Volumen	Claude Opus	ca. 12 % Token-Anteil (vor einem Jahr 25 %)	ca. 46 % Umsatzanteil
Preis-Leistung, mittleres Volumen	Gemini Flash	Stabil in Multimodal und Forschung	Mittleres Preisniveau
Extrem niedriger Preis, hohes Volumen	DeepSeek / MiniMax / StepFun	Agenten, Coding, Batch dominieren	Viel Token, wenig Dollar-Anteil

Anthropic verkörpert das Prämien-Paradoxon: Claude Opus generiert schätzungsweise 25 Millionen US-Dollar Monatsumsatz bei einem Token-Volumen, das DeepSeek um Größenordnungen übertrifft. Die Rangliste misst nicht Intelligenz — sie misst Aufrufhäufigkeit unter gegebenen Preisbedingungen. Für CFOs und Tech-Leads ist die Umsatzschicht mindestens so wichtig wie die Token-Schicht: Sie zeigt, wofür Unternehmen bereit sind, Premium zu zahlen.

Praktische Konsequenz: Bauen Sie Ihre OpenClaw-Routing-Tabelle zweidimensional — Spalte Token-Kosten für Agenten-Volumen, Spalte Qualitätsreserve für Opus/Sonnet bei Eskalation. Ein einspaltiges Modell führt entweder zu Budgetexplosion oder zu Qualitätsengpässen.

7. Programmierung als dominantes Nutzungsfeld

Der a16z/OpenRouter-Nutzungsbericht dokumentiert eine strukturelle Verschiebung: Der Anteil programmierungsbezogener Aufgaben stieg von etwa 11 Prozent auf über 50 Prozent aller Plattform-Workloads. Das erklärt, warum DeepSeek V4 Flash und Claude Sonnet 4.6 die oberen Ränge teilen — beide adressieren Coding, aber an unterschiedlichen Punkten der Kosten-Qualitäts-Kurve.

Für DevOps- und Platform-Teams bedeutet das: Ihre Modellauswahl sollte explizit nach Coding-Szenarien getrennt werden — Inline-Vervollständigung, PR-Review, Agenten-Schleifen mit Tool-Calling, Batch-Refactoring. Jede Schicht hat andere Latenz- und Kostenanforderungen. Die Wochenrangliste zeigt, wohin der Markt insgesamt driftet; Ihre Feinjustierung erfolgt pro Pipeline.

Programmierung dominiert nicht, weil andere Use Cases verschwinden — sondern weil Agenten-Frameworks wie OpenClaw, Cursor Agent und CI-integrierte LLM-Schritte massiv parallel laufen und dabei pro Aufgabe Millionen Token verbrauchen können. Wer das ignoriert, unterschätzt die Rechnung.

8. DSGVO und Betriebsstabilität als Entscheidungsfilter

Marktdaten allein reichen für EU-Produktion nicht aus. Vor jeder Modellfreigabe sollten Sie prüfen: Wo werden Prompts verarbeitet? Gibt es einen Auftragsverarbeitungsvertrag? Werden Logs gespeichert — und wie lange? Free-Tiers und Stealth-Modelle scheitern an dieser Hürde häufig zuerst.

Betriebsstabilität ist die zweite Säule: Ein Modellwechsel in OpenClaw dauert Minuten; ein Gateway-Ausfall durch Notebook-Schlaf oder instabilen VPS kostet Stunden bis Tage. Unter DSGVO-Gesichtspunkten sind Ausfallzeiten auch Compliance-Risiken — wenn Agenten personenbezogene Anfragen verarbeiten und bei Unterbrechung halbfertige Zustände hinterlassen.

Empfohlene Praxis: Führen Sie eine interne Matrix mit Spalten Modell, Token-Kosten, DSGVO-Status, Fallback und Gateway-Standort. Aktualisieren Sie die Token-Spalte wöchentlich aus OpenRouter; die Compliance-Spalte quartalsweise oder bei Anbieteränderungen. So bleibt die Rangliste handlungsleitend, ohne regulatorische Blindheit.

9. Fünf Schritte: Wochenrangliste und OpenClaw-Routing

Wochenrangliste tracken: Jeden Montag openrouter.ai/rankings öffnen, Top 10 und Anbieteranteile in ein internes Spreadsheet übertragen. Neue Einträge wie Hy3 oder Owl Alpha markieren — sie sind oft Vorboten des nächsten Volumen-Shifts.
Nach Aufgabe schichten: Agent-Batch und Tool-Calling-Schleifen über DeepSeek V4 Flash; komplexe Unternehmensinferenz und sicherheitskritische Code-Pfade über Claude Opus oder Sonnet; Multimodal und Dokumentenanalyse über Gemini Flash.
openclaw.json schreiben: Primär- und Fallback-Modelle definieren; API-Schlüssel ausschließlich über SecretRef, niemals im Klartext. OpenRouter-Modell-IDs immer mit Anbieterpräfix (deepseek/, anthropic/, google/).
Dauerhaftes Gateway auf Remote Mac: openclaw gateway install mit launchd statt manuellem Terminal-Prozess. Arbeitsverzeichnisse per SFTP oder rsync synchronisieren, damit Agenten-Kontext über Neustarts hinweg konsistent bleibt.
Grau schalten und Rollback: Erst nach bestandenem channels status --probe Produktionskanäle freigeben. Bei HTTP 429 oder Anbieter-Störung automatisch auf Fallback-Modell wechseln; Änderungen dokumentieren.

openclaw doctor
openclaw channels status --probe

Diese fünf Schritte bilden den Kern eines wiederholbaren Betriebsmodells. Sie koppeln Marktbeobachtung an technische Konfiguration und verhindern, dass Modellentscheidungen im Vakuum getroffen werden.

10. Remote-Mac-7×24-Entscheidungsmatrix

Deployment-Standort	Geeignet für	Haupt-Risiko
Lokales Notebook	Einzelperson, Rangliste lesen, Debug-Sessions	Schlafmodus unterbricht Gateway; keine stabile 7×24-Agenten-Schicht
Linux-VPS (minimal)	Reine API-Weiterleitung ohne Apple-Toolchain	Kein Xcode, keine Notarisierung; getrennt von macOS-Build-Pipeline
SFTPMAC Remote Mac	OpenClaw-Produktion plus Build-Artefakte auf einem System	Verzeichnisrechte planen (siehe SFTP-Leitfäden im Blog)

Die Matrix zeigt: Modellauswahl und Infrastruktur sind eine Entscheidung. Wer wöchentlich Routing anpasst, aber das Gateway auf einem schlafenden Laptop betreibt, optimiert die falsche Variable. Apple Silicon Remote Macs bieten launchd-Persistenz, native Toolchain und SFTP/rsync-Synchronisation — genau die Kombination, die Agenten-ROI aus Ranglistendaten tatsächlich realisiert.

11. Häufige Fragen

Unterschied zu unserem Juni-Top-10-Artikel? Dieser Beitrag fokussiert die Kalenderwoche 18.–24. Mai 2026 und die Perspektive „Abrechnung lügt nicht“. Der Juni-Artikel betont Strukturtrends über mehrere Wochen.

Ist DeepSeek dauerhaft auf Platz eins? V4-Pro wurde dauerhaft auf ein Viertel des Ursprungspreises gesenkt — das dürfte die Dominanz weiter zementieren. Dennoch: Wöchentliches Tracking bleibt Pflicht.

Dürfen Hy3 und DeepSeek personenbezogene Daten verarbeiten? Das hängt von Ihrer AV-Vereinbarung und der Datenkategorisierung ab. Technisch eignen sich die Modelle für Agenten-Volumen; rechtlich benötigen Sie eine separate Freigabe.

12. Fazit: Mit Abrechnungsdaten wählen, mit dauerhaftem Gateway liefern

Die Wochenrangliste KW 21/2026 belegt: Chinesisches Open Source reshape den Markt über Kosten und MoE-Effizienz; Agenten und Programmierung sind das Schlachtfeld; Anthropic verdient Prämien dort, wo Qualität unverzichtbar ist. Wer diese Schichtung versteht, trifft bessere Routing-Entscheidungen als reine Benchmark-Leser.

Die Grenze liegt in der Betriebsführung: Notebook-Gateways und intermittierende VPS halten kein wöchentliches Routing-Ritual durch. Langlaufende OpenClaw-Agenten brauchen einen 7×24-erreichbaren macOS-Knoten mit synchronisierten Arbeitsverzeichnissen.

SFTPMAC Remote Mac liefert Apple-Silicon-Hosting mit launchd-Persistenz und SFTP/rsync-Integration — damit Ihre Modellwahl aus der Wochenrangliste nicht auf dem Papier bleibt, sondern in produktiven Agenten-Pipelines ankommt.