LangGraph oder CrewAI für Produktion?

Bei komplexen Zustandsübergängen und SLA-Anforderungen ist LangGraph die robustere Wahl. CrewAI eignet sich für schnelle PoCs mit rollenbasierten Teams. Migrieren Sie vor Go-Live auf LangGraph, wenn Checkpointer und bedingte Kanten Pflicht sind.

Was ist der Unterschied zwischen MCP und A2A?

MCP verbindet einen Agenten vertikal mit externen Tools und Ressourcen. A2A ermöglicht horizontale Task-Delegation zwischen Agenten. Produktionssysteme 2026 kombinieren beide Protokolle in einer Zwei-Schichten-Architektur.

Wie viele Agenten sind in Produktion sinnvoll?

Praktische Obergrenze: 3–8 Agenten. Darüber steigen Kontextverschmutzung, Debug-Kosten und Token-Ausgaben überproportional. Erweitern Sie Fähigkeiten über MCP-Tools statt über Agent-Proliferation.

2026 Multi-Agent-KI-Architektur: Produktions-Orchestrierung & Entscheidungsleitfaden

Ein einzelner LLM-Agent reicht 2026 für zusammengesetzte Geschäftsprozesse nicht mehr aus. Googles Agent Bake-Off (2025) dokumentiert bis zu 6× höhere Erfolgsraten bei Multi-Agent-Teams; AdaptOrch berichtet 12–23 % Qualitätsgewinn durch adaptive Topologie. Dieser datengetriebene Leitfaden für DACH-Teams deckt MAS-Kernkonzepte, sechs Orchestrierungsmuster, LangGraph/CrewAI/AutoGen-Vergleich, MCP+A2A, Produktionsengineering, Observability, Fallstricke, Entscheidungsbaum und 2026-Trends ab — mit DSGVO- und Stabilitätsfokus.

1. Warum ein einzelner Agent in Produktion scheitert

PoC-Demos mit einem Agenten wirken überzeugend — unter Last zeigen sich vier strukturelle Grenzen, die in EU-Audits und SLA-Reviews regelmäßig dokumentiert werden:

Kontext-Engpass: Lange Verläufe und Tool-Outputs füllen ein 128K-Fenster; bei 10-stufigen Recherche-Pipelines gehen Zwischenergebnisse verloren. Messwert: >40 % Qualitätsabfall ab Schritt 7 ohne Zustandsexport.
Verdünnung der Fachkompetenz: Ein System-Prompt für Code-Review, Rechtsprüfung und Datenanalyse liefert in keinem Bereich auditfähige Tiefe. Rollentrennung ist messbar wirksamer.
Serielle Ineffizienz: Drei unabhängige Tasks in Serie kosten 100 % Wartezeit; Fan-out/Fan-in reduziert P95-Latenz typischerweise um 40–60 %.
Single Point of Failure: Eine Halluzination oder fehlgeschlagene Tool-Call stoppt den gesamten Flow. Supervisor-Worker erlaubt Retry pro Worker ohne Gesamtabbruch.

Die Zahlen belegen nicht „mehr Agenten = besser“, sondern: korrekte Zerlegung plus Orchestrierung ist die Voraussetzung für GDPR-konforme Nachvollziehbarkeit (Art. 5 Abs. 2).

2. MAS-Kernkonzepte und drei Steuerungsmodi

Ein Multi-Agent System (MAS) koordiniert autonome Agenten über gemeinsamen Zustand, Kommunikationsprotokolle und eine Orchestrierungsschicht. Vier Designprinzipien für stabile Produktion:

Rollenspezialisierung: Jeder Agent hat genau eine Verantwortung; System-Prompt und Tool-Set sind darauf begrenzt.
Tool-Isolation: Agent A nur Lesezugriff auf DB, Agent B nur Schreibzugriff — least privilege pro Rolle.
Zustandsisolation: Session-Keys, Checkpointer-IDs und MCP-Verbindungen pro Agent trennen; verhindert Kontext-Leaks zwischen Mandanten.
Austauschbarkeit: Worker-Modelle sind austauschbar; Supervisor-Routing-Vertrag bleibt stabil.

Steuerungsmodus	Merkmal	Typisches Szenario
Zentralisiert	Ein Orchestrator verteilt und aggregiert alle Tasks	Finanz, Gesundheit — strenge Audit-Pfade
Dezentralisiert	Agenten verhandeln und delegieren peer-to-peer	Brainstorming, explorative Forschung
Hierarchisch	Supervisor → Worker → Sub-worker	Großskalige Code-Generierung, mehrstufige Recherche

3. Sechs Orchestrierungs-Designmuster

Die folgenden sechs Muster decken über 90 % produktiver MAS-Architekturen ab. Wählen Sie explizit — implizite Mischformen erschweren DSGVO-Verarbeitungsverzeichnisse.

3.1 Sequential Pipeline

Agent A → B → C in fester Reihenfolge. LangGraph: add_edge("researcher", "writer"). Anwendung: Recherche → Entwurf → Lektorat.

3.2 Parallel Fan-out / Fan-in

Supervisor verteilt parallel an drei Worker und aggregiert Ergebnisse. LangGraph Send oder AutoGen GroupChat. Latenzgewinn bei Web-Suche, DB-Abfrage und Code-Analyse parallel.

3.3 Hierarchischer Supervisor-Worker

Supervisor zerlegt Tasks, wählt Worker, prüft Qualität. CrewAI Process.hierarchical oder LangGraph conditional edges.

from langgraph.graph import StateGraph, END

def supervisor_node(state):
    if state["needs_code"]:
        return "coder"
    return "researcher"

graph = StateGraph(AgentState)
graph.add_node("supervisor", supervisor_node)
graph.add_node("coder", coder_agent)
graph.add_node("researcher", researcher_agent)
graph.add_conditional_edges("supervisor", supervisor_node)

3.4 Swarm-Koordination

Peer-to-peer-Nachrichtenaustausch bis Konsens. Kreativ stark, in Produktion: maximale Runden (z. B. 15) und Stoppbedingungen Pflicht.

3.5 Blackboard-Architektur

Gemeinsamer Speicher (Redis, PostgreSQL JSONB) für Zwischenergebnisse; Agenten lesen/schreiben asynchron. Ideal für Overnight-Batch und lange Analyse-Pipelines.

3.6 Hybrid-Modus

Ca. 80 % der Produktionssysteme: Supervisor fan-out parallel, Writer-Pipeline im Anschluss. LangGraph-Subgraphs modularisieren Teilflows.

4. LangGraph vs CrewAI vs AutoGen: Entscheidungsmatrix

Bewertungsachse	LangGraph	CrewAI	AutoGen
Zustandsmanagement	Checkpointer, Persistenz standard	Task-basiert, Custom Memory	Conversation-History
Verzweigung / Schleifen	StateGraph, explizite Kontrolle	Process-Typen begrenzt	Dynamisches GroupChat
Lernkurve	Mittel–hoch	Niedrig (YAML + Rollen)	Mittel
Produktionsreife	★★★★★	★★★☆☆	★★★★☆
PoC-Geschwindigkeit	★★★☆☆	★★★★★	★★★★☆
MCP-Integration	Offizieller Adapter	Custom Tool-Wrapper	Function Calling
DSGVO-Auditierbarkeit	Checkpointer-Logs, klare Kanten	Nachrüstung nötig	Dialog-Logs, weniger strukturiert

Empfehlung: Komplexe Zustandsübergänge + SLA → LangGraph. Rollen-PoC in einer Woche → CrewAI, dann Migration. Mensch-im-Loop-Dialog → AutoGen v0.4+.

5. MCP + A2A: vertikale Tools, horizontale Agenten

Standard 2026: MCP unten, A2A quer. Verwechslung führt zu Architektur-Schulden.

MCP (Model Context Protocol): Agent → externe Tools, DB, APIs. JSON-RPC 2.0 mit tools/list und tools/call. Details: MCP-Entscheidungsleitfaden.
A2A (Agent-to-Agent): Horizontale Delegation. Google Agent Card (Fähigkeiten, Endpunkte) + JSON-RPC-Tasks zwischen Orchestrator und Worker.

Minimales Agent-Card-Beispiel:

{
  "name": "code-reviewer-agent",
  "description": "Sicherheits- und Qualitätsreview für PR-Diffs",
  "url": "https://agent.internal/a2a/v1",
  "capabilities": ["streaming", "pushNotifications"],
  "skills": [{ "id": "security-scan", "name": "Security Scan" }]
}

MCP allein delegiert nicht zwischen Agenten. A2A allein verbindet keine Datenbank. Beides kombinieren — dokumentiert im Verarbeitungsverzeichnis als zwei getrennte Schnittstellen-Schichten.

6. Produktionsengineering: Zustand, HITL, Circuit Breaker, Token-Budget

Demo-Erfolg ohne Betriebsdesign bricht nach 24 h. Sieben Schritte für auditfähige Produktion:

Use-Case-Zerlegung: 3–8 spezialisierte Agenten; Ein-/Ausgabe-Schemas als JSON Schema fixieren.
Musterwahl: Sequential, Fan-out oder Hierarchical in LangGraph StateGraph codieren.
MCP-Anbindung: Pro Agent minimal notwendige MCP-Server (stdio/HTTP); Berechtigungen isolieren.
A2A-Vertrag: Agent Cards mit Task-ID, Timeout, Retry-Policy im JSON-RPC-Payload.
Persistenz: SqliteSaver oder Redis-Checkpointer — Neustart ohne Zustandsverlust (RPO < 1 min).
Human-in-the-Loop: Vor DB-Schreibzugriff, API-Abrechnung, E-Mail: interrupt_before-Knoten. Art. 22 GDPR: automatisierte Entscheidung mit menschlicher Prüfung.
Circuit Breaker + Token-Budget: Max. 3 Retries pro Worker; Session-Limit z. B. 50K Input / 20K Output via Middleware.

Kostenreferenz (Juni 2026): 5 Agenten × 10 Runden Recherche — GPT-4.1: 0,80–2,40 USD/Lauf; DeepSeek V3: 0,05–0,20 USD/Lauf. Ohne Token-Budget sind Monatskosten nicht prognostizierbar — relevant für FinOps und GDPR-Zweckbindung.

7. Observability: MAST-Fehlerverteilung und Distributed Tracing

MAST (CMU, 2024) klassifiziert Multi-Agent-Ausfälle in Produktion:

Unklare Spezifikation: ca. 42 %
Tool/API-Fehler: ca. 28 %
Koordinationsfehler: ca. 18 %
Sonstiges (Modellqualität): ca. 12 %

Metrik	Alert-Schwelle (Richtwert)	Tool
End-to-End-Latenz P95	> 60 s	OpenTelemetry + Grafana
Tool-Call-Fehlerrate	> 5 % / 5 min	LangSmith / Langfuse
Token-Verbrauch / Task	> 120 % Budget	Custom Middleware
LLM-as-a-Judge-Score	< 3,5 / 5,0	Batch-Evaluierung
Agent-Loop-Erkennung	Gleicher Zustand ≥ 5×	StateGraph-Zykluszähler

Jeder Aufruf erhält trace_id; OpenTelemetry-Spans visualisieren Supervisor → Worker → MCP-Tool. Ziel: Fehlerursache in <30 s identifizierbar — Mindestanforderung für Incident-Response und Art.-30-GDPR-Nachweise.

8. Typische Fallstricke: Demo vs Produktion

Kontextverschmutzung: Gemeinsame Session-ID verzerrt Worker-Entscheidungen. Isolation pro Agent wie per-account-channel-peer durchsetzen.
Endlosschleifen: Swarm ohne Stoppbedingung — Agenten tauschen endlos Bestätigungen. Max. Runden + Zustandsduplikat-Erkennung Pflicht.
Agent-Proliferation: >10 Agenten: Debug-Kosten exponentiell. Obergrenze 3–8; Lücken über MCP-Tools schließen.
Demo-Produktionslücke: Jupyter ohne Checkpointer, Auth und Rate-Limits hält keine Nacht-Schicht. Alle sieben Schritte aus §6 vor Deploy.

9. Entscheidungsbaum für Framework und Muster

Seriell oder parallel? → Seriell: Sequential Pipeline; unabhängige Teile: Fan-out/Fan-in.
Dynamisches Routing? → Ja: LangGraph conditional edges oder Hierarchical Supervisor.
Menschliche Freigabe? → Ja: LangGraph interrupt + HITL-UI; alternativ AutoGen UserProxy.
PoC-Frist ≤ 1 Woche? → CrewAI starten, vor Go-Live LangGraph-Migration planen.
Externe Tools im Fokus? → Zuerst MCP-Server bauen (MCP-Server-Anleitung).
Inter-Agent-Delegation? → Ja: A2A Agent Cards; Nein: internes Supervisor-Routing reicht oft.
7×24-Betrieb? → Ja: §10 Remote-Mac-Architektur.

10. 2026-Trends und SFTPMAC Remote-Mac-7×24-Brücke

Vier Trends für die zweite Jahreshälfte 2026:

Federated Orchestration: Agent-Card-Registry über Teams und Mandanten — mit GDPR-konformen Zugriffspolitiken.
Multimodale Agenten: Fan-out für Bild, Audio, Video in CV- und Design-Reviews.
Adaptive Topologie: Laufzeit-Anpassung von Agent-Anzahl und Routing (AdaptOrch-Prinzip).
EU AI Act: Ab August 2026 HITL-Logs, Erklärbarkeit und Daten-Governance für Hochrisiko-KI — Checkpointer und Audit-Trail früh einplanen.

LangGraph-Graphen, MCP-Server, Vektor-DB und OpenTelemetry Collector setzen 7×24 auf einem stabilen Host voraus. Laptops verlieren Checkpointer-Zustand; stdio-MCP-Prozesse werden zu Waisen; Nacht-Batches brechen ab.

Die sechs Muster, drei Frameworks und MCP+A2A-Zweischicht lassen sich lokal auf dem Mac validieren. Für SLA (P95 < 60 s, Verfügbarkeit 99,5 %) brauchen Sie launchd, ≥32 GB Unified Memory und SFTP-synchronisierte Konfiguration.

Fazit: Multi-Agent-Orchestrierung liefert messbar bessere Ergebnisse — aber nur mit explizitem Betriebsdesign, DSGVO-Dokumentation und dauerhaft erreichbarem Gateway-Host. Ein Entwickler-Laptop erfüllt weder Verfügbarkeit noch Audit-Pfade.

SFTPMAC Remote-Mac-Miete bietet Apple-Silicon-Unified-Memory für 5–8 Agenten plus mehrere MCP-Server auf einem Knoten, macOS-allowedPaths-Sandbox für Tools und SFTP-Sync von CI bis Produktion. Wer MAS nicht als Wochenend-Demo, sondern als unterbrechungsfreie Pipeline betreiben will, setzt auf einen dokumentierten 7×24-Remote-Mac — stabiler als Spot-VM, GDPR-tauglicher als unkontrolliertes Heimnetz.