LangGraph ou CrewAI pour la production ?

LangGraph convient aux workflows à transitions d'état complexes et aux SLA stricts. CrewAI accélère les preuves de concept par équipes de rôles. Migrez vers LangGraph avant la mise en production si vous exigez checkpointer et arêtes conditionnelles.

Quelle différence entre MCP et A2A ?

MCP relie verticalement un agent aux outils et ressources externes. A2A permet la coopération horizontale entre agents. L'architecture standard 2026 combine les deux protocoles.

Combien d'agents en production ?

La limite pratique se situe entre 3 et 8 agents. Au-delà, pollution de contexte, coût de débogage et facture de tokens augmentent de façon disproportionnée. Étendez les capacités via des outils MCP plutôt que par prolifération d'agents.

2026 Architecture multi-agents IA : orchestration production & guide de décision

En 2026, un agent LLM isolé ne suffit plus pour orchestrer des flux métier composés avec fiabilité. L'Agent Bake-Off de Google (2025) rapporte jusqu'à 6× plus de succès en équipe multi-agents ; AdaptOrch documente 12 à 23 % de gain qualitatif grâce à une topologie adaptive. Ce guide professionnel couvre les concepts MAS, six patrons d'orchestration, la matrice LangGraph/CrewAI/AutoGen, MCP+A2A, l'ingénierie de production, l'observabilité, les pièges, l'arbre de décision et les tendances 2026 — avec une conclusion naturelle vers l'hébergement Mac distant SFTPMAC.

1. Pourquoi un agent unique ne suffit pas en production

La démonstration d'un agent monolithique impressionne en laboratoire ; sous charge réelle, quatre limites structurelles se révèlent :

Goulot de contexte : historiques longs et sorties d'outils saturent une fenêtre de 128K tokens ; dès la septième étape d'une enquête, les résultats intermédiaires se perdent.
Dilution de l'expertise : un seul prompt système mêlant revue de code, conformité juridique et analyse de données n'atteint la profondeur d'aucun domaine.
Inefficacité séquentielle : trois tâches indépendantes traitées l'une après l'autre gaspillent le parallélisme ; le fan-out/fan-in réduit la latence P95 de 40 à 60 % en pratique.
Point de défaillance unique : une hallucination ou un appel d'outil raté immobilise l'ensemble ; l'architecture superviseur-travailleur permet le remplacement unitaire.

Ces chiffres n'invitent pas à « empiler des agents », mais à découper et orchestrer avec méthode — condition sine qua non d'une traçabilité compatible RGPD.

2. Concepts MAS et trois modes de contrôle

Un système multi-agents (MAS) coordonne des agents autonomes via un état partagé, des protocoles de communication et une couche d'orchestration. Quatre principes de conception :

Spécialisation des rôles : chaque agent porte une responsabilité claire ; prompt et outils y sont limités.
Isolation des outils : lecture seule pour l'agent A, écriture pour l'agent B — moindre privilège par rôle.
Isolation d'état : clés de session, identifiants de checkpointer et connexions MCP séparés par agent.
Remplaçabilité : les modèles des travailleurs sont interchangeables ; le contrat de routage du superviseur reste stable.

Mode de contrôle	Caractéristique	Scénario typique
Centralisé	Un orchestrateur distribue et agrège toutes les tâches	Finance, santé — audit strict
Décentralisé	Négociation et délégation peer-to-peer	Brainstorming créatif, recherche exploratoire
Hiérarchique	Superviseur → travailleur → sous-travailleur	Génération de code à grande échelle, pipelines d'enquête

3. Six patrons d'orchestration

Ces six patrons couvrent l'essentiel des architectures MAS en production. Nommez explicitement votre choix — les formes hybrides implicites compliquent l'audit.

3.1 Pipeline séquentiel

Agent A → B → C dans un ordre fixe. En LangGraph : add_edge("researcher", "writer"). Cas d'usage : recherche → rédaction → relecture.

3.2 Fan-out / fan-in parallèle

Le superviseur distribue simultanément à trois travailleurs puis agrège. LangGraph Send ou AutoGen GroupChat. Idéal pour recherche web, requêtes base de données et analyse de code en parallèle.

3.3 Superviseur-travailleur hiérarchique

Le superviseur décompose, sélectionne et contrôle la qualité. CrewAI Process.hierarchical ou arêtes conditionnelles LangGraph.

from langgraph.graph import StateGraph, END

def supervisor_node(state):
    if state["needs_code"]:
        return "coder"
    return "researcher"

graph = StateGraph(AgentState)
graph.add_node("supervisor", supervisor_node)
graph.add_node("coder", coder_agent)
graph.add_node("researcher", researcher_agent)
graph.add_conditional_edges("supervisor", supervisor_node)

3.4 Essaim (Swarm)

Échange peer-to-peer jusqu'à consensus. Puissant pour la créativité ; en production, imposez un nombre maximal de tours (par ex. 15) et des conditions d'arrêt.

3.5 Architecture blackboard

Mémoire partagée (Redis, PostgreSQL JSONB) pour résultats intermédiaires ; lecture/écriture asynchrone. Adapté aux traitements nocturnes et pipelines longs.

3.6 Mode hybride

Environ 80 % des systèmes réels : fan-out parallèle sous supervision, puis pipeline rédactionnel. Les sous-graphes LangGraph modularisent chaque sous-flux.

4. LangGraph vs CrewAI vs AutoGen : matrice de choix

Critère	LangGraph	CrewAI	AutoGen
Gestion d'état	Checkpointer et persistance natives	Par tâche, mémoire personnalisée	Historique de conversation
Branches et boucles	StateGraph explicite	Types de processus limités	GroupChat dynamique
Courbe d'apprentissage	Moyenne à élevée	Faible (YAML + rôles)	Moyenne
Maturité production	★★★★★	★★★☆☆	★★★★☆
Vitesse de PoC	★★★☆☆	★★★★★	★★★★☆
Intégration MCP	Adaptateur officiel	Wrapper d'outils custom	Function calling

Orientation : transitions complexes et SLA → LangGraph. PoC rapide par rôles → CrewAI, puis migration. Dialogue avec intervention humaine → AutoGen v0.4+.

5. MCP + A2A : outils verticaux, agents horizontaux

L'architecture de référence 2026 : MCP en bas, A2A sur le côté. Les confondre crée une dette technique durable.

MCP (Model Context Protocol) : connexion verticale agent → outils, bases, API. JSON-RPC 2.0 avec tools/list et tools/call. Voir notre guide de décision MCP.
A2A (Agent-to-Agent) : coopération horizontale. Agent Card Google (capacités, points de terminaison) et délégation JSON-RPC entre orchestrateur et travailleurs.

Exemple minimal d'Agent Card :

{
  "name": "code-reviewer-agent",
  "description": "Revue sécurité et qualité des diffs de PR",
  "url": "https://agent.internal/a2a/v1",
  "capabilities": ["streaming", "pushNotifications"],
  "skills": [{ "id": "security-scan", "name": "Security Scan" }]
}

MCP seul ne délègue pas entre agents. A2A seul ne connecte pas une base de données. Associez les deux pour une architecture complète.

6. Ingénierie de production : état, HITL, circuit breaker, budget tokens

Une démo fonctionnelle sans design opérationnel s'effondre en 24 heures. Sept étapes pour une mise en production élégante et robuste :

Décomposition : 3 à 8 agents spécialisés ; schémas d'entrée/sortie figés en JSON Schema.
Choix du patron : séquentiel, fan-out ou hiérarchique codé dans un StateGraph LangGraph.
Connexion MCP : serveurs MCP minimaux par agent (stdio/HTTP) ; permissions isolées.
Contrat A2A : Agent Cards avec identifiant de tâche, délai, politique de nouvelle tentative.
Persistance : SqliteSaver ou checkpointer Redis — reprise après redémarrage.
Human-in-the-Loop : avant écriture en base, facturation API ou envoi d'e-mail : nœud interrupt_before.
Circuit breaker et budget : trois tentatives max par travailleur ; plafond de session, par ex. 50K entrée / 20K sortie.

Ordre de grandeur des coûts (juin 2026) : 5 agents × 10 tours de recherche — GPT-4.1 : 0,80 à 2,40 USD/exécution ; DeepSeek V3 : 0,05 à 0,20 USD/exécution. Sans budget de tokens, la facture mensuelle devient imprévisible.

7. Observabilité : distribution MAST et traces distribuées

Le cadre MAST (CMU, 2024) classe les défaillances multi-agents en production :

Spécification ambiguë : environ 42 %
Erreurs d'outils/API : environ 28 %
Échec de coordination : environ 18 %
Autres (qualité modèle) : environ 12 %

Indicateur	Seuil d'alerte (indicatif)	Outil
Latence bout-en-bout P95	> 60 s	OpenTelemetry + Grafana
Taux d'échec des appels d'outils	> 5 % / 5 min	LangSmith / Langfuse
Tokens consommés / tâche	> 120 % du budget	Middleware personnalisé
Score LLM-as-a-Judge	< 3,5 / 5,0	Évaluation par lots
Détection de boucle d'agents	Même état ≥ 5 fois	Compteur de cycles StateGraph

Attribuez un trace_id à chaque appel ; les spans OpenTelemetry relient superviseur → travailleur → outil MCP. Objectif : identifier la cause en moins de 30 secondes lors d'un incident.

8. Pièges courants : de la démo à la production

Pollution de contexte : un identifiant de session partagé fausse les décisions des travailleurs. Isolez par agent.
Boucles infinies : sans condition d'arrêt, les agents échangent indéfiniment des acquittements. Tours max et détection de doublons obligatoires.
Prolifération d'agents : au-delà de dix agents, le coût de débogage explose. Plafond recommandé : 3 à 8.
Fossé démo-production : un notebook sans checkpointer, authentification ni limitation de débit ne tient pas une nuit. Validez les sept étapes du §6 avant déploiement.

9. Arbre de décision

Tâches sérielles ou parallèles ? → Sériel : pipeline ; parties indépendantes : fan-out/fan-in.
Routage dynamique requis ? → Oui : arêtes conditionnelles LangGraph ou superviseur hiérarchique.
Approbation humaine ? → Oui : interrupt LangGraph + interface HITL ; ou UserProxy AutoGen.
PoC en une semaine ? → CrewAI pour démarrer, migration LangGraph avant go-live.
Intégrations d'outils prioritaires ? → Construire d'abord les serveurs MCP (guide MCP complet).
Délégation inter-agents ? → Oui : Agent Cards A2A ; non : routage interne du superviseur souvent suffisant.
Disponibilité 7×24 ? → Oui : §10 architecture Mac distant.

10. Tendances 2026 et pont Mac distant SFTPMAC

Quatre mouvements à suivre pour la seconde moitié de 2026 :

Orchestration fédérée : registres d'Agent Cards inter-équipes avec politiques d'accès conformes au RGPD.
Agents multimodaux : fan-out image, audio, vidéo pour la revue créative et la vision par ordinateur.
Topologie adaptive : ajustement dynamique du nombre d'agents et du routage en cours d'exécution.
EU AI Act : à partir d'août 2026, journaux HITL, explicabilité et gouvernance des données pour les systèmes à haut risque.

Graphes LangGraph, serveurs MCP, base vectorielle et collecteur OpenTelemetry supposent un hôte stable 7×24. Un portable perd l'état du checkpointer ; les processus stdio MCP deviennent orphelins ; les traitements nocturnes s'interrompent.

Les six patrons, trois frameworks et la double couche MCP+A2A se valident localement sur Mac. Pour un SLA (P95 < 60 s, disponibilité 99,5 %), il faut launchd, au moins 32 Go de mémoire unifiée et une configuration synchronisée par SFTP.

En synthèse : l'orchestration multi-agents apporte des gains mesurables — à condition d'un design opérationnel explicite et d'un hôte toujours disponible. Le portable du développeur ne satisfait ni la continuité de service ni les exigences d'audit.

La location de Mac distant SFTPMAC place cinq à huit agents et plusieurs serveurs MCP sur un nœud Apple Silicon, avec sandbox allowedPaths native macOS et synchronisation SFTP de la CI à la production. Pour transformer un essaim d'agents en pipeline ininterrompu — et non en démo de week-end — le Mac distant 7×24 offre le meilleur équilibre entre performance créative, stabilité et déploiement sur l'écosystème Apple.