Quels modèles locaux sur Mac mini M4 16 Go ?

16 Go conviennent aux modèles quantifiés 7B–13B comme Qwen2.5 7B ou Llama 3.1 8B ; les 70B demandent un M4 Pro 48–64 Go.

OpenClaw et OpenHuman sur la même machine ?

Oui, avec des LaunchAgent séparés et surveillance RAM ; 32 Go recommandés pour inférence locale parallèle.

Pourquoi pas un VPS Linux ?

Le daemon LaunchAgent d'OpenClaw et l'interface Tauri d'OpenHuman supposent macOS natif ; Linux ne fournit ni Neural Engine ni la même intégration bureau.

Faut-il VNC pour OpenHuman ?

Oui pour l'interface graphique complète ; pour l'automation pure, OpenClaw seul via canaux suffit souvent.

2026 Mac mini M4 loué : OpenClaw & OpenHuman avec Ollama — Guide agent IA local

OpenClaw pilote des agents autonomes depuis Telegram, WhatsApp ou Discord ; OpenHuman construit un assistant de bureau « mémoriel » grâce au Memory Tree — tous deux peuvent s'appuyer sur Ollama pour ne pas envoyer chaque token vers le cloud. Les scripts d'installation tiennent en une matinée. Le vrai goulot, ce n'est pas la ligne de commande : c'est un macOS allumé en permanence, avec Apple Silicon pour les modèles quantifiés et une IP stable pour les webhooks. Ce guide compare les deux frameworks, dimensionne le M4, détaille le LaunchAgent sur Mac distant loué et pose une matrice de coûts pour studios créatifs et équipes produit francophones.

1. Où faire tourner l'agent ?

En 2026, la course aux agents IA ne se joue plus sur « quel API est le plus fort », mais sur « qui peut tourner longtemps, en privé et sans surprise ops ». Dans un studio parisien ou une scale-up lyonnaise, trois frustrations reviennent sans cesse. Le MacBook du directeur artistique s'endort à minuit : le bot Telegram affiche hors ligne alors que la veille tout était vert. Acheter un Mac mini M4 immobilise 700 à 1 000 € et deux semaines de livraison — long pour un POC client. Enfin, un VPS AWS ou OVH est Linux : la magie openclaw onboard --install-daemon repose sur launchd, et l'interface Tauri d'OpenHuman perd en fluidité sans macOS natif ; la Neural Engine Apple n'existe tout simplement pas là-bas.

La location d'un Mac mini M4 dédié compresse ces frictions : SSH et VNC en une dizaine de minutes, lien gigabit, IP fixe pour les callbacks WhatsApp, inférence 13B acceptable sur 16 Go grâce au silicium unifié. Pour une équipe créative qui partage déjà des assets par SFTP, c'est la continuité logique : le même flux versionné pour les configs agent, sans synchroniser la mémoire sur un Google Drive personnel du DA.

Ce guide suppose un compte administrateur sur le nœud distant et Homebrew en place. Vérifiez sysctl -n hw.memsize et uname -m (arm64 attendu) avant d'engager un modèle lourd.

2. OpenClaw vs OpenHuman — matrice décision

Les deux projets partagent Ollama mais visent des opérateurs différents. OpenClaw est l'outil du mobile-first : envoyer une consigne depuis le métro, exécuter un script sur le serveur. OpenHuman vise le bureau : calendrier, Notion, voix, Google Meet — avec une mémoire structurée qui survit aux semaines. La licence compte : MIT pour OpenClaw facilite l'usage interne ; GPL-3.0 pour OpenHuman impose de réfléchir avant de livrer un fork white-label à un client.

Dimension	OpenClaw	OpenHuman
Licence	MIT	GPL-3.0
Interaction	CLI + Telegram/WhatsApp/Discord	GUI bureau, voix, Google Meet
Mémoire	Workspace / extensions	Memory Tree natif
Modèle local	Ollama (endpoint compatible OpenAI)	Ollama / LM Studio (`config.toml`)
Usage typique	Automation canaux, bots ops	Super-assistant perso, Notion/Gmail

Règle simple : instruction depuis le téléphone → OpenClaw. « Souviens-toi de mes habitudes depuis trois semaines et rejoins la réunion » → OpenHuman. Coexistence possible avec labels launchd distincts — voir notre article Hermes et multi-agents pour la discipline de processus sur un même host.

3. Matériel et choix du nœud cloud

La mémoire unifiée Apple Silicon fusionne CPU, GPU et Neural Engine — pratique pour Ollama, impitoyable si vous surchargez : le swap sur NVMe tue la latence des canaux temps réel.

M4 16 Go : API cloud en primaire, modèles locaux 7B–13B (Qwen2.5 7B, Llama 3.1 8B) pour les passages sensibles ; consommation souvent 8–15 W en veille active — le Mac mini tient dans un open space sans ventilo gaming.
32 Go : agent OpenClaw principal + deux ou trois sub-agents + une instance 13B ; ligne de confort pour un studio qui mélange cloud et local.
M4 Pro 48–64 Go : viser zéro cloud avec 30B–70B quantifiés ; OpenHuman avec gros contexte et GUI via VNC.
Région : nœuds EU (Paris, Amsterdam) pour latence et hébergement ; éviter de répliquer Memory Tree sur des sync cloud non maîtrisés.

Node.js ≥ 22 requis — le script OpenClaw peut embarquer Node 24. macOS 14 Sonoma minimum. Créez un utilisateur macOS dédié à la production pour éviter la dérive HOME documentée dans nos runbooks launchd.

Avant d'engager des modèles lourds, mesurez la baseline : sysctl -n hw.memsize, charge idle du gateway, espace disque pour les pulls Ollama (plusieurs dizaines de Go pour un catalogue 13B). Un Mac mini M4 loué avec SSD NVMe rapide accélère les ollama pull par rapport à un mini domestique derrière une box limitée — un détail que les équipes oublient jusqu'au premier téléchargement de 8 Go un vendredi soir.

4. OpenClaw + Ollama + LaunchAgent en cinq étapes

Parcours type sur Mac distant neuf. Notez chaque étape dans votre runbook interne — utile quand le stagiaire reprend le projet six mois plus tard.

Installer Ollama et tirer les modèles :

brew install ollama
ollama pull qwen2.5:7b
# optionnel : ollama pull llama3.1:8b

Installer OpenClaw :

curl -fsSL https://openclaw.ai/install.sh | bash
openclaw onboard --install-daemon

Inférence locale : dans ~/.openclaw/openclaw.json, baseUrl → http://127.0.0.1:11434/v1, modèle principal ollama/qwen2.5:7b. Variable OLLAMA_KEEP_ALIVE=-1 limite les cold starts.
Canaux : token Telegram ou WhatsApp dans l'assistant ; après plugin, openclaw gateway restart puis openclaw channels status --probe.
Sécurité : openclaw security audit --fix ; ne jamais exposer la passerelle sur 0.0.0.0 sans auth sur un host avec IP publique.

Le LaunchAgent de --install-daemon survit à la coupure SSH — l'avantage décisif sur le portable du motion designer. Après upgrade, split-brain CLI/service : aligner meta et doctor.

Checklist d'acceptation prod. Enchaînez : openclaw doctor sans alerte rouge ; openclaw gateway status avec la bonne révision ; openclaw channels status --probe avec latence acceptable (souvent < 3 s Telegram depuis un nœud EU) ; enfin un message réel depuis le téléphone qui déclenche un outil. Archivez les sorties pour la gouvernance interne — surtout si le bot traite des briefs clients. Sur Mac distant loué, un cron hebdomadaire qui relance la sonde et alerte le monitoring évite les surprises le lundi matin. Le guide restart launchd détaille comment éviter les boucles de redémarrage quand doctor est déjà vert.

Réglage Ollama sur M4. Les quantifications q4_K_M sont le compromis idéal sur 16 Go : Qwen2.5 7B tourne souvent à 25–40 tok/s sur Apple Silicon — suffisant pour l'ops, insuffisant pour la dictée temps réel. Limitez OLLAMA_MAX_LOADED_MODELS=1 si un seul canal est actif ; en multi-agent, montez en RAM plutôt qu'en parallélisme agressif. Après reboot, un ollama run qwen2.5:7b "ping" évite que le premier utilisateur paie le cold start.

5. OpenHuman v0.53 et IA locale

curl -fsSL https://raw.githubusercontent.com/tinyhumansai/openhuman/main/scripts/install.sh | bash

L'IA locale est off par défaut — activation consciente dans config.toml :

local_ai.runtime_enabled = true
local_ai.opt_in_confirmed = true

Pointez Ollama ou LM Studio sur le port 11434. Lors du onboarding Gmail/Notion/Slack, privilégiez des scopes OAuth minimaux — lecture seule quand c'est suffisant. Memory Tree indexe plans hebdomadaires et préférences créatives ; OpenClaw n'a pas d'équivalent natif pour la mémoire longue durée : l'un automatise les canaux, l'autre approfondit le bureau.

GUI OpenHuman sur Mac distant = VNC ou partage d'écran. Scénario backend pur : OpenClaw + canaux en primaire, OpenHuman en seconde instance avec concurrence modèle limitée. Si vous enregistrez l'audio Meet, vérifiez la base légale côté client.

6. Multi-agents, ressources et sécurité

Budget RAM : un modèle 7B q4 occupe souvent 5–8 Go ; gateway OpenClaw + bureau OpenHuman → visez 32 Go.
Isolation : labels LaunchAgent distincts, logs séparés ; ne montez pas OLLAMA_NUM_PARALLEL sans surveillance — le swap est silencieux.
Sauvegarde : rsync/SFTP de ~/.openclaw et config OpenHuman vers poste admin ; jamais de tokens OAuth dans git.
Confidentialité : modèles locaux pour briefs clients ; désactivez les fallback cloud dans openclaw.json si le contrat l'exige.
Location : exigez effacement disque à la résiliation et tenant physique dédié — pas un hyperviseur partagé opaque.

Si vous ajoutez Hermes Agent pour l'évolution de skills, gardez trois arbres séparés : ~/.hermes/, workspace OpenClaw, Memory Tree — sinon profils utilisateur incompatibles et cauchemar de gouvernance.

Scénarios studio. Une agence motion loue un M4 32 Go : OpenClaw relance les exports et notifications Slack depuis Telegram pendant qu'OpenHuman mémorise les préférences de montage du directeur artistique — le tout sur un Mac distant silencieux, pas sur le MacBook qui part en repérage. Une scale-up produit teste OpenHuman seul pendant un sprint, puis ajoute OpenClaw pour alerter l'équipe quand un cron échoue. Une équipe remote-first synchronise configs et caches modèles par SFTP comme des assets After Effects versionnés : rollback en cas de mauvaise mise à jour Ollama.

Gouvernance des données. Memory Tree peut contenir des préférences personnelles et des extraits de calendrier — documentez finalité et durée de conservation dans votre registre interne. OAuth Gmail/Notion : scopes minimaux, révision trimestrielle des tokens. Désactivez les fallback cloud dans openclaw.json si le contrat client interdit l'export hors UE. La location avec tenant dédié simplifie la fin de mission : effacement disque contractuel plutôt que « on formate le Mac du DA un weekend ».

Coexistence technique. Deux LaunchAgent avec labels distincts (ai.openclaw.gateway vs label OpenHuman), répertoires de logs séparés, un seul Ollama mais modèle chargé explicitement — surveillez memory_pressure et swap dans Moniteur d'activité via VNC. Si la pression dépasse 80 % en continu, passez au palier 32 Go ou décalez les fenêtres de charge (OpenHuman le jour, batch OpenClaw la nuit).

7. Coûts, FAQ et suite

Option	Ordre de grandeur 24 mois	Limite principale
Achat M4 16 Go	Matériel ~700–1 000 € + électricité	Amortissement, uplink domicile, pas de SLA
GPU cloud (A10)	Souvent > 200 €/mois	Pas de macOS, facturation variable
Location Mac mini M4	Opex mensuel, POC court possible	Confiance isolation et effacement

Q : API cloud uniquement, sans modèle local ? Nœud 16 Go suffit ; Ollama optionnel, OpenClaw sur Claude/OpenAI — LaunchAgent reste indispensable pour 7j/7.

Q : OpenClaw vs Hermes ? Hermes excelle en skills auto-évolutifs ; OpenClaw/OpenHuman en canaux et écosystème bureau. Benchmark matériel : test 90 jours Pi, VPS, M4.

Q : Modèle max sur 16 Go ? 7B–13B quantifiés ; 70B réservé au M4 Pro 48–64 Go.

Q : VPS Linux pour économiser ? Expérimentation CLI possible ; qualité LaunchAgent et GUI OpenHuman inférieures.

8. Conclusion : les frameworks s'installent vite — la valeur est le macOS permanent

OpenClaw et OpenHuman se déploient en moins d'une heure. La production se joue sur la Neural Engine disponible en continu, le LaunchAgent qui survit à la déconnexion SSH, et des configs synchronisables par SFTP comme vos renders. Portable, VPS Linux bon marché et Docker bricolé échouent souvent sur « canal pseudo-en-ligne », « OOM local » et « GUI non native » simultanément.

Vous avez choisi local-first plus double piste messagerie/bureau ? Installez passerelle et workspace sur un nœud Apple Silicon toujours actif. SFTPMAC location Mac mini M4 propose machine dédiée, baseline launchd et régions proches : plus rapide qu'un achat, plus macOS qu'un GPU cloud, mieux adapté aux callbacks Telegram/WhatsApp qu'une box Free — pour optimiser modèles et skills plutôt que redémarrer la passerelle à trois heures du matin.

Lecture : mémoire persistante Hermes, restart gateway launchd, split brain après upgrade.