2026 antirez ds4 : DeepSeek V4 Flash en local sur Mac — Matrice décisionnelle achat vs location 96/128/512GB
Salvatore Sanfilippo, plus connu sous le pseudonyme d'antirez et auteur de Redis, a publié en mai 2026 un moteur d'inférence aussi rare qu'élégant : ds4, écrit en C pur, sans aucune dépendance à un runtime tiers, dédié à DeepSeek V4 Flash sur Apple Silicon et CUDA. Le projet a franchi onze mille étoiles en quelques semaines. La promesse technique est réelle, mais l'escalier matériel est abrupt : ds4 vise 96 Go de mémoire unifiée en seuil d'entrée, 128 Go pour un confort de travail, et 256 à 512 Go de Mac Studio Ultra pour q4 ou V4-PRO. Cet article rassemble les chiffres du README, les faits du modèle V4 et une matrice décisionnelle achat / location de Mac distant / API hébergée, écrite pour les studios de création, les agences techniques et les équipes produit qui font passer leur agent IA en production en 2026.
1. Tri préalable : modèle, quantification, mémoire
La plupart des équipes qui échouent à faire tourner DeepSeek V4 en local échouent en réalité sur le cadrage. Trois variables fixent la faisabilité bien avant la première commande ; elles méritent d'être écrites noir sur blanc avant le moindre devis matériel.
Palier de modèle. V4-Flash totalise 284 milliards de paramètres avec 13 milliards actifs par token ; V4-PRO atteint 1,6 mille milliards de paramètres pour 49 milliards actifs. Tous deux partagent une fenêtre de contexte d'un million de tokens, sous licence MIT, publiés le 24 avril 2026. Flash est la cible locale réaliste. PRO pèse environ 865 Go sur Hugging Face et reste plausible uniquement sur 512 Go Ultra avec quantification agressive ; en dehors de ce cas, il vit en API hébergée.
Palier de quantification. ds4 propose trois recettes Flash. Le simple q2 emploie une quantification asymétrique qui ne touche que les experts routés du MoE et laisse l'attention et les embeddings près de la pleine précision ; les poids Flash q2 pèsent près de 81 Go. La variante q2-imatrix utilise une matrice d'importance calibrée par l'auteur, dont l'erreur sur les logits reste, selon le README, proche de q4. q4 est le plafond qualité et exige davantage de mémoire et de bande passante.
Palier de mémoire. Le README est sans ambiguïté : ds4 prend du sens « à partir de 96 Go » de mémoire unifiée. Avec 81 Go de poids résidents, un Mac de 128 Go laisse moins de 30 Go pour l'OS, le cache KV et la marge, ce qui plafonne le contexte utilisable d'une session à environ 100 à 300 K tokens. 256 Go de Mac Studio constitue le siège confortable pour Flash q4, et 512 Go de Mac Studio Ultra représente le plancher réaliste pour les sessions parallèles, les contextes très longs ou les expériences avec PRO.
2. Ce que ds4 est, et ce qu'il n'est pas
ds4 est un moteur natif autonome : pur C, Metal comme backend principal sur macOS et CUDA comme backend secondaire sous Linux. Il embarque un serveur HTTP (ds4-server) qui expose les endpoints OpenAI-compatibles /v1/models et /v1/chat/completions, un Tool Calling natif et un agent de codage intégré. Cursor, opencode et la plupart des SDK OpenAI s'y branchent par simple changement de base_url.
ds4 n'est pas un lecteur GGUF généraliste. Le loader, le rendu de prompt, l'agencement KV et la machine d'état MTP sont spécifiques aux GGUF DeepSeek V4 Flash publiés sous antirez/deepseek-v4-gguf sur Hugging Face. Il ne concurrence ni Ollama, ni llama.cpp, ni MLX comme gestionnaire de modèles. L'auteur troque la généralité contre la concentration, et le README annonce franchement un statut alpha, conséquence assumée d'une cible mouvante.
3. Trois trouvailles d'ingénierie
Cache KV sur disque. Les options --kv-disk-dir et --kv-disk-space-mb renvoient le cache KV vers un dossier NVMe entre les tours. Une seconde conversation sur le même préfixe évite intégralement le prefill, transformant un démarrage à froid de plusieurs secondes en reprise quasi instantanée. Sur un Mac distant doté d'un SSD rapide, cette seule fonctionnalité rend les sessions de code longues réellement vivables.
Quantification 2 bits asymétrique alignée sur le MoE. La charge de compression repose sur les experts routés (IQ2_XXS sur le gate, Q2_K sur le down) et préserve la précision de l'attention là où elle pèse le plus sur les logits. C'est ce qui permet à Flash q2 de tenir dans 128 Go tout en restant fiable sous un agent de codage, là où les schémas 2 bits naïfs s'effondrent en boucles d'hallucination.
Tool Calling et surface OpenAI. ds4 implémente nativement les formats OpenAI et Anthropic pour les appels d'outils, ce qui dispense Cursor, opencode et la plupart des agents open-source de toute couche de traduction. L'intégration agent y est traitée comme un objectif de correction de premier rang, pas comme une démo — rare chez un projet d'inférence porté par un seul développeur.
4. Benchmarks README pour le dossier d'achat
Les reprises secondaires attribuent souvent les résultats du Mac Studio Ultra à des MacBook. Les chiffres ci-dessous proviennent directement du README et doivent servir d'ancrage à tout dossier interne. Toutes les valeurs sont en tokens par seconde ; les colonnes longues utilisent le prompt README de 11 709 tokens en q2 et 12 018 tokens en q4.
| Machine | Quant. | Scénario | Prefill (t/s) | Generation (t/s) |
|---|---|---|---|---|
| MacBook Pro M3 Max 128 Go | q2 | Prompt court | 58,52 | 26,68 |
| MacBook Pro M3 Max 128 Go | q2 | Long (11709 tok) | 250,11 | 21,47 |
| Mac Studio M3 Ultra 512 Go | q2 | Long (11709 tok) | 468,03 | 27,39 |
| Mac Studio M3 Ultra 512 Go | q4 | Long (12018 tok) | 448,82 | 26,62 |
Lecture : un portable M3 Max 128 Go suffit pour un Flash q2 mono-utilisateur, mais les sessions parallèles ou la qualité q4 exigent 256 Go, voire 512 Go Ultra pour disposer de marge. Citez ces chiffres et non l'illusion « M5 Max 463/34 » qui circule sur les réseaux et combine en réalité un prefill Ultra avec une génération portable.
5. Pourquoi l'UMA Apple Silicon l'emporte
L'argument classique contre l'inférence MoE locale tient à la fragmentation mémoire. Étaler 81 Go de poids sur deux ou quatre cartes discrètes oblige le routage des experts à passer par PCIe à chaque token, et la cadence en long contexte s'effondre précisément quand elle est requise. L'architecture mémoire unifiée d'Apple permet au CPU et au GPU de partager la même réserve de 96 à 512 Go : la recherche d'expert devient un simple accès mémoire, sans recopie. Conjuguée à une bande passante de l'ordre de 800 Go/s sur le M3 Ultra et au débit séquentiel élevé des NVMe macOS, on obtient exactement le substrat pour lequel ds4 a été pensé. D'où l'élévation de Metal au rang de backend de premier plan et la mention explicite des Mac de 128 Go et plus.
6. Achat vs location vs API : la matrice
L'économie n'est plus abstraite. Un MacBook Pro M3 Max 128 Go neuf se situe autour de 4 500 USD, un Mac Studio Ultra 512 Go dépasse 13 000 USD avant taxes. La location à l'heure ou au mois supprime l'investissement initial, le risque de dépréciation et la corvée d'opérer un nœud 24/7 depuis un salon. La matrice ci-dessous résume les trois options vivantes.
| Dimension | Acheter un Mac haute mémoire | Louer un Mac distant | Appeler une API hébergée |
|---|---|---|---|
| Coût initial | 4,5 à 13 K USD capex | Heure ou mois, entrée basse | Clé API seule |
| Résidence données | Sur l'appareil | Instance dédiée | Confiance fournisseur |
| Agilité modèle | Bloquée par RAM | Changement de palier | Changement de fournisseur |
| Partage équipe | Difficile depuis bureau | Toujours en ligne | Facturation par siège |
| KV long terme | NVMe local | NVMe inter-sessions | Rarement persistant |
| Dépréciation | 30 à 50 % sur deux ans | Portée par le fournisseur | Nulle |
Règle simple : usage soutenu et résidence locale impérative → acheter ou louer sur la durée. Choix de modèle mouvant, partage entre développeurs, évaluation par à-coups → louer. Usage occasionnel sans contrainte de résidence → API hébergée.
7. Cinq étapes sur un Mac distant
- Choisir le palier. Flash q2 demande 128 Go ; Flash q4 demande 256 ou 512 Go Ultra ; V4-PRO exige 512 Go Ultra. Ne négociez pas avec le README sur ce point.
- Cloner et compiler.
git clone https://github.com/antirez/ds4 && make metalsur macOS ; aucun runtime Homebrew ni roue Python n'est nécessaire. - Récupérer les poids. Le script
download-deepseek-v4-ggufécrit en curl reprenable dans./gguf/et pointe./ds4flash.ggufsur la variante choisie. - Lancer le serveur avec KV disque.
./ds4-server \
--ctx 100000 \
--kv-disk-dir /Volumes/Data/ds4-kv \
--kv-disk-space-mb 8192
- Brancher et partager. Pointer Cursor ou opencode sur
http://host:8080/v1, exposer le port via un mesh Tailscale et maintenir l'hôte en ligne avec une disponibilité gérée par launchd. Si vous opérez déjà OpenClaw avec routage hybride Ollama, branchez ds4-server comme canal local pour des évaluations hors-ligne.
8. Studios de création : pourquoi le Mac compte ici
Une part importante de la chaîne créative — Final Cut, Logic, Motion, Pro Tools, Adobe Creative Suite — vit déjà sur macOS. Brancher un agent de codage ou un assistant de scénarisation sur le même substrat évite à la fois la copie de fichiers vers une infrastructure parallèle et la traduction permanente des chemins POSIX. Un Mac distant sous ds4 sert alors deux rôles : moteur d'inférence pour les tâches lourdes et nœud Apple pour la chaîne logicielle déjà en place. Pour une agence ou un studio, cette continuité réduit la friction, la formation et le risque de fuite via des outils tiers.
9. FAQ
Un MacBook 96 Go peut-il vraiment exécuter Flash ? Il démarre, mais avec 81 Go de poids résidents, il ne reste qu'une poignée de Go pour le contexte une fois l'OS chargé, ce qui rend les sessions longues et le multi-utilisateur impraticables.
q2-imatrix est-il aussi bon que q4 ? Le README annonce un écart de logits faible sur les prompts orientés code ; le numérique et l'adversarial continuent de favoriser q4.
ds4 va-t-il remplacer Ollama ? Non. Les missions diffèrent : Ollama reste le gestionnaire de modèles et le runtime des petits modèles ; ds4 est un moteur focalisé sur un seul modèle de frontière.
Le contexte 1M est-il exploitable sur Mac ? Selon le README, un contexte plein de 1M occupe environ 26 Go de KV ; un hôte de 128 Go plafonne donc en pratique à 100 à 300 K tokens, et 512 Go Ultra est requis pour un long contexte en production.
10. Conclusion : l'inférence locale est réelle, mais le goulot est désormais matériel
ds4 démontre qu'un modèle MoE de frontière peut tourner sur un Mac personnel, avec un million de tokens de contexte, du tool calling et une surface OpenAI propre. Le récit logiciel est mûr. Ce qui ne l'est pas, c'est le tissu social autour d'un portable 128 Go ou d'un Studio à 13 000 USD posé sous un bureau : limites thermiques, mises en veille, électricité résidentielle et le scénario d'échec récurrent « je ne suis pas au bureau aujourd'hui, l'agent est hors ligne ».
C'est précisément la brèche que notre flotte de Mac distants vient combler. SFTPMAC loue des machines Apple Silicon dans les paliers 128, 256 et 512 Go ciblés par ds4, prépare la chaîne de déploiement à l'avance, dimensionne les NVMe pour le dossier KV disque et garantit la disponibilité via une supervision launchd. Vous ne payez que les heures où la boucle d'inférence est chaude, vous changez de palier au gré de l'évolution de V4, vous exposez la surface OpenAI à votre équipe via un mesh privé, et vous conservez les poids comme l'historique conversationnel à l'intérieur d'une instance que vous contrôlez. Pour la plupart des studios et agences, ce modèle se traduit par un coût total de possession à douze mois inférieur à l'achat d'un Mac haute mémoire, sans la fatigue opérationnelle d'un nœud 24/7 maison.