2026 年 antirez 開源 ds4 在 Mac 本地跑 DeepSeek V4 Flash:96/128/512GB 大記憶體 Mac「自購 vs 雲端租賃」決策矩陣
Redis 作者 antirez 以純 C 寫成的 ds4,讓 DeepSeek V4 Flash 第一次真正跑在 Mac 本地。但門檻把多數人擋在門外:96GB 起跑、128GB 才舒適、512GB 才上得了 q4/PRO。本文以官方實測回答該選哪台 Mac、自購還是雲端租賃。
1. 先判層:模型 × 量化 × 記憶體
別一開口就問「能不能跑」,先把三個變數對齊:
- 模型:Flash (284B/13B 啟動) 適合本地;PRO (1.6T/49B 啟動) 原生 865GB,本地只能 512GB Ultra + 激進量化。
- 量化:q2 只壓縮 MoE 路由專家、注意力保精度,Flash q2 權重約 81GB;q2-imatrix 以 antirez 配方校準誤差很小;q4 是品質上限。
- 記憶體:96GB 是 README 起跑線;128GB 才能留 100~300K 上下文 KV;256GB 起跑 q4 Flash;512GB Ultra 才承載 q4 或 PRO q2。
2. ds4 是什麼、不是什麼
是:純 C 的 V4 Flash 專用引擎,Metal 為主、CUDA 為副,內建 ds4-server 提供 OpenAI 相容 API,可被 Cursor、opencode 直接當後端。
不是:不是通用 GGUF 載入器,只吃 antirez 發布的 V4 GGUF;不是 Ollama 那種多模型管理器。它刻意做窄,把單一模型推到極致。
3. 讓 Mac 可用的三項關鍵技術
① 磁碟 KV 持久化:以 --kv-disk-dir 把 KV 落到 NVMe,下次會話毋須重跑 prefill,長上下文從等幾十秒變成秒級恢復。
② 1M 上下文 + 非對稱 2-bit:V4 原生 1M 上下文,滿 1M 約 26GB KV;ds4 將 Flash 壓到 128GB 也能跑。
③ 原生 Tool Calling:內建編碼 Agent,相容 OpenAI / Anthropic 呼叫慣例,接 Cursor 零設定。
4. 官方實測速率帳(README 原始數據)
坊間轉述常把 Mac Studio Ultra 的成績錯算到 MacBook 上,以下僅引官方 README 的原始數字:
| 機型 | 量化 | 情境 | Prefill (t/s) | Generation (t/s) |
|---|---|---|---|---|
| MBP M3 Max 128GB | q2 | 短文本 | 58.52 | 26.68 |
| MBP M3 Max 128GB | q2 | 11709 tok 長上下文 | 250.11 | 21.47 |
| Mac Studio M3 Ultra 512GB | q2 | 11709 tok 長上下文 | 468.03 | 27.39 |
| Mac Studio M3 Ultra 512GB | q4 | 12018 tok 長上下文 | 448.82 | 26.62 |
結論:128GB MBP 能跑 Flash q2 但上下文吃緊;q4 或多會話只能 512GB Ultra。
5. 為何必須是 Apple Silicon
獨顯方案最大的麻煩是「視訊記憶體碎片化」:把 80GB 級別 MoE 模型分到幾張卡,路由必然跨 PCIe,長上下文吞吐立刻崩盤。Apple 的 UMA 讓 CPU 與 GPU 共享 96~512GB 記憶體,專家路由是零複製;疊加 M3 Ultra 約 800GB/s 頻寬與 NVMe 快取,正好接住 ds4 的磁碟 KV 設計——這也是官方目標從「128GB 起步」開始的根本理由。
6. 自購 vs 雲端租賃 vs 雲端 API:三方案決策矩陣
| 維度 | 自購高記憶體 Mac | 租 SFTPMAC 遠端 Mac | 呼叫雲端 API |
|---|---|---|---|
| 啟動成本 | 三至十一萬一次 | 按時數起步 | 僅 Key 工本 |
| 資料隱私 | 本機不出門 | 專屬實例 | 需信任供應商 |
| 模型切換 | 受記憶體鎖死 | 切機型即升檔 | 切供應商 |
| 團隊共用 | 家用機難常駐 | 常電常網共享 | 帳單分攤 |
| 長 KV 重用 | 本機即用 | NVMe 落盤跨會話 | 多數不持久 |
| 折舊 | 2~3 年掉 30~50% | 服務商承擔 | 無 |
簡化判斷:高頻長會話 + 離線合規選自購或長租;試模型 / 團隊共用選按月租賃;偶爾呼叫走雲端 API 即可。
7. 遠端 Mac 上跑 ds4 的五步驟
- 定檔:Flash q2 選 128GB,q4 選 256/512GB Ultra,PRO 必須 512GB Ultra。
- 拉原始碼權重:
git clone github.com/antirez/ds4 && make metal,再跑下載腳本取得 GGUF。 - 開磁碟 KV 啟動 server:
./ds4-server \
--ctx 100000 \
--kv-disk-dir /Volumes/Data/ds4-kv \
--kv-disk-space-mb 8192
- 接用戶端:Cursor / opencode base_url 指向
http://<mac>:8080/v1。 - 多人共享:Tailscale 私網開埠 + launchd 守護,KV 落盤跨會話即用。
已在跑 OpenClaw 混合路由 的,可把 ds4-server 當本地通道接入,離線評測走本地、敏感資料不出實例。
8. 常見問題
Q:96GB 能跑? 能啟動,但 81GB 權重 + 系統佔用後只剩十幾 GB 給上下文,長上下文不可行,官方建議 128GB 起。
Q:q2 夠用嗎? q2-imatrix 對 q4 logits 誤差很小,編碼與長文件接近 q4;數值與極端推理仍建議 q4。
Q:取代 Ollama? 不會。ds4 只服務 V4 Flash,Ollama 仍是多模型與小模型好選擇。
9. 結語:軟體已成熟,門檻回到硬體
ds4 證明前沿 MoE 真正能在 Mac 上寫程式、處理 1M 上下文,軟體已成熟。但門檻被推回硬體——128GB MBP 約三萬、512GB Mac Studio Ultra 近十一萬,對個人與小團隊仍是重投資;塞家裡當 7×24 節點還要面對散熱、供電與跨地區存取。
把節點放到 SFTPMAC 遠端 Mac 租賃 更合理:按機型時數計費、ds4 與 GGUF 一次部署多人重用、KV 落盤跨會話即開即用,並能與 OpenClaw 混合路由、launchd 守護、Tailscale 私網無縫銜接。模型迭代未穩前,雲端租賃的彈性比一次性頂規更划算。