Apple Silicon 處理器特寫,呈現 ds4 在 Mac 本地推理 DeepSeek V4 Flash 的硬體基底

2026 年 antirez 開源 ds4 在 Mac 本地跑 DeepSeek V4 Flash:96/128/512GB 大記憶體 Mac「自購 vs 雲端租賃」決策矩陣

Redis 作者 antirez 以純 C 寫成的 ds4,讓 DeepSeek V4 Flash 第一次真正跑在 Mac 本地。但門檻把多數人擋在門外:96GB 起跑、128GB 才舒適、512GB 才上得了 q4/PRO。本文以官方實測回答該選哪台 Mac、自購還是雲端租賃。

1. 先判層:模型 × 量化 × 記憶體

別一開口就問「能不能跑」,先把三個變數對齊:

  1. 模型:Flash (284B/13B 啟動) 適合本地;PRO (1.6T/49B 啟動) 原生 865GB,本地只能 512GB Ultra + 激進量化。
  2. 量化:q2 只壓縮 MoE 路由專家、注意力保精度,Flash q2 權重約 81GB;q2-imatrix 以 antirez 配方校準誤差很小;q4 是品質上限。
  3. 記憶體:96GB 是 README 起跑線;128GB 才能留 100~300K 上下文 KV;256GB 起跑 q4 Flash;512GB Ultra 才承載 q4 或 PRO q2。

2. ds4 是什麼、不是什麼

:純 C 的 V4 Flash 專用引擎,Metal 為主、CUDA 為副,內建 ds4-server 提供 OpenAI 相容 API,可被 Cursor、opencode 直接當後端。

不是:不是通用 GGUF 載入器,只吃 antirez 發布的 V4 GGUF;不是 Ollama 那種多模型管理器。它刻意做窄,把單一模型推到極致。

3. 讓 Mac 可用的三項關鍵技術

① 磁碟 KV 持久化:以 --kv-disk-dir 把 KV 落到 NVMe,下次會話毋須重跑 prefill,長上下文從等幾十秒變成秒級恢復。

② 1M 上下文 + 非對稱 2-bit:V4 原生 1M 上下文,滿 1M 約 26GB KV;ds4 將 Flash 壓到 128GB 也能跑。

③ 原生 Tool Calling:內建編碼 Agent,相容 OpenAI / Anthropic 呼叫慣例,接 Cursor 零設定。

4. 官方實測速率帳(README 原始數據)

坊間轉述常把 Mac Studio Ultra 的成績錯算到 MacBook 上,以下僅引官方 README 的原始數字:

機型 量化 情境 Prefill (t/s) Generation (t/s)
MBP M3 Max 128GBq2短文本58.5226.68
MBP M3 Max 128GBq211709 tok 長上下文250.1121.47
Mac Studio M3 Ultra 512GBq211709 tok 長上下文468.0327.39
Mac Studio M3 Ultra 512GBq412018 tok 長上下文448.8226.62

結論:128GB MBP 能跑 Flash q2 但上下文吃緊;q4 或多會話只能 512GB Ultra。

5. 為何必須是 Apple Silicon

獨顯方案最大的麻煩是「視訊記憶體碎片化」:把 80GB 級別 MoE 模型分到幾張卡,路由必然跨 PCIe,長上下文吞吐立刻崩盤。Apple 的 UMA 讓 CPU 與 GPU 共享 96~512GB 記憶體,專家路由是零複製;疊加 M3 Ultra 約 800GB/s 頻寬與 NVMe 快取,正好接住 ds4 的磁碟 KV 設計——這也是官方目標從「128GB 起步」開始的根本理由。

6. 自購 vs 雲端租賃 vs 雲端 API:三方案決策矩陣

維度 自購高記憶體 Mac 租 SFTPMAC 遠端 Mac 呼叫雲端 API
啟動成本三至十一萬一次按時數起步僅 Key 工本
資料隱私本機不出門專屬實例需信任供應商
模型切換受記憶體鎖死切機型即升檔切供應商
團隊共用家用機難常駐常電常網共享帳單分攤
長 KV 重用本機即用NVMe 落盤跨會話多數不持久
折舊2~3 年掉 30~50%服務商承擔

簡化判斷:高頻長會話 + 離線合規選自購或長租;試模型 / 團隊共用選按月租賃;偶爾呼叫走雲端 API 即可。

7. 遠端 Mac 上跑 ds4 的五步驟

  1. 定檔:Flash q2 選 128GB,q4 選 256/512GB Ultra,PRO 必須 512GB Ultra。
  2. 拉原始碼權重git clone github.com/antirez/ds4 && make metal,再跑下載腳本取得 GGUF。
  3. 開磁碟 KV 啟動 server
./ds4-server \
  --ctx 100000 \
  --kv-disk-dir /Volumes/Data/ds4-kv \
  --kv-disk-space-mb 8192
  1. 接用戶端:Cursor / opencode base_url 指向 http://<mac>:8080/v1
  2. 多人共享Tailscale 私網開埠 + launchd 守護,KV 落盤跨會話即用。

已在跑 OpenClaw 混合路由 的,可把 ds4-server 當本地通道接入,離線評測走本地、敏感資料不出實例。

8. 常見問題

Q:96GB 能跑? 能啟動,但 81GB 權重 + 系統佔用後只剩十幾 GB 給上下文,長上下文不可行,官方建議 128GB 起。

Q:q2 夠用嗎? q2-imatrix 對 q4 logits 誤差很小,編碼與長文件接近 q4;數值與極端推理仍建議 q4。

Q:取代 Ollama? 不會。ds4 只服務 V4 Flash,Ollama 仍是多模型與小模型好選擇。

9. 結語:軟體已成熟,門檻回到硬體

ds4 證明前沿 MoE 真正能在 Mac 上寫程式、處理 1M 上下文,軟體已成熟。但門檻被推回硬體——128GB MBP 約三萬、512GB Mac Studio Ultra 近十一萬,對個人與小團隊仍是重投資;塞家裡當 7×24 節點還要面對散熱、供電與跨地區存取。

把節點放到 SFTPMAC 遠端 Mac 租賃 更合理:按機型時數計費、ds4 與 GGUF 一次部署多人重用、KV 落盤跨會話即開即用,並能與 OpenClaw 混合路由、launchd 守護、Tailscale 私網無縫銜接。模型迭代未穩前,雲端租賃的彈性比一次性頂規更划算。