DeepSeek V4 Flash 在 Mac 上至少要多少記憶體？

ds4 README 明確說明 96GB 為起跑線；128GB 才能在 81GB 權重之上留出 100~300K token 的上下文空間，q4 與 V4-PRO 建議 256 或 512GB 的 Mac Studio Ultra。

ds4 和 llama.cpp、MLX、Ollama 邊界在哪？

ds4 只服務 antirez 發布的 DeepSeek V4 GGUF，不是通用載入器；它做窄而深的單模型 Metal/CUDA 與磁碟 KV 最佳化，不替代 Ollama 的多模型管理。

買 128GB MacBook 還是租遠端 Mac 更划算？

高頻長會話且預算充足適合自購；試模型、按需評測、團隊共享情境下，雲端租賃在 6 至 12 個月內人均 TCO 通常顯著低於一次性投入。

2026 年 antirez 開源 ds4 在 Mac 本地跑 DeepSeek V4 Flash：96/128/512GB 大記憶體 Mac「自購 vs 雲端租賃」決策矩陣

Redis 作者 antirez 以純 C 寫成的 ds4，讓 DeepSeek V4 Flash 第一次真正跑在 Mac 本地。但門檻把多數人擋在門外：96GB 起跑、128GB 才舒適、512GB 才上得了 q4/PRO。本文以官方實測回答該選哪台 Mac、自購還是雲端租賃。

1. 先判層：模型 × 量化 × 記憶體

別一開口就問「能不能跑」，先把三個變數對齊：

模型：Flash (284B/13B 啟動) 適合本地；PRO (1.6T/49B 啟動) 原生 865GB，本地只能 512GB Ultra + 激進量化。
量化：q2 只壓縮 MoE 路由專家、注意力保精度，Flash q2 權重約 81GB；q2-imatrix 以 antirez 配方校準誤差很小；q4 是品質上限。
記憶體：96GB 是 README 起跑線；128GB 才能留 100~300K 上下文 KV；256GB 起跑 q4 Flash；512GB Ultra 才承載 q4 或 PRO q2。

2. ds4 是什麼、不是什麼

是：純 C 的 V4 Flash 專用引擎，Metal 為主、CUDA 為副，內建 ds4-server 提供 OpenAI 相容 API，可被 Cursor、opencode 直接當後端。

不是：不是通用 GGUF 載入器，只吃 antirez 發布的 V4 GGUF；不是 Ollama 那種多模型管理器。它刻意做窄，把單一模型推到極致。

3. 讓 Mac 可用的三項關鍵技術

① 磁碟 KV 持久化：以 --kv-disk-dir 把 KV 落到 NVMe，下次會話毋須重跑 prefill，長上下文從等幾十秒變成秒級恢復。

② 1M 上下文 + 非對稱 2-bit：V4 原生 1M 上下文，滿 1M 約 26GB KV；ds4 將 Flash 壓到 128GB 也能跑。

③ 原生 Tool Calling：內建編碼 Agent，相容 OpenAI / Anthropic 呼叫慣例，接 Cursor 零設定。

4. 官方實測速率帳（README 原始數據）

坊間轉述常把 Mac Studio Ultra 的成績錯算到 MacBook 上，以下僅引官方 README 的原始數字：

機型	量化	情境	Prefill (t/s)	Generation (t/s)
MBP M3 Max 128GB	q2	短文本	58.52	26.68
MBP M3 Max 128GB	q2	11709 tok 長上下文	250.11	21.47
Mac Studio M3 Ultra 512GB	q2	11709 tok 長上下文	468.03	27.39
Mac Studio M3 Ultra 512GB	q4	12018 tok 長上下文	448.82	26.62

結論：128GB MBP 能跑 Flash q2 但上下文吃緊；q4 或多會話只能 512GB Ultra。

5. 為何必須是 Apple Silicon

獨顯方案最大的麻煩是「視訊記憶體碎片化」：把 80GB 級別 MoE 模型分到幾張卡，路由必然跨 PCIe，長上下文吞吐立刻崩盤。Apple 的 UMA 讓 CPU 與 GPU 共享 96~512GB 記憶體，專家路由是零複製；疊加 M3 Ultra 約 800GB/s 頻寬與 NVMe 快取，正好接住 ds4 的磁碟 KV 設計——這也是官方目標從「128GB 起步」開始的根本理由。

6. 自購 vs 雲端租賃 vs 雲端 API：三方案決策矩陣

維度	自購高記憶體 Mac	租 SFTPMAC 遠端 Mac	呼叫雲端 API
啟動成本	三至十一萬一次	按時數起步	僅 Key 工本
資料隱私	本機不出門	專屬實例	需信任供應商
模型切換	受記憶體鎖死	切機型即升檔	切供應商
團隊共用	家用機難常駐	常電常網共享	帳單分攤
長 KV 重用	本機即用	NVMe 落盤跨會話	多數不持久
折舊	2~3 年掉 30~50%	服務商承擔	無

簡化判斷：高頻長會話 + 離線合規選自購或長租；試模型 / 團隊共用選按月租賃；偶爾呼叫走雲端 API 即可。

7. 遠端 Mac 上跑 ds4 的五步驟

定檔：Flash q2 選 128GB，q4 選 256/512GB Ultra，PRO 必須 512GB Ultra。
拉原始碼權重：git clone github.com/antirez/ds4 && make metal，再跑下載腳本取得 GGUF。
開磁碟 KV 啟動 server：

./ds4-server \
  --ctx 100000 \
  --kv-disk-dir /Volumes/Data/ds4-kv \
  --kv-disk-space-mb 8192

接用戶端：Cursor / opencode base_url 指向 http://<mac>:8080/v1。
多人共享：Tailscale 私網開埠 + launchd 守護，KV 落盤跨會話即用。

已在跑 OpenClaw 混合路由的，可把 ds4-server 當本地通道接入，離線評測走本地、敏感資料不出實例。

8. 常見問題

Q：96GB 能跑？ 能啟動，但 81GB 權重 + 系統佔用後只剩十幾 GB 給上下文，長上下文不可行，官方建議 128GB 起。

Q：q2 夠用嗎？ q2-imatrix 對 q4 logits 誤差很小，編碼與長文件接近 q4；數值與極端推理仍建議 q4。

Q：取代 Ollama？ 不會。ds4 只服務 V4 Flash，Ollama 仍是多模型與小模型好選擇。

9. 結語：軟體已成熟，門檻回到硬體

ds4 證明前沿 MoE 真正能在 Mac 上寫程式、處理 1M 上下文，軟體已成熟。但門檻被推回硬體——128GB MBP 約三萬、512GB Mac Studio Ultra 近十一萬，對個人與小團隊仍是重投資；塞家裡當 7×24 節點還要面對散熱、供電與跨地區存取。

把節點放到 SFTPMAC 遠端 Mac 租賃 更合理：按機型時數計費、ds4 與 GGUF 一次部署多人重用、KV 落盤跨會話即開即用，並能與 OpenClaw 混合路由、launchd 守護、Tailscale 私網無縫銜接。模型迭代未穩前，雲端租賃的彈性比一次性頂規更划算。