Apple Silicon 处理器与 ds4 DeepSeek V4 Flash 本地推理示意

2026 年 antirez 开源 ds4 本地跑 DeepSeek V4 Flash:96GB/128GB/512GB 大内存 Mac「自购 vs 云租」决策矩阵

Redis 作者 antirez 用纯 C 写出的 ds4DeepSeek V4 Flash 第一次真正跑在 Mac 本地。但硬件门槛把多数人挡在门外:96GB 起步、128GB 才舒适、512GB 才能 q4/PRO。本文用官方实测速率回答:该选哪台 Mac,自购还是云租。

1. 先判层:模型 × 量化 × 内存

别上来就问「能不能跑」,先把三个变量摆清楚:

  1. 模型:Flash (284B / 13B 激活) 适合本地;PRO (1.6T / 49B 激活) 原生 865GB,本地只能 512GB Ultra + 激进量化。
  2. 量化:q2 只压缩 MoE 路由专家、注意力保精度,Flash q2 权重约 81GB;q2-imatrix 用 antirez 配方校准,logits 误差很小;q4 是质量上限。
  3. 内存:96GB 是 README 入门线;128GB 才能给 100~300K 上下文留 KV;256GB 起跑 q4 Flash;512GB Ultra 才稳定承载 q4 或 PRO q2。

2. ds4 是什么、不是什么

:纯 C 的 V4 Flash 专用引擎,Metal 主线 + CUDA 副线,自带 ds4-server 提供 OpenAI 兼容 API,可被 Cursor、opencode 直接当后端。

不是:不是通用 GGUF 加载器,只吃 antirez 发布的 V4 GGUF;不是 Ollama 那样的多模型管理器。它故意做窄,把单一模型推到极致。

3. 让 Mac 可用的三项核心技术

① 磁盘 KV 持久化--kv-disk-dir 把 KV 落到 NVMe,下次会话不用重跑 prefill,长上下文从「等几十秒」变成秒级恢复。

② 1M 上下文 + 非对称 2-bit:V4 原生 1M 上下文,满 1M 约 26GB KV;ds4 把 Flash 压到 128GB 也能跑。

③ 原生 Tool Calling:内置编码 Agent,兼容 OpenAI / Anthropic 调用约定,接 Cursor 零配置。

4. 官方实测速率账(README 原始数据)

外界转述常把 Mac Studio Ultra 的成绩错算到 MacBook 上,下面只引 README 原始数字:

机型 量化 场景 Prefill (t/s) Generation (t/s)
MBP M3 Max 128GB q2 短文本 58.52 26.68
MBP M3 Max 128GB q2 11709 tok 长上下文 250.11 21.47
Mac Studio M3 Ultra 512GB q2 11709 tok 长上下文 468.03 27.39
Mac Studio M3 Ultra 512GB q4 12018 tok 长上下文 448.82 26.62

结论:128GB MBP 能流畅跑 Flash q2 但上下文吃紧;要 q4 或多会话只能 512GB Ultra。

5. 为什么必须是 Apple Silicon

独显方案的麻烦是「显存碎片化」:把 80GB 量级 MoE 模型分到几张卡,专家路由跨 PCIe,长上下文吞吐就崩。Apple 的 UMA 让 CPU/GPU 共享 96~512GB 内存,路由专家零拷贝;叠加 M3 Ultra 约 800GB/s 带宽与 NVMe 缓存,正好接住 ds4 的磁盘 KV 设计——这是 ds4 把 Metal 当一等公民、官方目标从「128GB 起步」开始的根本原因。

6. 自购 vs 云租 vs 调用云端 API:三方案决策矩阵

维度 自购高内存 Mac 租 SFTPMAC 远程 Mac 调用云端 API
启动成本3~11 万一次性按时长起步几百仅 Key 工本
数据隐私本机不出门专属实例需信任供应商
模型切换受内存锁死切机型即升档切供应商
团队共享家用机难常驻常电常网共享账单分摊
长 KV 复用本机即用NVMe 落盘跨会话多数不持久
折旧2~3 年掉 30~50%服务商承担

简化判断:高频长会话 + 离线合规选自购或长租;试模型 / 团队共享选按月租;偶尔调用走云端 API 即可。

7. 远程 Mac 上跑 ds4 的五步

  1. 定档:Flash q2 选 128GB,q4 选 256/512GB Ultra,PRO 必须 512GB Ultra。
  2. 拉源码与权重git clone github.com/antirez/ds4 && make metal,再跑下载脚本拉 GGUF。
  3. 开磁盘 KV 启动 server
./ds4-server \
  --ctx 100000 \
  --kv-disk-dir /Volumes/Data/ds4-kv \
  --kv-disk-space-mb 8192
  1. 接客户端:Cursor / opencode 的 base_url 指向 http://<mac>:8080/v1
  2. 多人共享Tailscale 私网暴露端口 + launchd 守护,KV 落盘跨会话即开即用。

已在跑 OpenClaw 混合路由 的,可把 ds4-server 当本地通道接入,离线评测走本地、敏感数据不出实例。

8. 常见问题

Q:96GB 真能跑? 能启动,但 81GB 权重 + 系统占用后只剩十几 GB 给上下文,长上下文不可行,官方推荐 128GB 起。

Q:q2 够用吗? q2-imatrix 对 q4 logits 误差很小,编码与长文档体感接近 q4;数值与极端推理仍建议 q4。

Q:取代 Ollama? 不会。ds4 故意做窄只服务 V4 Flash,Ollama 仍是多模型与小模型的好选择。

9. 总结:软件已成熟,门槛回到了硬件

ds4 证明前沿 MoE 真正能在 Mac 上写代码、处理 1M 上下文,软件已成熟。但门槛被推回硬件——128GB MBP 约 3 万、512GB Mac Studio Ultra 近 11 万,对个人和小团队仍是重投资;塞家里当 7×24 节点还要面对散热、供电、跨地区访问的现实墙。

把节点放到 SFTPMAC 远程 Mac 租赁 更合理:按机型时长付费、ds4 与 GGUF 一次部署多人复用、KV 落盘跨会话即开即用,并能与 OpenClaw 混合路由、launchd 守护、Tailscale 私网无缝衔接。模型迭代尚未稳定前,云租的弹性比一次性顶配更经济。