2026 年 antirez 开源 ds4 本地跑 DeepSeek V4 Flash:96GB/128GB/512GB 大内存 Mac「自购 vs 云租」决策矩阵
Redis 作者 antirez 用纯 C 写出的 ds4 让 DeepSeek V4 Flash 第一次真正跑在 Mac 本地。但硬件门槛把多数人挡在门外:96GB 起步、128GB 才舒适、512GB 才能 q4/PRO。本文用官方实测速率回答:该选哪台 Mac,自购还是云租。
1. 先判层:模型 × 量化 × 内存
别上来就问「能不能跑」,先把三个变量摆清楚:
- 模型:Flash (284B / 13B 激活) 适合本地;PRO (1.6T / 49B 激活) 原生 865GB,本地只能 512GB Ultra + 激进量化。
- 量化:q2 只压缩 MoE 路由专家、注意力保精度,Flash q2 权重约 81GB;q2-imatrix 用 antirez 配方校准,logits 误差很小;q4 是质量上限。
- 内存:96GB 是 README 入门线;128GB 才能给 100~300K 上下文留 KV;256GB 起跑 q4 Flash;512GB Ultra 才稳定承载 q4 或 PRO q2。
2. ds4 是什么、不是什么
是:纯 C 的 V4 Flash 专用引擎,Metal 主线 + CUDA 副线,自带 ds4-server 提供 OpenAI 兼容 API,可被 Cursor、opencode 直接当后端。
不是:不是通用 GGUF 加载器,只吃 antirez 发布的 V4 GGUF;不是 Ollama 那样的多模型管理器。它故意做窄,把单一模型推到极致。
3. 让 Mac 可用的三项核心技术
① 磁盘 KV 持久化:--kv-disk-dir 把 KV 落到 NVMe,下次会话不用重跑 prefill,长上下文从「等几十秒」变成秒级恢复。
② 1M 上下文 + 非对称 2-bit:V4 原生 1M 上下文,满 1M 约 26GB KV;ds4 把 Flash 压到 128GB 也能跑。
③ 原生 Tool Calling:内置编码 Agent,兼容 OpenAI / Anthropic 调用约定,接 Cursor 零配置。
4. 官方实测速率账(README 原始数据)
外界转述常把 Mac Studio Ultra 的成绩错算到 MacBook 上,下面只引 README 原始数字:
| 机型 | 量化 | 场景 | Prefill (t/s) | Generation (t/s) |
|---|---|---|---|---|
| MBP M3 Max 128GB | q2 | 短文本 | 58.52 | 26.68 |
| MBP M3 Max 128GB | q2 | 11709 tok 长上下文 | 250.11 | 21.47 |
| Mac Studio M3 Ultra 512GB | q2 | 11709 tok 长上下文 | 468.03 | 27.39 |
| Mac Studio M3 Ultra 512GB | q4 | 12018 tok 长上下文 | 448.82 | 26.62 |
结论:128GB MBP 能流畅跑 Flash q2 但上下文吃紧;要 q4 或多会话只能 512GB Ultra。
5. 为什么必须是 Apple Silicon
独显方案的麻烦是「显存碎片化」:把 80GB 量级 MoE 模型分到几张卡,专家路由跨 PCIe,长上下文吞吐就崩。Apple 的 UMA 让 CPU/GPU 共享 96~512GB 内存,路由专家零拷贝;叠加 M3 Ultra 约 800GB/s 带宽与 NVMe 缓存,正好接住 ds4 的磁盘 KV 设计——这是 ds4 把 Metal 当一等公民、官方目标从「128GB 起步」开始的根本原因。
6. 自购 vs 云租 vs 调用云端 API:三方案决策矩阵
| 维度 | 自购高内存 Mac | 租 SFTPMAC 远程 Mac | 调用云端 API |
|---|---|---|---|
| 启动成本 | 3~11 万一次性 | 按时长起步几百 | 仅 Key 工本 |
| 数据隐私 | 本机不出门 | 专属实例 | 需信任供应商 |
| 模型切换 | 受内存锁死 | 切机型即升档 | 切供应商 |
| 团队共享 | 家用机难常驻 | 常电常网共享 | 账单分摊 |
| 长 KV 复用 | 本机即用 | NVMe 落盘跨会话 | 多数不持久 |
| 折旧 | 2~3 年掉 30~50% | 服务商承担 | 无 |
简化判断:高频长会话 + 离线合规选自购或长租;试模型 / 团队共享选按月租;偶尔调用走云端 API 即可。
7. 远程 Mac 上跑 ds4 的五步
- 定档:Flash q2 选 128GB,q4 选 256/512GB Ultra,PRO 必须 512GB Ultra。
- 拉源码与权重:
git clone github.com/antirez/ds4 && make metal,再跑下载脚本拉 GGUF。 - 开磁盘 KV 启动 server:
./ds4-server \
--ctx 100000 \
--kv-disk-dir /Volumes/Data/ds4-kv \
--kv-disk-space-mb 8192
- 接客户端:Cursor / opencode 的 base_url 指向
http://<mac>:8080/v1。 - 多人共享:Tailscale 私网暴露端口 + launchd 守护,KV 落盘跨会话即开即用。
已在跑 OpenClaw 混合路由 的,可把 ds4-server 当本地通道接入,离线评测走本地、敏感数据不出实例。
8. 常见问题
Q:96GB 真能跑? 能启动,但 81GB 权重 + 系统占用后只剩十几 GB 给上下文,长上下文不可行,官方推荐 128GB 起。
Q:q2 够用吗? q2-imatrix 对 q4 logits 误差很小,编码与长文档体感接近 q4;数值与极端推理仍建议 q4。
Q:取代 Ollama? 不会。ds4 故意做窄只服务 V4 Flash,Ollama 仍是多模型与小模型的好选择。
9. 总结:软件已成熟,门槛回到了硬件
ds4 证明前沿 MoE 真正能在 Mac 上写代码、处理 1M 上下文,软件已成熟。但门槛被推回硬件——128GB MBP 约 3 万、512GB Mac Studio Ultra 近 11 万,对个人和小团队仍是重投资;塞家里当 7×24 节点还要面对散热、供电、跨地区访问的现实墙。
把节点放到 SFTPMAC 远程 Mac 租赁 更合理:按机型时长付费、ds4 与 GGUF 一次部署多人复用、KV 落盘跨会话即开即用,并能与 OpenClaw 混合路由、launchd 守护、Tailscale 私网无缝衔接。模型迭代尚未稳定前,云租的弹性比一次性顶配更经济。