2026 年 antirez 製 ds4 で Mac ローカル DeepSeek V4 Flash:96/128/512GB 自前購入 vs クラウド貸借 決定マトリクス
Redis 作者 antirez 製の ds4 で DeepSeek V4 Flash を Mac で動かせる時代が来ました。ただし 96GB 起点、128GB で実用、512GB で q4/PRO。本稿は README 実測値を基に機種選定と「購入 / レンタル / API」の三択を整理します。
1. 先判断:モデル × 量子化 × メモリ
「動くか」より先に 3 変数を固定してください。
- モデル:Flash (284B/13B 活性) がローカル向け、PRO (1.6T/49B 活性) は 512GB Ultra + 強量子化のみ現実的。
- 量子化:q2 は MoE 経路の専門家のみ圧縮し注意機構は高精度維持、Flash q2 重み約 81GB。q2-imatrix は logits 誤差が小、q4 は品質上限。
- メモリ:96GB が README 起点。128GB で 100~300K 文脈 KV を確保、256GB で q4 Flash、512GB Ultra で q4/PRO q2。
2. ds4 とは何か
是:純 C 製 V4 Flash 専用エンジン。Metal 主、CUDA 副。ds4-server が OpenAI 互換 API を提供し Cursor/opencode を直接バックエンドにできます。
非:汎用 GGUF ローダではなく antirez 公開 GGUF 専用。Ollama のような多モデル管理でもなく、意図的に狭く設計されています。
3. Mac を実用にする 3 技術
① ディスク KV:--kv-disk-dir で KV を NVMe に退避、次回は prefill 不要、長文脈が秒級復帰。
② 1M 文脈 + 非対称 2-bit:満杯時 KV 約 26GB、Flash を 128GB に収めて運用可能。
③ ネイティブ Tool Calling:OpenAI/Anthropic 双方の規約に対応、Cursor へほぼ設定不要で接続。
4. README の実測 t/s
巷の二次転載は Mac Studio Ultra の値を MacBook の数値として誤転載しがち。以下は README 原典のみ引用します。
| 機種 | 量子化 | 場面 | Prefill (t/s) | Generation (t/s) |
|---|---|---|---|---|
| MBP M3 Max 128GB | q2 | 短文 | 58.52 | 26.68 |
| MBP M3 Max 128GB | q2 | 11709 tok 長文 | 250.11 | 21.47 |
| Mac Studio M3 Ultra 512GB | q2 | 11709 tok 長文 | 468.03 | 27.39 |
| Mac Studio M3 Ultra 512GB | q4 | 12018 tok 長文 | 448.82 | 26.62 |
結論:128GB MBP で Flash q2 は動くが文脈は窮屈、q4 や多会話は 512GB Ultra が現実解。
5. なぜ Apple Silicon か
離散 GPU は VRAM 断片化が難点で、80GB 級 MoE を分割すると PCIe 跨ぎでスループットが崩れます。Apple の UMA は CPU/GPU が 96~512GB を共有しゼロコピー、M3 Ultra 約 800GB/s 帯域と NVMe が ds4 ディスク KV と噛み合います。「128GB から」の根拠です。
6. 購入 vs レンタル vs API:3 案決定マトリクス
| 軸 | 高メモリ Mac 購入 | 遠隔 Mac レンタル | クラウド API |
|---|---|---|---|
| 初期費用 | $4.5K~13K 一括 | 時間/月単位 | API キーのみ |
| データ | 端末内 | 専用インスタンス | 事業者依存 |
| モデル切替 | RAM 固定 | 機種切替 | 事業者切替 |
| 共有 | 常時稼働困難 | 常電常網 | 席課金 |
| 長 KV | 本機 NVMe | NVMe 跨会話 | 多く非永続 |
| 償却 | 2~3 年 30~50% | 事業者負担 | なし |
指針:長時間連続 + オフラインは購入か長期契約、モデル流動 / チーム共有はレンタル、たまの呼出は API。
7. 遠隔 Mac での最小 5 手順
- 機種確定:Flash q2 は 128GB、q4 は 256/512GB Ultra、PRO は 512GB Ultra。
- ソース・重み取得:
git clone github.com/antirez/ds4 && make metal、続いて GGUF 取得スクリプト実行。 - ディスク KV で起動:
./ds4-server \
--ctx 100000 \
--kv-disk-dir /Volumes/Data/ds4-kv \
--kv-disk-space-mb 8192
- 接続:Cursor / opencode の base_url を
http://<mac>:8080/v1に設定。 - 共有:Tailscale でポート公開、launchd 常駐 で 24/7 化、KV 退避で会話跨ぎ即起動。
既に OpenClaw ハイブリッド を運用中なら ds4-server をローカル通路に組み込み、オフライン検証は本機優先で機微データを外へ出しません。
8. FAQ
Q:96GB で動くか? 起動可能だが 81GB 重み + OS 後の残りで長文脈は不可、公式は 128GB から。
Q:q2 で十分か? q2-imatrix は q4 と誤差が小、コーディング/長文書は q4 並み。数値や極端推論は q4 推奨。
Q:Ollama を置換するか? いいえ。ds4 は V4 Flash 専用、Ollama は依然として多モデル管理の良選択です。
9. 結論:ソフトは成熟、ハードがボトルネック
ds4 は前沿 MoE が Mac でコード生成と 1M 文脈に堪えると実証しました。問題はハード側で、128GB MBP は約 $4500、512GB Mac Studio Ultra は $13000 超。家庭設置では放熱・停電・遠隔接続・共有の壁にも当たります。
推論ノードを SFTPMAC 遠隔 Mac レンタル に置くのが合理的:機種と時間で支払い、ds4 と GGUF は一度配置すれば多人数で再利用、KV を NVMe 退避し会話跨ぎ即起動、OpenClaw ハイブリッド・launchd 常駐・Tailscale プライベートメッシュにも接続可能です。