DeepSeek V4 Flash を Mac で動かすに必要な最小メモリは？

ds4 の README は 96GB を起点と明記しています。81GB の重みを残した上で 100~300K トークン文脈の KV を確保するには 128GB が現実的です。

ds4 と llama.cpp、Ollama の境界は？

ds4 は antirez 公開の DeepSeek V4 GGUF 専用エンジンで、汎用 GGUF ローダではありません。Ollama などのマルチモデル管理を置き換えるものでもありません。

128GB Mac を購入するか遠隔 Mac を借りるか？

長時間連続利用と完全オフライン要件があれば購入。モデル選定が流動的、評価がバースト、チーム共有が主目的の場合は遠隔 Mac レンタルが 6~12 か月の TCO で有利となるケースが多いです。

2026 年 antirez 製 ds4 で Mac ローカル DeepSeek V4 Flash：96/128/512GB 自前購入 vs クラウド貸借決定マトリクス

Redis 作者 antirez 製の ds4 で DeepSeek V4 Flash を Mac で動かせる時代が来ました。ただし 96GB 起点、128GB で実用、512GB で q4/PRO。本稿は README 実測値を基に機種選定と「購入 / レンタル / API」の三択を整理します。

1. 先判断：モデル × 量子化 × メモリ

「動くか」より先に 3 変数を固定してください。

モデル：Flash (284B/13B 活性) がローカル向け、PRO (1.6T/49B 活性) は 512GB Ultra + 強量子化のみ現実的。
量子化：q2 は MoE 経路の専門家のみ圧縮し注意機構は高精度維持、Flash q2 重み約 81GB。q2-imatrix は logits 誤差が小、q4 は品質上限。
メモリ：96GB が README 起点。128GB で 100~300K 文脈 KV を確保、256GB で q4 Flash、512GB Ultra で q4/PRO q2。

2. ds4 とは何か

是：純 C 製 V4 Flash 専用エンジン。Metal 主、CUDA 副。ds4-server が OpenAI 互換 API を提供し Cursor/opencode を直接バックエンドにできます。

非：汎用 GGUF ローダではなく antirez 公開 GGUF 専用。Ollama のような多モデル管理でもなく、意図的に狭く設計されています。

3. Mac を実用にする 3 技術

① ディスク KV：--kv-disk-dir で KV を NVMe に退避、次回は prefill 不要、長文脈が秒級復帰。

② 1M 文脈 + 非対称 2-bit：満杯時 KV 約 26GB、Flash を 128GB に収めて運用可能。

③ ネイティブ Tool Calling：OpenAI/Anthropic 双方の規約に対応、Cursor へほぼ設定不要で接続。

4. README の実測 t/s

巷の二次転載は Mac Studio Ultra の値を MacBook の数値として誤転載しがち。以下は README 原典のみ引用します。

機種	量子化	場面	Prefill (t/s)	Generation (t/s)
MBP M3 Max 128GB	q2	短文	58.52	26.68
MBP M3 Max 128GB	q2	11709 tok 長文	250.11	21.47
Mac Studio M3 Ultra 512GB	q2	11709 tok 長文	468.03	27.39
Mac Studio M3 Ultra 512GB	q4	12018 tok 長文	448.82	26.62

結論：128GB MBP で Flash q2 は動くが文脈は窮屈、q4 や多会話は 512GB Ultra が現実解。

5. なぜ Apple Silicon か

離散 GPU は VRAM 断片化が難点で、80GB 級 MoE を分割すると PCIe 跨ぎでスループットが崩れます。Apple の UMA は CPU/GPU が 96~512GB を共有しゼロコピー、M3 Ultra 約 800GB/s 帯域と NVMe が ds4 ディスク KV と噛み合います。「128GB から」の根拠です。

6. 購入 vs レンタル vs API：3 案決定マトリクス

軸	高メモリ Mac 購入	遠隔 Mac レンタル	クラウド API
初期費用	$4.5K~13K 一括	時間/月単位	API キーのみ
データ	端末内	専用インスタンス	事業者依存
モデル切替	RAM 固定	機種切替	事業者切替
共有	常時稼働困難	常電常網	席課金
長 KV	本機 NVMe	NVMe 跨会話	多く非永続
償却	2~3 年 30~50%	事業者負担	なし

指針：長時間連続 + オフラインは購入か長期契約、モデル流動 / チーム共有はレンタル、たまの呼出は API。

7. 遠隔 Mac での最小 5 手順

機種確定：Flash q2 は 128GB、q4 は 256/512GB Ultra、PRO は 512GB Ultra。
ソース・重み取得：git clone github.com/antirez/ds4 && make metal、続いて GGUF 取得スクリプト実行。
ディスク KV で起動：

./ds4-server \
  --ctx 100000 \
  --kv-disk-dir /Volumes/Data/ds4-kv \
  --kv-disk-space-mb 8192

接続：Cursor / opencode の base_url を http://<mac>:8080/v1 に設定。
共有：Tailscale でポート公開、launchd 常駐で 24/7 化、KV 退避で会話跨ぎ即起動。

既に OpenClaw ハイブリッドを運用中なら ds4-server をローカル通路に組み込み、オフライン検証は本機優先で機微データを外へ出しません。

8. FAQ

Q：96GB で動くか？ 起動可能だが 81GB 重み + OS 後の残りで長文脈は不可、公式は 128GB から。

Q：q2 で十分か？ q2-imatrix は q4 と誤差が小、コーディング/長文書は q4 並み。数値や極端推論は q4 推奨。

Q：Ollama を置換するか？ いいえ。ds4 は V4 Flash 専用、Ollama は依然として多モデル管理の良選択です。

9. 結論：ソフトは成熟、ハードがボトルネック

ds4 は前沿 MoE が Mac でコード生成と 1M 文脈に堪えると実証しました。問題はハード側で、128GB MBP は約 $4500、512GB Mac Studio Ultra は $13000 超。家庭設置では放熱・停電・遠隔接続・共有の壁にも当たります。

推論ノードを SFTPMAC 遠隔 Mac レンタル に置くのが合理的：機種と時間で支払い、ds4 と GGUF は一度配置すれば多人数で再利用、KV を NVMe 退避し会話跨ぎ即起動、OpenClaw ハイブリッド・launchd 常駐・Tailscale プライベートメッシュにも接続可能です。

2026 年 antirez 製 ds4 で Mac ローカル DeepSeek V4 Flash：96/128/512GB 自前購入 vs クラウド貸借 決定マトリクス