Apple Silicon プロセッサのクローズアップ ds4 による DeepSeek V4 Flash ローカル推論

2026 年 antirez 製 ds4 で Mac ローカル DeepSeek V4 Flash:96/128/512GB 自前購入 vs クラウド貸借 決定マトリクス

Redis 作者 antirez 製の ds4DeepSeek V4 Flash を Mac で動かせる時代が来ました。ただし 96GB 起点、128GB で実用、512GB で q4/PRO。本稿は README 実測値を基に機種選定と「購入 / レンタル / API」の三択を整理します。

1. 先判断:モデル × 量子化 × メモリ

「動くか」より先に 3 変数を固定してください。

  1. モデル:Flash (284B/13B 活性) がローカル向け、PRO (1.6T/49B 活性) は 512GB Ultra + 強量子化のみ現実的。
  2. 量子化:q2 は MoE 経路の専門家のみ圧縮し注意機構は高精度維持、Flash q2 重み約 81GB。q2-imatrix は logits 誤差が小、q4 は品質上限。
  3. メモリ:96GB が README 起点。128GB で 100~300K 文脈 KV を確保、256GB で q4 Flash、512GB Ultra で q4/PRO q2。

2. ds4 とは何か

:純 C 製 V4 Flash 専用エンジン。Metal 主、CUDA 副。ds4-server が OpenAI 互換 API を提供し Cursor/opencode を直接バックエンドにできます。

:汎用 GGUF ローダではなく antirez 公開 GGUF 専用。Ollama のような多モデル管理でもなく、意図的に狭く設計されています。

3. Mac を実用にする 3 技術

① ディスク KV--kv-disk-dir で KV を NVMe に退避、次回は prefill 不要、長文脈が秒級復帰。

② 1M 文脈 + 非対称 2-bit:満杯時 KV 約 26GB、Flash を 128GB に収めて運用可能。

③ ネイティブ Tool Calling:OpenAI/Anthropic 双方の規約に対応、Cursor へほぼ設定不要で接続。

4. README の実測 t/s

巷の二次転載は Mac Studio Ultra の値を MacBook の数値として誤転載しがち。以下は README 原典のみ引用します。

機種 量子化 場面 Prefill (t/s) Generation (t/s)
MBP M3 Max 128GBq2短文58.5226.68
MBP M3 Max 128GBq211709 tok 長文250.1121.47
Mac Studio M3 Ultra 512GBq211709 tok 長文468.0327.39
Mac Studio M3 Ultra 512GBq412018 tok 長文448.8226.62

結論:128GB MBP で Flash q2 は動くが文脈は窮屈、q4 や多会話は 512GB Ultra が現実解。

5. なぜ Apple Silicon か

離散 GPU は VRAM 断片化が難点で、80GB 級 MoE を分割すると PCIe 跨ぎでスループットが崩れます。Apple の UMA は CPU/GPU が 96~512GB を共有しゼロコピー、M3 Ultra 約 800GB/s 帯域と NVMe が ds4 ディスク KV と噛み合います。「128GB から」の根拠です。

6. 購入 vs レンタル vs API:3 案決定マトリクス

高メモリ Mac 購入 遠隔 Mac レンタル クラウド API
初期費用$4.5K~13K 一括時間/月単位API キーのみ
データ端末内専用インスタンス事業者依存
モデル切替RAM 固定機種切替事業者切替
共有常時稼働困難常電常網席課金
長 KV本機 NVMeNVMe 跨会話多く非永続
償却2~3 年 30~50%事業者負担なし

指針:長時間連続 + オフラインは購入か長期契約、モデル流動 / チーム共有はレンタル、たまの呼出は API。

7. 遠隔 Mac での最小 5 手順

  1. 機種確定:Flash q2 は 128GB、q4 は 256/512GB Ultra、PRO は 512GB Ultra。
  2. ソース・重み取得git clone github.com/antirez/ds4 && make metal、続いて GGUF 取得スクリプト実行。
  3. ディスク KV で起動
./ds4-server \
  --ctx 100000 \
  --kv-disk-dir /Volumes/Data/ds4-kv \
  --kv-disk-space-mb 8192
  1. 接続:Cursor / opencode の base_url を http://<mac>:8080/v1 に設定。
  2. 共有Tailscale でポート公開、launchd 常駐 で 24/7 化、KV 退避で会話跨ぎ即起動。

既に OpenClaw ハイブリッド を運用中なら ds4-server をローカル通路に組み込み、オフライン検証は本機優先で機微データを外へ出しません。

8. FAQ

Q:96GB で動くか? 起動可能だが 81GB 重み + OS 後の残りで長文脈は不可、公式は 128GB から。

Q:q2 で十分か? q2-imatrix は q4 と誤差が小、コーディング/長文書は q4 並み。数値や極端推論は q4 推奨。

Q:Ollama を置換するか? いいえ。ds4 は V4 Flash 専用、Ollama は依然として多モデル管理の良選択です。

9. 結論:ソフトは成熟、ハードがボトルネック

ds4 は前沿 MoE が Mac でコード生成と 1M 文脈に堪えると実証しました。問題はハード側で、128GB MBP は約 $4500、512GB Mac Studio Ultra は $13000 超。家庭設置では放熱・停電・遠隔接続・共有の壁にも当たります。

推論ノードを SFTPMAC 遠隔 Mac レンタル に置くのが合理的:機種と時間で支払い、ds4 と GGUF は一度配置すれば多人数で再利用、KV を NVMe 退避し会話跨ぎ即起動、OpenClaw ハイブリッド・launchd 常駐・Tailscale プライベートメッシュにも接続可能です。