2026 antirez ds4 로컬 DeepSeek V4 Flash on Mac: 96/128/512GB 구매 vs 임대 의사결정 매트릭스
Redis 저자 antirez가 순수 C로 만든 ds4로 DeepSeek V4 Flash가 Mac에서 진짜 돌아갑니다. 그러나 96GB 시작, 128GB 쾌적, 512GB로 q4/PRO라는 하드 장벽. 본문은 README 실측으로 어떤 Mac을 고르고 구매 / 임대 / API 중 무엇을 택할지 정리합니다.
1. 사전 판단: 모델 × 양자화 × 메모리
「돌릴 수 있나」보다 먼저 세 변수를 고정하세요.
- 모델: Flash (284B/13B 활성)는 로컬용, PRO (1.6T/49B 활성)는 865GB 원본, 512GB Ultra + 강한 양자화만 현실적.
- 양자화: q2는 MoE 전문가만 압축하고 어텐션 정밀도 유지, Flash q2 약 81GB. q2-imatrix는 logits 오차가 작고, q4는 품질 상한.
- 메모리: 96GB는 README 시작선, 128GB는 100~300K KV 확보선, 256GB부터 q4 Flash, 512GB Ultra가 q4/PRO q2 운영선.
2. ds4는 무엇이고 무엇이 아닌가
맞음: 순수 C V4 Flash 전용 엔진, Metal 주 / CUDA 보조. ds4-server가 OpenAI 호환 API를 제공해 Cursor/opencode를 바로 백엔드로 사용.
아님: 범용 GGUF 로더가 아닌 antirez 공개 GGUF 전용, Ollama식 멀티모델 매니저도 아님. 의도적으로 단일 모델을 끝까지 밀어붙임.
3. Mac을 실용으로 만드는 3대 기술
① 디스크 KV 영속화: --kv-disk-dir로 KV를 NVMe에 떨궈 두면 다음 회話에서 prefill이 사라지고 장문 추론이 초 단위로 재개됩니다.
② 1M 컨텍스트 + 비대칭 2-bit: V4 원생 1M 컨텍스트, 가득 채우면 KV 약 26GB. ds4는 Flash를 128GB에 담아 운용.
③ 네이티브 Tool Calling: 코딩 Agent 내장, OpenAI/Anthropic 양쪽 규약 대응, Cursor 연결은 거의 무설정.
4. README 실측 t/s
2차 인용은 Mac Studio Ultra의 수치를 MacBook에 오인하기 쉽습니다. 아래는 README 원본만 인용합니다.
| 기기 | 양자화 | 장면 | Prefill (t/s) | Generation (t/s) |
|---|---|---|---|---|
| MBP M3 Max 128GB | q2 | 짧은 프롬프트 | 58.52 | 26.68 |
| MBP M3 Max 128GB | q2 | 11709 tok 장문 | 250.11 | 21.47 |
| Mac Studio M3 Ultra 512GB | q2 | 11709 tok 장문 | 468.03 | 27.39 |
| Mac Studio M3 Ultra 512GB | q4 | 12018 tok 장문 | 448.82 | 26.62 |
결론: 128GB MBP는 Flash q2 충분하나 컨텍스트가 빡빡, q4 / 다중 회話는 512GB Ultra가 현실 해.
5. 왜 Apple Silicon인가
이산 GPU의 약점은 VRAM 단편화. 80GB급 MoE를 카드 여러 장에 쪼개면 PCIe 경유로 장문 처리량이 무너집니다. Apple UMA는 CPU/GPU가 96~512GB를 공유해 제로 카피, M3 Ultra 약 800GB/s 대역과 NVMe가 ds4 디스크 KV와 맞물립니다. 「128GB부터」의 근거.
6. 구매 vs 임대 vs API 매트릭스
| 축 | 대용량 Mac 구매 | 원격 Mac 임대 | 클라우드 API |
|---|---|---|---|
| 초기 비용 | $4.5K~13K 일시 | 시간/월 단위 | API Key만 |
| 데이터 위치 | 로컬 | 전용 인스턴스 | 벤더 의존 |
| 모델 교체 | RAM 고정 | 기종 교체 | 벤더 교체 |
| 팀 공유 | 상시 가동 어려움 | 상시 공유 | 좌석 과금 |
| 장 KV | 로컬 NVMe | NVMe 회話 간 | 대부분 비영속 |
| 감가 | 2~3년 30~50% | 제공자 부담 | 없음 |
지침: 장시간 + 오프라인은 구매/장기, 유동/공유는 임대, 가끔 호출은 API.
7. 원격 Mac에서의 최소 5단계
- 기종 확정: Flash q2는 128GB, q4는 256/512GB Ultra, PRO는 512GB Ultra.
- 소스/가중치:
git clone github.com/antirez/ds4 && make metal, GGUF 스크립트 실행. - 디스크 KV 기동:
./ds4-server \
--ctx 100000 \
--kv-disk-dir /Volumes/Data/ds4-kv \
--kv-disk-space-mb 8192
- 클라이언트: Cursor / opencode base_url을
http://<mac>:8080/v1로. - 공유: Tailscale 사설 메시로 포트 공개, launchd 상주로 24/7 화, KV 보존으로 회話 간 즉시 재개.
이미 OpenClaw 하이브리드 라우팅을 운영 중이라면 ds4-server를 로컬 통로로 끼워 오프라인 평가는 로컬 우선, 민감 데이터는 인스턴스 밖으로 내보내지 않습니다.
8. FAQ
Q: 96GB 정말 돌아갑니까? 기동은 되지만 81GB 가중치와 OS 후 컨텍스트 여유가 10여 GB라 장문/다중 회話는 비현실, 공식은 128GB부터 권장.
Q: q2 품질 충분합니까? q2-imatrix는 q4와 logits 오차가 작아 코딩/장문서 체감은 q4 근접. 수치/극단 추론은 q4 권장.
Q: Ollama 대체합니까? 아니오. ds4는 V4 Flash 전용, Ollama는 여전히 멀티모델/소형 모델 관리에 강점.
9. 결론: 소프트는 성숙, 병목은 하드
ds4는 최전선 MoE가 Mac에서 코딩과 1M 컨텍스트를 견딘다는 점을 입증. 문제는 하드 — 128GB MBP 약 $4500, 512GB Mac Studio Ultra $13000 초과. 가정 설치는 발열/정전/원격 접속/공유라는 현실 벽에 부딪힙니다.
노드를 SFTPMAC 원격 Mac 임대에 두는 편이 합리적: 기종과 시간 과금, ds4/GGUF 1회 배포로 다중 재이용, KV NVMe 보존으로 회話 간 즉시 재개, OpenClaw 하이브리드/launchd 상주/Tailscale 메시와 매끄럽게 연결됩니다.