Mac에서 DeepSeek V4 Flash 최소 메모리는?

ds4 README는 96GB를 시작 라인으로 명시합니다. 81GB 가중치 위에서 100~300K 컨텍스트 KV를 확보하려면 128GB가 현실적입니다.

ds4와 llama.cpp, Ollama의 경계는?

ds4는 antirez 공개 DeepSeek V4 GGUF 전용 엔진으로 범용 GGUF 로더가 아닙니다. Ollama 같은 멀티모델 매니저를 대체하지 않습니다.

128GB Mac 구매와 원격 Mac 임대 중 어느 쪽이 유리한가?

장시간 연속 사용과 완전 오프라인이 필수면 구매. 모델 선정이 유동적이거나 팀 공유, 산발 평가가 중심이면 6~12개월 TCO에서 원격 임대가 유리한 경우가 많습니다.

2026 antirez ds4 로컬 DeepSeek V4 Flash on Mac: 96/128/512GB 구매 vs 임대 의사결정 매트릭스

Redis 저자 antirez가 순수 C로 만든 ds4로 DeepSeek V4 Flash가 Mac에서 진짜 돌아갑니다. 그러나 96GB 시작, 128GB 쾌적, 512GB로 q4/PRO라는 하드 장벽. 본문은 README 실측으로 어떤 Mac을 고르고 구매 / 임대 / API 중 무엇을 택할지 정리합니다.

1. 사전 판단: 모델 × 양자화 × 메모리

「돌릴 수 있나」보다 먼저 세 변수를 고정하세요.

모델: Flash (284B/13B 활성)는 로컬용, PRO (1.6T/49B 활성)는 865GB 원본, 512GB Ultra + 강한 양자화만 현실적.
양자화: q2는 MoE 전문가만 압축하고 어텐션 정밀도 유지, Flash q2 약 81GB. q2-imatrix는 logits 오차가 작고, q4는 품질 상한.
메모리: 96GB는 README 시작선, 128GB는 100~300K KV 확보선, 256GB부터 q4 Flash, 512GB Ultra가 q4/PRO q2 운영선.

2. ds4는 무엇이고 무엇이 아닌가

맞음: 순수 C V4 Flash 전용 엔진, Metal 주 / CUDA 보조. ds4-server가 OpenAI 호환 API를 제공해 Cursor/opencode를 바로 백엔드로 사용.

아님: 범용 GGUF 로더가 아닌 antirez 공개 GGUF 전용, Ollama식 멀티모델 매니저도 아님. 의도적으로 단일 모델을 끝까지 밀어붙임.

3. Mac을 실용으로 만드는 3대 기술

① 디스크 KV 영속화: --kv-disk-dir로 KV를 NVMe에 떨궈 두면 다음 회話에서 prefill이 사라지고 장문 추론이 초 단위로 재개됩니다.

② 1M 컨텍스트 + 비대칭 2-bit: V4 원생 1M 컨텍스트, 가득 채우면 KV 약 26GB. ds4는 Flash를 128GB에 담아 운용.

③ 네이티브 Tool Calling: 코딩 Agent 내장, OpenAI/Anthropic 양쪽 규약 대응, Cursor 연결은 거의 무설정.

4. README 실측 t/s

2차 인용은 Mac Studio Ultra의 수치를 MacBook에 오인하기 쉽습니다. 아래는 README 원본만 인용합니다.

기기	양자화	장면	Prefill (t/s)	Generation (t/s)
MBP M3 Max 128GB	q2	짧은 프롬프트	58.52	26.68
MBP M3 Max 128GB	q2	11709 tok 장문	250.11	21.47
Mac Studio M3 Ultra 512GB	q2	11709 tok 장문	468.03	27.39
Mac Studio M3 Ultra 512GB	q4	12018 tok 장문	448.82	26.62

결론: 128GB MBP는 Flash q2 충분하나 컨텍스트가 빡빡, q4 / 다중 회話는 512GB Ultra가 현실 해.

5. 왜 Apple Silicon인가

이산 GPU의 약점은 VRAM 단편화. 80GB급 MoE를 카드 여러 장에 쪼개면 PCIe 경유로 장문 처리량이 무너집니다. Apple UMA는 CPU/GPU가 96~512GB를 공유해 제로 카피, M3 Ultra 약 800GB/s 대역과 NVMe가 ds4 디스크 KV와 맞물립니다. 「128GB부터」의 근거.

6. 구매 vs 임대 vs API 매트릭스

축	대용량 Mac 구매	원격 Mac 임대	클라우드 API
초기 비용	$4.5K~13K 일시	시간/월 단위	API Key만
데이터 위치	로컬	전용 인스턴스	벤더 의존
모델 교체	RAM 고정	기종 교체	벤더 교체
팀 공유	상시 가동 어려움	상시 공유	좌석 과금
장 KV	로컬 NVMe	NVMe 회話 간	대부분 비영속
감가	2~3년 30~50%	제공자 부담	없음

지침: 장시간 + 오프라인은 구매/장기, 유동/공유는 임대, 가끔 호출은 API.

7. 원격 Mac에서의 최소 5단계

기종 확정: Flash q2는 128GB, q4는 256/512GB Ultra, PRO는 512GB Ultra.
소스/가중치: git clone github.com/antirez/ds4 && make metal, GGUF 스크립트 실행.
디스크 KV 기동:

./ds4-server \
  --ctx 100000 \
  --kv-disk-dir /Volumes/Data/ds4-kv \
  --kv-disk-space-mb 8192

클라이언트: Cursor / opencode base_url을 http://<mac>:8080/v1로.
공유: Tailscale 사설 메시로 포트 공개, launchd 상주로 24/7 화, KV 보존으로 회話 간 즉시 재개.

이미 OpenClaw 하이브리드 라우팅을 운영 중이라면 ds4-server를 로컬 통로로 끼워 오프라인 평가는 로컬 우선, 민감 데이터는 인스턴스 밖으로 내보내지 않습니다.

8. FAQ

Q: 96GB 정말 돌아갑니까? 기동은 되지만 81GB 가중치와 OS 후 컨텍스트 여유가 10여 GB라 장문/다중 회話는 비현실, 공식은 128GB부터 권장.

Q: q2 품질 충분합니까? q2-imatrix는 q4와 logits 오차가 작아 코딩/장문서 체감은 q4 근접. 수치/극단 추론은 q4 권장.

Q: Ollama 대체합니까? 아니오. ds4는 V4 Flash 전용, Ollama는 여전히 멀티모델/소형 모델 관리에 강점.

9. 결론: 소프트는 성숙, 병목은 하드

ds4는 최전선 MoE가 Mac에서 코딩과 1M 컨텍스트를 견딘다는 점을 입증. 문제는 하드 — 128GB MBP 약 $4500, 512GB Mac Studio Ultra $13000 초과. 가정 설치는 발열/정전/원격 접속/공유라는 현실 벽에 부딪힙니다.

노드를 SFTPMAC 원격 Mac 임대에 두는 편이 합리적: 기종과 시간 과금, ds4/GGUF 1회 배포로 다중 재이용, KV NVMe 보존으로 회話 간 즉시 재개, OpenClaw 하이브리드/launchd 상주/Tailscale 메시와 매끄럽게 연결됩니다.