ds4-server와 Cursor 연동까지 끝내는 방법을 설명합니다.
2026년 ds4란: antirez가 「한 모델만」 선택한 이유
로컬 추론 선택지는 이미 충분합니다——llama.cpp, Ollama, MLX는 수많은 GGUF를 로드할 수 있습니다. ds4의 역설은 의도적으로 좁게 만든다는 점입니다. DeepSeek V4 Flash(및 동일 계열 checkpoint) 전용으로 Metal 그래프 실행, 비대칭 양자화 로드, 디스크 KV, Tool Calling, ds4-server를 한 몸으로 설계했습니다. antirez는 프로젝트 설명에서 솔직히 말합니다. 병목은 「추론 프레임워크 유무」가 아니라 「개인 머신에서 Claude 일상 쿼리를 대체할 만큼 빠르고 큰 오픈 가중치가 있느냐」입니다.
커뮤니티 반응: 저장소 antirez/ds4는 공개 며칠 만에 Star 1만을 넘겼습니다. 「단일 모델 깊은 통합」이 2026년의 고통을 더 정확히 찌릅니다.
자급자족: llama.cpp 런타임에 의존하지 않습니다. macOS에서는 Metal이 프로덕션 경로이고 CPU는 검증용뿐입니다(README는 macOS 가상 메모리 버그로 커널 패닉 위험이 있다고 경고하며, CPU를 프로덕션 백엔드로 쓰지 마세요).
Agent 준비: ds4-server는 OpenAI 호환과 Anthropic 호환 엔드포인트를 동시에 제공합니다. Cursor, opencode, Claude Code의 Base URL을 자신의 머신으로 두면 데이터가 밖으로 나가지 않는 코딩 세션이 가능합니다.
장문맥: 백만 token급 윈도우를 목표로 설계했습니다. DeepSeek V4의 압축 KV와 ds4 디스크 스냅샷으로 긴 문서도 매번 전체 prefill이 필요하지 않습니다.
진짜 장벽: 소프트웨어는 준비됐습니다. 96GB~512GB 통합 메모리가 대부분을 막고 있으며——Mac 클라우드 대여가 풀어줄 부분입니다.
ds4는 「로컬에서 최신 대형 모델을 돌리는 것」이 2026년에 현실이 됐음을 보여줍니다. 막는 것은 메모리 스펙이지 C 코드의 우아함이 아닙니다.
ds4 기술 핵심: Metal, 디스크 KV, 2-bit 양자화의 협업
ds4를 「아무 GGUF나 로드」와 구분하는 것은 정량화 가능한 엔지니어링 선택입니다(M 시리즈 Max에서 커뮤니티가 보고한 prefill 약 463 token/s, 생성 약 34 token/s. 수치는 모델과 양자화에 따라 달라지므로 반드시 대상 머신에서 벤치마크하세요).
| 능력 | ds4(DwarfStar 4) | 범용 Ollama / llama.cpp |
|---|---|---|
| 모델 범위 | DeepSeek V4 Flash 전용 경로 | 수백 GGUF 아키텍처 |
| GPU 백엔드 | macOS용 Metal이 1순위 | 멀티 백엔드, Metal 최적화 제한적 |
| KV 상태 | RAM + 디스크 스냅샷, 세션 복구 | 구현에 따라 다르며 프로세스 종료 시 소실 |
| 양자화 | 2-bit는 라우팅 전문가만, 나머지 층은 정밀도 유지 | 모델 전체 단일 양자화 |
| 코딩 Agent | 내장 Tool Calling + 호환 API | 추가 게이트웨이 조립 필요 |
| 컨텍스트 | 1M token급 설계 목표 | 모델과 메모리 이중 제한 |
Apple Silicon의 통합 메모리(UMA)는 CPU/GPU가 동일 물리 메모리를 공유합니다. 고대역 NVMe와 맞물려야 디스크 KV 캐시가 의미를 갖습니다——ds4가 Metal + macOS SSD를 「1순위 조합」으로 쓰는 이유는 우연이 아닙니다.
인용 가능한 기준: 공식 README는 프로덕션 추론을 Metal/CUDA에 묶습니다. Flash 비대칭 2/8 bit는 96GB 또는 128GB 통합 메모리에서만 완전 로드 가능——그 이하는 「공식 지원 경로」 밖으로 봐야 합니다.
DeepSeek V4 Flash / PRO에 필요한 메모리: 2026년 선정 매트릭스
아래 표는 프로젝트 문서와 커뮤니티 배포 피드백을 종합한 것입니다. 구매 참고 가격대는 2026년 국내 시장 최상위 구성의 대략적인 수준이며 대여 vs 구매 판단용입니다. 실제 가격은 Apple 및 클라우드 견적을 우선하세요.
| 모델 / 양자화 | 최소 통합 메모리 | 대표 하드웨어 | 구매 참고(대략) |
|---|---|---|---|
| V4 Flash · q2 | 96 GB | MacBook Pro M3/M4/M5 Max | 약 600만 원~ |
| V4 Flash · q4 | 256 GB | Mac Studio Ultra | 약 1,200만 원~ |
| V4 PRO · q2 | 512 GB | Mac Studio M3 Ultra 최상위 | 약 2,200만 원~ |
시험 티어(96~128GB): Flash q2 검증, Cursor Tool Calling, 중간 길이 컨텍스트에 충분합니다. 개인 연구자의 일 단위 대여 검증에 적합합니다.
프로덕션 코딩(128~256GB): 병렬 Agent + 장문맥 + 디스크 KV 상주 시 Swap 방지를 위해 약 20% 메모리 여유를 두세요.
PRO 실험(512GB): PRO 가중치를 로컬에서 돌려야 할 때만. 대부분 팀은 주 단위 클라우드 대여로 충분하며 일괄 구매는 불필요합니다.
클라우드 Mac에서 ds4를 돌리는 6단계: 스펙 선정부터 Agent 검수까지
다음 Runbook은 MESHLAUNCH 또는 다른 제공자의 베어메탈 macOS에 SSH가 열려 있고, 인스턴스 메모리가 목표 양자화 이상(Flash q2는 최소 96GB)임을 가정합니다.
양자화에 맞춰 인스턴스 선택: Flash 시험은 128GB로 여유를 확보하세요. q4나 PRO는 처음부터 256GB / 512GB를 고르고 중간 인스턴스 변경과 가중치 재다운로드를 피합니다.
로그인 후 Metal 확인: system_profiler SPDisplaysDataType로 Apple Silicon을 확인합니다. xcode-select -p로 Command Line Tools 사용 가능 여부를 확인하고 이후 make에서 clang을 씁니다.
ds4 클론 및 빌드: git clone https://github.com/antirez/ds4.git && cd ds4 && make(macOS 기본 Metal). 첫 빌드는 tmux 또는 screen 안에서 실행해 SSH 끊김으로 컴파일이 중단되지 않게 합니다.
모델 가중치 다운로드: 저장소 문서에 따라 DeepSeek V4 Flash 공식 벡터/GGUF 경로를 받아 인스턴스 로컬 NVMe(수백 GB급)에 둡니다. iCloud 동기화 폴더는 쓰지 마세요.
ds4-server 시작: 127.0.0.1 또는 사설 IP에 바인딩하고 OpenAI 호환 포트를 기록합니다. curl로 /v1/models를 호출해 CPU 디버그가 아닌 Metal 경로가 로드됐는지 확인합니다.
Agent 검수: Cursor 또는 Claude Code의 Provider Base URL을 해당 인스턴스로 지정합니다(SSH 터널 또는 Tailscale Serve). Tool Calling이 포함된 코딩 작업을 하나 돌리고 KV 스냅샷이 디스크에 쓰이며 재연결 시 전체 prefill을 피하는지 확인합니다.
ssh -N -L 8080:127.0.0.1:PORT user@your-cloud-mac.example.com export OPENAI_BASE_URL=http://127.0.0.1:8080/v1
최상위 Mac이 부담스럽다면: Flash 시험과 PRO 일시 승격의 TCO
최상위 Mac 구매의 장점은 「항상 내 것」입니다. 단점은 일시불 현금 흐름과 감가상각, PRO 구성의 유휴 비용입니다. 클라우드 베어메탈 대여는 메모리 스펙을 다이얼로 바꿉니다. 이번 주 128GB로 Flash 플러그인, 다음 주 512GB로 PRO 벤치마크, 끝나면 중지——이런 운영이 가능합니다.
| 관점 | Mac Studio Ultra 구매 | 대용량 클라우드 Mac 대여 |
|---|---|---|
| 초기 투자 | 수백만 원 일시불 | 시간/일/월 과금, 감가상각 없음 |
| 스펙 유연성 | 교체=재구매 | 콘솔에서 128GB ↔ 512GB 전환 |
| 팀 공유 | 1인 1대 | 1 인스턴스 + SSH 권한 분리, 교대 추론 |
| 환경 | 직접 컴파일 시행착오 | Xcode/CLT와 디스크 수위 고정 가능 |
| 프라이버시 | 물리 머신 완전 통제 | 전용 베어메탈, 가중치는 내 디스크 밖으로 나가지 않음 |
일반 Linux VPS나 소비자 GPU 클라우드로 ds4를 억지로 돌리면 비Metal 경로이거나 공식 미지원인 경우가 많습니다. 메모리 스펙이 맞는 macOS 베어메탈을 빌리는 것이 ds4 설계 의도에 맞습니다. 병렬 Agent 워크플로를 이미 쓰고 있다면 ds4를 「무거운 추론 워커」, 64GB 클라우드 Mac을 「제어 평면」으로 두는 구성이 2026년 흔한 비용 구조입니다.
안정적인 Metal 추론이 필요하지만 96GB 벽 때문에 수백만 원 하드웨어를 한 번에 쓰기 어려운 팀에게 MESHLAUNCH 대용량 Mac mini / M4 Pro / Max 클라우드 베어메탈 대여가 현실적인 출발점입니다. 일 단위 Flash 검증, 월 단위 장문맥 프로덕션, 필요 시 PRO 일시 승격——추론은 전용 인스턴스 안에서만 이뤄지며 제3자 모델 API를 거치지 않습니다. 스펙과 요금은 대여 가격 페이지와 고객 센터를 참고하세요. 주문 페이지에서 바로 대여할 수 있습니다.
공식 경로에서는 Flash q2에 96GB 통합 메모리가 최소입니다. 64GB에서는 비대칭 양자화를 완전히 로드할 수 없습니다. 먼저 128GB 일 대여로 검증한 뒤 구매를 결정하세요.
아닙니다. ds4-server는 대여 인스턴스 내부에서 리스닝합니다. Cursor Base URL을 해당 머신으로 두면 가중치와 KV 스냅샷은 인스턴스 디스크에 남습니다.
같은 머신에 설치할 수 있지만 두 대형 모델을 동시 풀 가동하지 마세요. 96GB 이상은 ds4 장문맥에 우선 할당하고 소형 모델은 Ollama에 맡기세요——고객 센터 메모리 대조표를 참고하세요.