ds4-server 對接 Cursor。
2026 年 ds4 是什麼:為什麼 antirez 選擇「只做一款模型」
本地推理賽道並不缺引擎——llama.cpp、Ollama、MLX 都能載入大量 GGUF。ds4 的反直覺在於:故意做窄,只為 DeepSeek V4 Flash(及後續同族 checkpoint)服務,把 Metal 圖執行、非對稱量化載入、磁碟 KV、Tool Calling 與 ds4-server 一次性焊死。antirez 在 專案說明裡寫得很直白:瓶頸從來不是「有沒有推理框架」,而是「有沒有夠快、夠大的開源權重能在個人機器上替代 Claude 日常查詢」。
社群熱度:儲存庫 antirez/ds4 上線數日內 Star 破萬,說明「單模型深度整合」比再做一個通用載入器更能擊中 2026 年的痛點。
自包含:不依賴 llama.cpp 執行階段;macOS 上預設走 Metal 生產路徑,CPU 路徑僅作校驗(且官方警告 macOS 虛擬記憶體 bug 可能導致核心當機,勿把 CPU 當生產後端)。
Agent 就緒:ds4-server 同時暴露 OpenAI 與 Anthropic 相容端點,Cursor、opencode、Claude Code 可把 Base URL 指向本機,實現「資料不出家門」的編碼工作階段。
長上下文:專案目標包含百萬級 token 視窗;配合 DeepSeek V4 壓縮 KV 與 ds4 的磁碟快照,長文件不必每次全量 prefill。
真正的障礙:軟體已就緒,96GB~512GB 統一記憶體才是把多數人攔在門外的硬門檻——這正是 Mac 雲端租賃要解決的問題。
ds4 證明「本地跑準前沿大模型」在 2026 年已可行;攔路的是記憶體規格,不是 C 語言寫得好不好。
ds4 技術亮點:Metal、磁碟 KV 與 2-bit 量化如何協同
把 ds4 與「隨便裝個 GGUF」區分開來的,是幾條可量化的工程選擇(社群在 M 系列 Max 上回報的 prefill 約 463 token/s、生成約 34 token/s,具體數值隨機型與量化檔變化,部署前請在目標機器上自測)。
| 能力 | ds4(DwarfStar 4) | 通用 Ollama / llama.cpp |
|---|---|---|
| 模型範圍 | DeepSeek V4 Flash 專用路徑 | 數百種 GGUF 架構 |
| GPU 後端 | Metal 為 macOS 首要目標 | 多後端,Metal 非最優定制 |
| KV 狀態 | RAM + 磁碟快照,工作階段可恢復 | 依實作而定,常隨行程退出遺失 |
| 量化策略 | 2-bit 僅壓路由專家,其餘層保精度 | 整模型統一量化檔 |
| 編碼 Agent | 內建 Tool Calling + 相容 API | 需額外閘道拼裝 |
| 上下文 | 面向 1M token 級設計目標 | 受模型與記憶體雙重限制 |
Apple Silicon 的統一記憶體(UMA)讓 CPU/GPU 共享同一塊實體記憶體,配合高頻寬與 NVMe,磁碟 KV 快取才有意義——這也是 ds4 把 Metal + macOS SSD 寫成「首選組合」的原因,而不是偶然偏好。
可引用參數:官方 README 將生產推理明確綁定 Metal/CUDA;Flash 非對稱 2/8 bit 量化在 96GB 或 128GB 統一記憶體機器上才可完整載入——低於此檔不應視為「官方支援路徑」。
DeepSeek V4 Flash / PRO 需要多少記憶體:2026 選型矩陣
下面矩陣綜合專案文件與社群部署回饋,售價區間為 2026 年台港市場常見頂配量級,僅供租買決策對照,實際請以 Apple 與雲租報價為準。
| 模型 / 量化 | 最低統一記憶體 | 典型機型 | 自購參考量級 |
|---|---|---|---|
| V4 Flash · q2 | 96 GB | MacBook Pro M3/M4/M5 Max | 約 NT$120,000+ |
| V4 Flash · q4 | 256 GB | Mac Studio Ultra | 約 NT$240,000+ |
| V4 PRO · q2 | 512 GB | Mac Studio M3 Ultra 頂配 | 約 NT$440,000+ |
試跑檔(96~128GB):足夠驗證 Flash q2、對接 Cursor 的 Tool Calling 與中等長度上下文;適合個人研究者按日租壓測。
生產編碼檔(128~256GB):多 Agent 並行 + 長上下文 + 磁碟 KV 常駐時,建議留出 20% 記憶體餘量避免 Swap 打穿。
PRO 實驗檔(512GB):僅當必須本地跑 PRO 權重;多數團隊用雲執行個體按週租用即可,無需一次性購機。
六步在雲 Mac 上跑通 ds4:從選規格到 Agent 驗收
以下 Runbook 假設你使用 MESHLAUNCH 或其它供應商的裸機 macOS,已開通 SSH,且執行個體記憶體 ≥ 你目標量化檔(Flash q2 至少 96GB)。
按量化檔選雲執行個體:Flash 試跑選 128GB 檔留餘量;要跑 q4 或 PRO 直接選 256GB / 512GB 規格,避免中途換機重下權重。
登入並驗收 Metal:system_profiler SPDisplaysDataType 確認 Apple Silicon;xcode-select -p 確保 Command Line Tools 可用,後續 make 依賴 clang。
複製並編譯 ds4:git clone https://github.com/antirez/ds4.git && cd ds4 && make(macOS 預設 Metal);首次編譯建議在 tmux 或 screen 裡執行,防止 SSH 抖動中斷。
下載模型權重:按儲存庫文件取得 DeepSeek V4 Flash 官方向量/GGUF 路徑,落盤到執行個體本地 NVMe(數百 GB 級),勿放 iCloud 同步目錄。
啟動 ds4-server:綁定 127.0.0.1 或內網 IP,記錄 OpenAI 相容連接埠;用 curl 對 /v1/models 做冒煙,確認 Metal 路徑已載入而非 CPU 除錯後端。
Agent 驗收:在 Cursor 或 Claude Code 將 Provider Base URL 指向該執行個體(SSH 隧道或 Tailscale Serve);跑一條含 Tool Calling 的編碼任務,檢查 KV 快照是否按預期落盤、工作階段重連是否免全量 prefill。
ssh -N -L 8080:127.0.0.1:PORT user@your-cloud-mac.example.com export OPENAI_BASE_URL=http://127.0.0.1:8080/v1
買不起頂配 Mac?雲租 Flash 試跑、按需升 PRO 的 TCO 邏輯
自購頂配 Mac 的優勢是「永遠屬於你」;劣勢是一次性現金流與折舊,且 PRO 檔機器閒置時成本極高。雲端裸機租賃把記憶體規格變成可調變數:本週 128GB 跑 Flash 寫外掛,下週升 512GB 做 PRO 對比實驗,跑完即停。
| 維度 | 自購 Mac Studio Ultra | 高記憶體雲 Mac 租賃 |
|---|---|---|
| 前期投入 | 十萬級一次性 | 按小時/天/月,無折舊記帳 |
| 規格彈性 | 換機=再買 | 控制台切換 128GB ↔ 512GB |
| 團隊共享 | 一人一機 | 一台執行個體 + SSH 分權,輪班推理 |
| 環境預裝 | 自行踩坑編譯 | 可固定 Xcode/CLT 與磁碟水位 |
| 隱私邊界 | 實體機可控 | 獨占裸機執行個體,權重不出你的磁碟 |
相比之下,用普通 Linux VPS 或消費級 GPU 雲主機硬跑 ds4 往往要走非 Metal 路徑或根本不受官方支援;租一台記憶體規格對口的 macOS 裸機,才是與 ds4 設計意圖一致的做法。若你已在實踐並行 Agent 工作流,把 ds4 當作「重推理分身」、把 64GB 雲 Mac 當作調度台,是 2026 年常見的成本結構。
對需要穩定 Metal 推理、又不想為 96GB 門檻一次性掏十幾萬硬體預算的團隊,MESHLAUNCH 的高記憶體 Mac mini / M4 Pro / Max 雲端裸機租賃通常是更務實的起點:按日驗證 Flash、按月鎖定長上下文生產、臨時升配 PRO,且推理全程在專屬執行個體內完成,不經過第三方模型 API。選型與水位說明見租賃價格頁與雲端說明中心,可直接下單租賃。
官方路徑以 96GB 統一記憶體為 Flash q2 的最低門檻;64GB 無法完整載入非對稱量化權重。建議先按日租 128GB 檔驗證,再決定是否自購。
不會。ds4-server 在租用執行個體內監聽;你把 Cursor Base URL 指向該機器即可,權重與 KV 快照留在執行個體磁碟上。
可以同機安裝,但避免兩個大模型同時滿載。把 96GB 以上記憶體優先留給 ds4 長上下文;小模型補全可繼續走 Ollama,詳見雲端說明中心的記憶體對照。