ds4-serverとCursor連携まで完了する方法を説明します。
2026年のds4とは:antirezが「1モデル特化」を選んだ理由
ローカル推論の選択肢は既に豊富です——llama.cpp、Ollama、MLXは多数のGGUFを読み込めます。ds4の逆説は意図的に狭く作ることです。DeepSeek V4 Flash(および同系checkpoint)専用に、Metalグラフ実行、非対称量子化ロード、ディスクKV、Tool Calling、ds4-serverを一体で設計しています。antirezはプロジェクト説明で率直に述べています。ボトルネックは「推論フレームワークの有無」ではなく、「個人マシンでClaudeの日常クエリに代わる十分速い大規模オープンウェイトがあるか」だと。
コミュニティの反応:リポジトリantirez/ds4は公開から数日でStar 1万超え。「単一モデルへの深い統合」が、2026年の痛みに刺さっている証拠です。
自己完結型:llama.cppランタイムに依存しません。macOSではMetalが本番パス、CPUは検証用のみ(READMEはmacOS仮想メモリのバグでカーネルパニックの恐れがあると警告しており、CPUを本番バックエンドにしないでください)。
Agent対応:ds4-serverはOpenAI互換とAnthropic互換の両方を提供します。Cursor、opencode、Claude CodeのBase URLを自マシンに向ければ、データを外に出さないコーディングセッションが可能です。
長コンテキスト:百万token級のウィンドウを目標に設計。DeepSeek V4の圧縮KVとds4のディスクスナップショットにより、長文でも毎回フルprefillが不要になります。
本当の壁:ソフトは揃いました。96GB〜512GBの統合メモリが多くの人を止めています——ここをMacクラウドレンタルが解きます。
ds4は「ローカルで最先端大モデルを回す」ことが2026年に現実になったことを示しています。止めるのはメモリ仕様であり、C言語の巧みさではありません。
ds4の技術要点:Metal、ディスクKV、2-bit量子化の連携
ds4を「適当なGGUFローダー」と区別するのは、いくつかの定量的な設計判断です(MシリーズMax上のコミュニティ報告ではprefill約463 token/s、生成約34 token/s。数値はモデルと量子化で変わるため、必ず対象マシンでベンチマークしてください)。
| 能力 | ds4(DwarfStar 4) | 汎用 Ollama / llama.cpp |
|---|---|---|
| モデル範囲 | DeepSeek V4 Flash専用パス | 数百アーキテクチャのGGUF |
| GPUバックエンド | macOS向けMetalが第一目標 | マルチバックエンド、Metal最適化は限定的 |
| KV状態 | RAM + ディスクスナップショット、セッション復元 | 実装依存、プロセス終了で消失しがち |
| 量子化 | 2-bitはルーティングエキスパートのみ、他層は精度維持 | モデル全体を同一量子化 |
| コーディングAgent | 組み込みTool Calling + 互換API | 追加ゲートウェイが必要 |
| コンテキスト | 1M token級を設計目標 | モデルとメモリの両方で制限 |
Apple Siliconの統合メモリ(UMA)はCPU/GPUが同一物理メモリを共有します。高帯域とNVMeと組み合わさって初めてディスクKVキャッシュに意味が生まれます——ds4がMetal + macOS SSDを「第一の組み合わせ」とする理由は偶然ではありません。
引用可能な基準:公式READMEは本番推論をMetal/CUDAに紐づけています。Flash非対称2/8 bitは96GBまたは128GB統合メモリで初めて完全ロード可能——それ未満は「公式サポートパス」外と見なすべきです。
DeepSeek V4 Flash / PRO に必要なメモリ:2026年選定マトリクス
以下はプロジェクト文書とコミュニティデプロイ報告を統合した表です。購入参考価格帯は2026年の日本市場における最上位構成の目安であり、レンタル vs 購入の判断材料としてご利用ください。実際の価格はAppleおよびクラウド見積もりを優先してください。
| モデル / 量子化 | 最低統合メモリ | 典型ハードウェア | 購入参考(目安) |
|---|---|---|---|
| V4 Flash · q2 | 96 GB | MacBook Pro M3/M4/M5 Max | 約60万円〜 |
| V4 Flash · q4 | 256 GB | Mac Studio Ultra | 約120万円〜 |
| V4 PRO · q2 | 512 GB | Mac Studio M3 Ultra 最上位 | 約220万円〜 |
試走ティア(96〜128GB):Flash q2の検証、Cursor Tool Calling、中程度のコンテキストに十分。個人研究者の日次レンタル検証に最適です。
本番コーディング(128〜256GB):並列Agent + 長コンテキスト + ディスクKV常駐時は、Swap回避のため約20%のメモリ余裕を確保してください。
PRO実験(512GB):PROウェイトをローカルで回す必要がある場合のみ。多くのチームは週単位のクラウド借りで足り、一括購入は不要です。
クラウドMacでds4を動かす6ステップ:仕様選定からAgent検収まで
以下のRunbookは、MESHLAUNCHまたは他プロバイダの裸機macOSをSSH接続済みで利用し、インスタンスメモリが目標量子化以上(Flash q2は最低96GB)であることを前提としています。
量子化に合わせてインスタンス選択:Flash試走は128GBで余裕を確保。q4やPROなら256GB / 512GBを最初から選び、途中のインスタンス変更と重み再ダウンロードを避けます。
ログインしてMetalを確認:system_profiler SPDisplaysDataTypeでApple Siliconを確認。xcode-select -pでCommand Line Toolsが使えることを確認し、以降のmakeでclangが利用できるようにします。
ds4をクローンしてビルド:git clone https://github.com/antirez/ds4.git && cd ds4 && make(macOSはデフォルトMetal)。初回ビルドはtmuxまたはscreen内で実行し、SSH切断でコンパイルが止まらないようにします。
モデル重みをダウンロード:リポジトリ手順に従いDeepSeek V4 Flashの公式ベクトル/GGUFを取得し、インスタンスローカルNVMe(数百GB級)に配置します。iCloud同期フォルダは使わないでください。
ds4-serverを起動:127.0.0.1またはプライベートIPにバインドし、OpenAI互換ポートを記録します。curlで/v1/modelsを叩き、CPUデバッグではなくMetalパスがロードされていることを確認します。
Agent検収:CursorまたはClaude CodeのProvider Base URLをそのインスタンスに向けます(SSHトンネルまたはTailscale Serve)。Tool Callingを含むコーディングタスクを1本走らせ、KVスナップショットがディスクに落ち、再接続時にフルprefillを回避できるか確認します。
ssh -N -L 8080:127.0.0.1:PORT user@your-cloud-mac.example.com export OPENAI_BASE_URL=http://127.0.0.1:8080/v1
最上位Macが買えない?Flash試走とPRO一時昇格のTCO
最上位Mac購入の利点は「常に手元にある」こと。欠点は一括キャッシュフローと減価償却、PRO構成の遊休コストです。クラウド裸機レンタルはメモリ仕様をダイヤルに変えます。今週128GBでFlashプラグイン、来週512GBでPROベンチマーク、終わったら停止——という運用が可能です。
| 観点 | Mac Studio Ultra購入 | 大容量クラウドMacレンタル |
|---|---|---|
| 初期投資 | 百万円級の一括 | 時間/日/月課金、減価償却なし |
| 仕様の柔軟性 | 買い替え=再購入 | コンソールで128GB ↔ 512GB切替 |
| チーム共有 | 1人1台 | 1インスタンス + SSH権限分離、シフト推論 |
| 環境 | 自力でコンパイル地獄 | Xcode/CLTとディスク水位を固定可能 |
| プライバシー | 物理機を完全掌握 | 専用裸機、重みはあなたのディスクから出ない |
一般のLinux VPSや消費者向けGPUクラウドでds4を無理やり回すと、非Metalパスになるか公式非対応になりがちです。メモリ仕様が合ったmacOS裸機を借りるのが、ds4の設計意図に沿った方法です。並列Agentワークフローを既に実践しているなら、ds4を「重推論ワーカー」、64GBクラウドMacを「制御プレーン」に割り当てる構成が2026年の定番コスト構造です。
安定したMetal推論が必要で、96GB壁のために百万円級ハードを一括投入したくないチームには、MESHLAUNCHの大容量Mac mini / M4 Pro / Maxクラウド裸機レンタルが現実的な起点です。日次でFlash検証、月次で長コンテキスト本番、必要時にPROへ一時昇格——推論はすべて専用インスタンス内で完結し、第三者モデルAPIを経由しません。仕様と料金はレンタル料金ページとヘルプセンターをご覧ください。注文ページからすぐに借りられます。
公式パスではFlash q2に96GB統合メモリが最低要件です。64GBでは非対称量子化を完全ロードできません。まず128GBを日次レンタルで検証してから購入を判断してください。
いいえ。ds4-serverはレンタルインスタンス内でリッスンします。CursorのBase URLをそのマシンに向けるだけで、重みとKVスナップショットはインスタンスディスクに留まります。
同一マシンにインストール可能ですが、2つの大モデルを同時フル稼働させないでください。96GB以上はds4長コンテキスト優先、小モデル補完はOllama——ヘルプセンターのメモリ対照表を参照してください。