2026年 antirez ds4
DeepSeek V4 ローカル推論と96GB壁

DwarfStar 4 · 96GB下限 · Metal統合メモリ · 大容量Macクラウドレンタル

2026年 ds4 ローカル DeepSeek V4 推論とクラウドMacレンタル
Mac上でDeepSeek V4クラスの最先端オープンウェイトをオフライン推論したいのに、96GBからの統合メモリ要件に阻まれていませんか。Redis作者antirezが2026年5月に公開したds4(DwarfStar 4)は、純CとMetalでその道筋を切り開きました。ただしハードウェア費用の方がソフトウェアより重く感じるケースが多いです。本記事はAIエンジニアと個人開発者向けに、ds4が一夜でStar 1万超えした理由、Flash/PRO各量子化のメモリマトリクス、そして6ステップRunbookで、数十万円の最上位Macを買わずに高メモリクラウド裸機でコンパイル・重み取得・ds4-serverとCursor連携まで完了する方法を説明します。
01

2026年のds4とは:antirezが「1モデル特化」を選んだ理由

ローカル推論の選択肢は既に豊富です——llama.cpp、Ollama、MLXは多数のGGUFを読み込めます。ds4の逆説は意図的に狭く作ることです。DeepSeek V4 Flash(および同系checkpoint)専用に、Metalグラフ実行、非対称量子化ロード、ディスクKV、Tool Calling、ds4-serverを一体で設計しています。antirezはプロジェクト説明で率直に述べています。ボトルネックは「推論フレームワークの有無」ではなく、「個人マシンでClaudeの日常クエリに代わる十分速い大規模オープンウェイトがあるか」だと。

01

コミュニティの反応:リポジトリantirez/ds4は公開から数日でStar 1万超え。「単一モデルへの深い統合」が、2026年の痛みに刺さっている証拠です。

02

自己完結型:llama.cppランタイムに依存しません。macOSではMetalが本番パス、CPUは検証用のみ(READMEはmacOS仮想メモリのバグでカーネルパニックの恐れがあると警告しており、CPUを本番バックエンドにしないでください)。

03

Agent対応:ds4-serverはOpenAI互換とAnthropic互換の両方を提供します。Cursor、opencode、Claude CodeのBase URLを自マシンに向ければ、データを外に出さないコーディングセッションが可能です。

04

長コンテキスト:百万token級のウィンドウを目標に設計。DeepSeek V4の圧縮KVとds4のディスクスナップショットにより、長文でも毎回フルprefillが不要になります。

05

本当の壁:ソフトは揃いました。96GB〜512GBの統合メモリが多くの人を止めています——ここをMacクラウドレンタルが解きます。

ds4は「ローカルで最先端大モデルを回す」ことが2026年に現実になったことを示しています。止めるのはメモリ仕様であり、C言語の巧みさではありません。

02

ds4の技術要点:Metal、ディスクKV、2-bit量子化の連携

ds4を「適当なGGUFローダー」と区別するのは、いくつかの定量的な設計判断です(MシリーズMax上のコミュニティ報告ではprefill約463 token/s、生成約34 token/s。数値はモデルと量子化で変わるため、必ず対象マシンでベンチマークしてください)。

能力ds4(DwarfStar 4)汎用 Ollama / llama.cpp
モデル範囲DeepSeek V4 Flash専用パス数百アーキテクチャのGGUF
GPUバックエンドmacOS向けMetalが第一目標マルチバックエンド、Metal最適化は限定的
KV状態RAM + ディスクスナップショット、セッション復元実装依存、プロセス終了で消失しがち
量子化2-bitはルーティングエキスパートのみ、他層は精度維持モデル全体を同一量子化
コーディングAgent組み込みTool Calling + 互換API追加ゲートウェイが必要
コンテキスト1M token級を設計目標モデルとメモリの両方で制限

Apple Siliconの統合メモリ(UMA)はCPU/GPUが同一物理メモリを共有します。高帯域とNVMeと組み合わさって初めてディスクKVキャッシュに意味が生まれます——ds4がMetal + macOS SSDを「第一の組み合わせ」とする理由は偶然ではありません。

引用可能な基準:公式READMEは本番推論をMetal/CUDAに紐づけています。Flash非対称2/8 bitは96GBまたは128GB統合メモリで初めて完全ロード可能——それ未満は「公式サポートパス」外と見なすべきです。

03

DeepSeek V4 Flash / PRO に必要なメモリ:2026年選定マトリクス

以下はプロジェクト文書とコミュニティデプロイ報告を統合した表です。購入参考価格帯は2026年の日本市場における最上位構成の目安であり、レンタル vs 購入の判断材料としてご利用ください。実際の価格はAppleおよびクラウド見積もりを優先してください。

モデル / 量子化最低統合メモリ典型ハードウェア購入参考(目安)
V4 Flash · q296 GBMacBook Pro M3/M4/M5 Max約60万円〜
V4 Flash · q4256 GBMac Studio Ultra約120万円〜
V4 PRO · q2512 GBMac Studio M3 Ultra 最上位約220万円〜
A

試走ティア(96〜128GB):Flash q2の検証、Cursor Tool Calling、中程度のコンテキストに十分。個人研究者の日次レンタル検証に最適です。

B

本番コーディング(128〜256GB):並列Agent + 長コンテキスト + ディスクKV常駐時は、Swap回避のため約20%のメモリ余裕を確保してください。

C

PRO実験(512GB):PROウェイトをローカルで回す必要がある場合のみ。多くのチームは週単位のクラウド借りで足り、一括購入は不要です。

04

クラウドMacでds4を動かす6ステップ:仕様選定からAgent検収まで

以下のRunbookは、MESHLAUNCHまたは他プロバイダの裸機macOSをSSH接続済みで利用し、インスタンスメモリが目標量子化以上(Flash q2は最低96GB)であることを前提としています。

01

量子化に合わせてインスタンス選択:Flash試走は128GBで余裕を確保。q4やPROなら256GB / 512GBを最初から選び、途中のインスタンス変更と重み再ダウンロードを避けます。

02

ログインしてMetalを確認:system_profiler SPDisplaysDataTypeでApple Siliconを確認。xcode-select -pでCommand Line Toolsが使えることを確認し、以降のmakeでclangが利用できるようにします。

03

ds4をクローンしてビルド:git clone https://github.com/antirez/ds4.git && cd ds4 && make(macOSはデフォルトMetal)。初回ビルドはtmuxまたはscreen内で実行し、SSH切断でコンパイルが止まらないようにします。

04

モデル重みをダウンロード:リポジトリ手順に従いDeepSeek V4 Flashの公式ベクトル/GGUFを取得し、インスタンスローカルNVMe(数百GB級)に配置します。iCloud同期フォルダは使わないでください。

05

ds4-serverを起動:127.0.0.1またはプライベートIPにバインドし、OpenAI互換ポートを記録します。curl/v1/modelsを叩き、CPUデバッグではなくMetalパスがロードされていることを確認します。

06

Agent検収:CursorまたはClaude CodeのProvider Base URLをそのインスタンスに向けます(SSHトンネルまたはTailscale Serve)。Tool Callingを含むコーディングタスクを1本走らせ、KVスナップショットがディスクに落ち、再接続時にフルprefillを回避できるか確認します。

SSHローカルポート転送の例
ssh -N -L 8080:127.0.0.1:PORT user@your-cloud-mac.example.com
export OPENAI_BASE_URL=http://127.0.0.1:8080/v1
05

最上位Macが買えない?Flash試走とPRO一時昇格のTCO

最上位Mac購入の利点は「常に手元にある」こと。欠点は一括キャッシュフローと減価償却、PRO構成の遊休コストです。クラウド裸機レンタルはメモリ仕様をダイヤルに変えます。今週128GBでFlashプラグイン、来週512GBでPROベンチマーク、終わったら停止——という運用が可能です。

観点Mac Studio Ultra購入大容量クラウドMacレンタル
初期投資百万円級の一括時間/日/月課金、減価償却なし
仕様の柔軟性買い替え=再購入コンソールで128GB ↔ 512GB切替
チーム共有1人1台1インスタンス + SSH権限分離、シフト推論
環境自力でコンパイル地獄Xcode/CLTとディスク水位を固定可能
プライバシー物理機を完全掌握専用裸機、重みはあなたのディスクから出ない

一般のLinux VPSや消費者向けGPUクラウドでds4を無理やり回すと、非Metalパスになるか公式非対応になりがちです。メモリ仕様が合ったmacOS裸機を借りるのが、ds4の設計意図に沿った方法です。並列Agentワークフローを既に実践しているなら、ds4を「重推論ワーカー」、64GBクラウドMacを「制御プレーン」に割り当てる構成が2026年の定番コスト構造です。

安定したMetal推論が必要で、96GB壁のために百万円級ハードを一括投入したくないチームには、MESHLAUNCHの大容量Mac mini / M4 Pro / Maxクラウド裸機レンタルが現実的な起点です。日次でFlash検証、月次で長コンテキスト本番、必要時にPROへ一時昇格——推論はすべて専用インスタンス内で完結し、第三者モデルAPIを経由しません。仕様と料金はレンタル料金ページヘルプセンターをご覧ください。注文ページからすぐに借りられます。

よくある質問

公式パスではFlash q2に96GB統合メモリが最低要件です。64GBでは非対称量子化を完全ロードできません。まず128GBを日次レンタルで検証してから購入を判断してください。

いいえ。ds4-serverはレンタルインスタンス内でリッスンします。CursorのBase URLをそのマシンに向けるだけで、重みとKVスナップショットはインスタンスディスクに留まります。

同一マシンにインストール可能ですが、2つの大モデルを同時フル稼働させないでください。96GB以上はds4長コンテキスト優先、小モデル補完はOllama——ヘルプセンターのメモリ対照表を参照してください。