2026 antirez ds4 auf dem Mac
DeepSeek V4, 96-GB-Grenze, Cloud-Miete

DwarfStar 4 · unified memory · Metal · Cloud-Mac mit viel RAM

ds4 lokale DeepSeek-V4-Inferenz auf Cloud-Mac
Wer Frontier-Open-Weights offline auf dem Mac will, stößt 2026 nicht mehr an Software, sondern an RAM. Redis-Autor antirez lieferte im Mai 2026 ds4 (DwarfStar 4): reines C, Metal-first, nur für DeepSeek V4 Flash. Dieser Beitrag richtet sich an AI-Ingenieure, die an der 96-GB-unified-memory-Untergrenze hängen: was ds4 leistet, eine Quant/Speicher-Matrix und ein sechsstufiges Runbook zum Kompilieren, Laden der Gewichte und Anbinden von ds4-server an Cursor auf einem Cloud-Mac mit viel RAM – ohne Studio im sechsstelligen Bereich.
01

Was ist ds4 2026 – und warum antirez nur ein Modell baut

llama.cpp, Ollama und MLX laden bereits viele GGUFs. ds4 macht das Gegenteil: eine Modellfamilie, End-to-End – Metal-Graphexecution, asymmetrische Quants, KV-Snapshots auf Disk, Tool Calling und ds4-server mit OpenAI- und Anthropic-kompatiblen Endpoints. In seinem Text argumentiert antirez: Die Lücke war nie „noch ein Runtime“, sondern „Gewichte schnell genug, um tägliche Claude-Aufrufe auf persönlicher Hardware zu ersetzen“.

01

Momentum: github.com/antirez/ds4 überschritt binnen Tagen 10k+ Stars – Entwickler wollen Tiefe auf einem Checkpoint, keinen weiteren generischen Loader.

02

Selbstständig: keine llama.cpp-Abhängigkeit; macOS-Produktionspfad ist Metal (CPU nur Debug; README warnt vor macOS-VM-Bugs mit Kernel-Panic bei CPU-Inferenz).

03

Agent-ready: Cursor, opencode oder Claude Code auf Ihre dedizierte Instanz zeigen – Prompts und Gewichte bleiben auf Ihrer Festplatte, nicht bei einer gehosteten API. Für EU-Teams relevant unter DSGVO: Verarbeitung personenbezogener Prompts erfolgt auf der gemieteten Bare-Metal-Instanz, nicht über Drittanbieter-Modell-APIs.

04

Langer Kontext: Designziel bis ~1M Token mit komprimiertem KV plus ds4-Disk-Snapshots, damit Sitzungen Neustarts überleben.

05

Echter Blocker: 96–512 GB unified memory – genau dafür lohnt Cloud-Mac-Miete.

02

Metal, Disk-KV und 2-Bit-Routing-Quants: wo ds4 abweicht

Community-Berichte auf M-Series-Max-Maschinen nennen grob 463 tok/s Prefill und 34 tok/s Generation für Flash – benchmarken Sie immer auf Ihrer eigenen Box, bevor Sie SLAs unterschreiben.

Fähigkeitds4Generisches Ollama / llama.cpp
ScopeDeepSeek V4 Flashhunderte GGUF-Architekturen
macOS-GPUMetal als PrimärzielMulti-Backend, weniger DS-spezifisches Tuning
KV-ZustandRAM + Disk-Snapshotsoft nach Prozessende verloren
Quant2-Bit nur auf gerouteten Expertenein globales Quant-Tier
Coding-Agentenintegrierte Tools + kompatible APIsextra Gateway-Assembly

Apple Silicon unified memory (UMA) teilt CPU und GPU einen Pool – deshalb kombiniert ds4 Metal mit schnellem NVMe für KV-Persistenz statt den Mac als Afterthought zu behandeln.

Zitierbare Baseline: Offizielle Docs binden Produktionsinferenz an Metal/CUDA; asymmetrische 2/8-Bit-Flash-Gewichte erwarten 96 oder 128 GB UMA – darunter liegt man außerhalb des unterstützten Pfads.

03

Wie viel RAM für DeepSeek V4 Flash und PRO: Matrix 2026

Modell / QuantMin. unified RAMTypische HardwareKauf-Größenordnung
V4 Flash · q296 GBMacBook Pro M3/M4/M5 Max~4k+ USD
V4 Flash · q4256 GBMac Studio Ultra~8k+ USD
V4 PRO · q2512 GBMac Studio M3 Ultra maxed~15k+ USD
A

Pilot-Tier (96–128 GB): reicht für Flash q2 plus Cursor-Tool-Calling-Smoke-Tests – ideal für tägliche Cloud-Miete.

B

Produktions-Coding (128–256 GB): parallele Agenten plus langer Kontext – ~20 % RAM-Reserve gegen Swap-Thrashing.

C

PRO-Experimente (512 GB): wochenweise auf Cloud-Bare-Metal mieten statt Einmalkauf kapitalisieren.

04

Sechs Schritte: ds4 auf einem Cloud-Mac End-to-End

01

RAM zum Quant wählen: Flash-Pilot → 128-GB-Instanz; q4 oder PRO → 256 GB / 512 GB, um Mid-Project-Weight-Re-Downloads zu vermeiden.

02

Metal prüfen: system_profiler SPDisplaysDataType; Command Line Tools via xcode-select -p.

03

ds4 bauen: git clone https://github.com/antirez/ds4.git && cd ds4 && make in tmux, damit SSH-Abbrüche den Compile nicht killen.

04

Gewichte auf lokales NVMe: Repo-Pfade für offizielle Vektoren/GGUF – hunderte GB; nie iCloud-sync-Ordner.

05

ds4-server starten: Loopback oder private IP binden; curl /v1/models – Metal bestätigen, nicht CPU-Debug-Backend.

06

Agent-Abnahme: Tunnel oder Tailscale Serve; Tool-Calling-Coding-Task; KV-Snapshots überleben Reconnect ohne Full-Prefill.

SSH-Port-Forward
ssh -N -L 8080:127.0.0.1:PORT user@your-cloud-mac.example.com
export OPENAI_BASE_URL=http://127.0.0.1:8080/v1
05

Kein sechsstelliger Mac: Flash mieten, PRO bei Bedarf burst

Kauf bindet Kapital und Abschreibung; Cloud-Bare-Metal macht RAM zum Regler – 128 GB diese Woche für Flash-Plugins, 512 GB nächste Woche für PRO-Benchmarks, dann abschalten.

DimensionStudio Ultra kaufenCloud-Mac mit viel RAM
Kapital upfrontfünfstelliger Kaufstündlich / täglich / monatlich
Elasticitätneue Maschine = neuer Kauf128 GB ↔ 512 GB skalieren
Team-Sharingein Laptop pro Personeine Instanz, SSH-Rollen, Schicht-Inferenz
Datenschutzphysische Kontrolledediziertes Bare Metal – Gewichte verlassen Ihre Disk nicht; Verarbeitung auf der Instanz, DSGVO-konform dokumentierbar ohne Drittanbieter-Modell-Proxy

Generische Linux-GPU-VPS passen schlecht: ds4s unterstützter macOS-Pfad ist Metal. Kombinieren Sie ds4 mit unserem parallelen Agent-Workflow – 64-GB-Cloud-Mac als Control Plane, 128-GB+-Box als Inference-Worker.

Teams, die stabile Metal-Inferenz ohne sechsstellige CapEx-Zeile brauchen, finden bei MESHLAUNCH High-RAM Mac mini / M4 Pro / Max Bare-Metal-Miete meist den pragmatischen Weg: Flash tageweise, Langkontext-Produktion monatsweise, PRO on demand – alles in Ihrer dedizierten Instanz, keine Drittanbieter-Modell-API. Für DSGVO-Verarbeitungsverzeichnisse: dokumentieren Sie, welche Personen SSH-Zugriff haben und wo Prompt-Logs liegen. Siehe Mietpreise und Hilfezentrum.

FAQ

Nicht auf dem unterstützten Pfad – Flash q2 braucht mindestens 96 GB UMA. 128 GB tageweise mieten, dann Hardware entscheiden.

Nein – ds4-server läuft auf Ihrer gemieteten dedizierten Instanz; IDE-Base-URL dort hin. MESHLAUNCH leitet keine Modell-Payloads weiter. Personenbezogene Prompts bleiben auf Ihrer Instanz – relevant für DSGVO-Auftragsverarbeitung und Verzeichnis von Verarbeitungstätigkeiten.

Ja, aber nicht zwei große Modelle voll auslasten. 96 GB+ für ds4 reservieren; kleine Modelle auf Ollama – Speichertabellen im Hilfezentrum.