Un M4 Pro 64 Go peut-il faire tourner ds4 ?

Non en production : Flash q2 avec poids asymétriques exige au moins 96 Go de mémoire unifiée. Louez d'abord un Mac cloud 128 Go à la journée pour valider avant d'acheter du matériel.

Le trafic ds4 cloud passe-t-il par une API tierce ?

Non. ds4-server écoute sur votre instance dédiée ; pointez Cursor ou Claude Code vers cet hôte. Poids et snapshots KV restent sur votre disque loué.

ds4 peut-il coexister avec Ollama ?

Oui sur la même machine, mais ne chargez pas deux grands modèles à plein régime. Réservez 96 Go+ pour les sessions long contexte ds4 ; gardez les petits modèles sur Ollama.

2026 antirez ds4 sur Mac : DeepSeek V4, le mur des 96 Go et location Mac cloud

Pour avoir des poids open frontier offline sur Mac, le blocage n'est plus le logiciel en 2026 — c'est la RAM. L'auteur de Redis, antirez, a livré en mai 2026 ds4 (DwarfStar 4) : C pur, Metal-first, uniquement pour DeepSeek V4 Flash. Cet article s'adresse aux ingénieurs IA coincés au plancher de 96 Go de mémoire unifiée : ce que ds4 fait réellement, une matrice quant/mémoire et un runbook en six étapes pour compiler, charger les poids et brancher ds4-server à Cursor sur un Mac cloud haute RAM sans acheter un Studio à six chiffres.

Qu'est-ce que ds4 en 2026 — et pourquoi antirez n'a visé qu'un modèle

llama.cpp, Ollama et MLX chargent déjà des centaines de GGUF. ds4 fait l'inverse : une famille de modèles, de bout en bout — exécution de graphe Metal, quants asymétriques, snapshots KV sur disque, tool calling et ds4-server avec endpoints compatibles OpenAI et Anthropic. Dans son billet, antirez argue que le fossé n'était jamais « un runtime de plus », mais « des poids assez rapides pour remplacer les appels Claude quotidiens sur du matériel perso ».

Momentum : github.com/antirez/ds4 a dépassé 10k+ stars en quelques jours — les développeurs veulent de la profondeur sur un checkpoint, pas un autre loader générique.

Autonome : pas de dépendance llama.cpp ; le chemin production macOS est Metal (CPU debug uniquement ; le README avertit que les bugs VM macOS peuvent provoquer un kernel panic en inférence CPU).

Prêt pour agents : pointez Cursor, opencode ou Claude Code vers votre instance — les données restent sur votre disque, pas une API hébergée.

Long contexte : la conception vise jusqu'à ~1M tokens avec KV compressé plus snapshots disque ds4 pour survivre aux redémarrages.

Vrai blocage : 96–512 Go de mémoire unifiée — c'est ce que la location Mac cloud est censée débloquer.

Metal, KV disque et quants 2-bit routés : comment ds4 diffère

Les retours communauté sur machines M-series Max citent environ 463 tok/s en prefill et 34 tok/s en génération pour Flash — benchmark toujours sur votre propre machine avant de signer des SLA.

Capacité	ds4	Ollama / llama.cpp générique
Périmètre	chemin DeepSeek V4 Flash	centaines d'architectures GGUF
GPU macOS	Metal comme cible principale	multi-backend, moins de tuning DS
État KV	RAM + snapshots disque	souvent perdu à la sortie du process
Quant	2-bit sur experts routés seulement	un seul tier quant global
Agents de code	outils intégrés + APIs compatibles	assemblage gateway supplémentaire

La mémoire unifiée (UMA) Apple Silicon partage un pool CPU/GPU — pourquoi ds4 associe Metal et NVMe rapide pour la persistance KV au lieu de traiter le Mac comme un afterthought.

Baseline citable : la doc officielle lie l'inférence production à Metal/CUDA ; les poids Flash 2/8-bit asymétriques exigent 96 ou 128 Go UMA — en dessous, hors chemin supporté.

Combien de RAM pour DeepSeek V4 Flash et PRO : matrice 2026

Modèle / quant	RAM unifiée min.	Matériel typique	Ordre de grandeur achat
V4 Flash · q2	96 Go	MacBook Pro M3/M4/M5 Max	~4k+ USD
V4 Flash · q4	256 Go	Mac Studio Ultra	~8k+ USD
V4 PRO · q2	512 Go	Mac Studio M3 Ultra maxed	~15k+ USD

Tier pilote (96–128 Go) : suffisant pour Flash q2 plus smoke tests tool calling Cursor — idéal en location cloud quotidienne.

Production code (128–256 Go) : agents parallèles plus long contexte — garder ~20 % de marge RAM contre le swap thrash.

Expériences PRO (512 Go) : louer à la semaine en cloud bare metal plutôt que capitaliser un achat unique.

Six étapes pour faire tourner ds4 sur un Mac cloud de bout en bout

Choisir la RAM pour votre quant : pilote Flash → instance 128 Go ; q4 ou PRO → 256 Go / 512 Go pour éviter de re-télécharger les poids en milieu de projet.

Valider Metal : system_profiler SPDisplaysDataType ; Command Line Tools via xcode-select -p.

Compiler ds4 : git clone https://github.com/antirez/ds4.git && cd ds4 && make dans tmux pour que les coupures SSH ne tuent pas la compile.

Stager les poids sur NVMe local : suivre le repo pour les chemins vecteurs/GGUF officiels — centaines de Go ; jamais de dossiers synchronisés iCloud.

Démarrer ds4-server : bind loopback ou IP privée ; curl /v1/models pour confirmer Metal, pas le backend debug CPU.

Acceptation agent : tunnel ou Tailscale Serve ; tâche de code tool calling ; vérifier que les snapshots KV survivent à la reconnexion sans prefill complet.

Port forward SSH

ssh -N -L 8080:127.0.0.1:PORT user@your-cloud-mac.example.com
export OPENAI_BASE_URL=http://127.0.0.1:8080/v1

Éviter le Mac à six chiffres : louer Flash, burst PRO à la demande

Acheter immobilise capital et dépréciation ; le bare metal cloud transforme la RAM en curseur — 128 Go cette semaine pour plugins Flash, 512 Go la suivante pour benchmarks PRO, puis extinction.

Dimension	Acheter Studio Ultra	Mac cloud haute RAM
Trésorerie upfront	achat à cinq chiffres	horaire / journalier / mensuel
Élasticité	nouvelle machine = nouvel achat	redimensionner 128 Go ↔ 512 Go
Partage équipe	un laptop par personne	une instance, rôles SSH, inférence par shift
Confidentialité	contrôle physique	bare metal dédié — les poids ne quittent jamais votre disque

Les VPS GPU Linux génériques conviennent mal : le chemin macOS supporté de ds4 est Metal. Associez ds4 à notre article workflow agent parallèle — Mac cloud 64 Go comme plan de contrôle, box 128 Go+ comme worker d'inférence lourde.

Pour les équipes qui veulent une inférence Metal stable sans ligne CapEx à six chiffres, la location bare metal MESHLAUNCH Mac mini / M4 Pro / Max haute RAM reste le chemin pragmatique : Flash à la journée, production long contexte au mois, burst PRO à la demande — le tout dans votre instance dédiée, pas une API modèle tierce. Voir tarifs et centre d'aide.

FAQ

Pas sur le chemin supporté — Flash q2 exige 96 Go UMA minimum. Louer 128 Go à la journée d'abord, puis décider du matériel.

Non — ds4-server tourne sur votre instance louée ; pointez l'URL de base de l'IDE là. Nous ne proxifions pas les payloads modèle.

Oui, mais évitez de charger deux grands modèles à plein régime. Réservez 96 Go+ pour ds4 ; petits modèles sur Ollama — tableaux mémoire dans le centre d'aide.

Retour au blog Louer maintenant

2026 antirez ds4 sur MacDeepSeek V4, mur des 96 Go, location cloud

Qu'est-ce que ds4 en 2026 — et pourquoi antirez n'a visé qu'un modèle

Metal, KV disque et quants 2-bit routés : comment ds4 diffère

Combien de RAM pour DeepSeek V4 Flash et PRO : matrice 2026

Six étapes pour faire tourner ds4 sur un Mac cloud de bout en bout

Éviter le Mac à six chiffres : louer Flash, burst PRO à la demande

2026 antirez ds4 sur Mac
DeepSeek V4, mur des 96 Go, location cloud