DerivedData 把磁盘吃满时，先扩容还是先并联第二台？

若排队来自单仓库体积与缓存膨胀，优先同区加盘或升配到更大 SSD 档位；若排队来自并行 job 数超过单机 CPU 与 IO 的可持续占用，则并联第二台并拆分队列。burst 场景可短期日租第二台做对冲。

制品库和 Runner 不在同一区会有什么后果？

主要后果是依赖拉取与 layer 下载的尾延迟放大，夜间批处理窗口被拉长。应把只读制品缓存、私有 registry 与主力 Runner 放在同一逻辑区域，并把跨区调用限制在可异步重试的任务上。

2026 年跨区域 iOS/macOS CI 与云 Mac 队列路由实战：六区标签、制品同区与扩容决策

Q: CI Runner 标签应该怎么命名才不容易乱？

建议固定三段：region（如 sg、jp）、tier（m4-16、m4-24、m4pro-64）、workload（ci-nightly、ui-smoke、interactive）。控制面只根据标签路由，避免同一队列混装交互调试与全量编译。

01

云 Mac 上跑 CI 为什么总卡在队列与磁盘两头烧

很多团队把「能上 Xcode」误当成「能上 CI」。实际上 CI 的瓶颈往往来自三类耦合：第一类是网络耦合，Runner 与私有 registry、对象存储或内部 Maven/NPM 代理不在同一区域，git fetch 与 large file 拉取会把 p95 拉长到分钟级；第二类是磁盘耦合，Xcode 的 DerivedData、模拟器运行时与并行测试日志同时增长，256GB 与 512GB 档位在两周内就可能进入持续抖动；第三类是调度耦合，交互式远程桌面会话与无人值守的 nightly 任务共享同一标签队列，导致高峰期出现「人类抢不过机器」的饥饿现象。

在新加坡、日本、韩国、香港、美国东部与美国西部六类节点都可选的前提下，2026 年更稳妥的做法是先冻结工作负载类别，再谈选区。下面五个痛点对应五类真实事故签名，可直接贴进你们的值班手册作为一级分类。

01

跨区制品拉取：Runner 在东京而只读制品桶在新加坡，夜间并发 20 路 job 时，对象存储的跨区域读带宽成为硬顶，构建排队呈指数上升而非线性。

02

LFS 与二进制依赖：美术资源、预编译框架与测试夹具走 LFS 时，若未在 Runner 侧做同区缓存或近邻镜像，单次 pipeline 的冷启动成本会吞噬掉「换区省下的交互延迟」。

03

DerivedData 与模拟器并发：多模拟器并行 UI 测试会把统一内存与 NVMe 随机写同时顶满，表现为偶发超时而非稳定失败，排错时极易误判为网络问题。

04

队列标签过粗：所有任务都打 mac-ci，导致轻量 smoke 与全量编译抢同一并发槽，发布窗口前出现无意义的 retry 风暴。

05

租期与峰值错配：为两周冲刺包月两台高配，却在第三周起长期闲置；反过来只用日租却未预留镜像预热窗口，导致「省钱反而更贵」。

把上述五类问题拆开之后，选区与规格决策会显著变简单：交互类任务优先贴近成员 RTT，制品与 CI 类任务优先贴近只读依赖与控制面，常驻 agent 再单独评估 CPU 占用与心跳稳定性。若你希望把「成员与 API 双路径」写成更完整的团队级策略，也可以对照站内另一篇《2026年跨区域开发团队 Mac mini M4 云租策略》里的矩阵方法，把本文的队列与制品规则嵌进去作为执行层。

02

DerivedData 满了该扩容、并联还是短期日租第二台

这张矩阵刻意用「可观测信号」而不是口号来分界：当你能持续看到磁盘水位与队列深度两条曲线同时上升，优先怀疑磁盘与缓存；当磁盘健康但队列深度长期高于并发能力，优先怀疑并行度与机型档位；当峰值只在发布周出现，优先用短期第二台实例做对冲而不是立刻把主实例锁到顶配长租。

维度	同区加盘或升 SSD 档位	并联第二台同区 Runner	短期日租 burst 缓冲机
典型触发信号	磁盘使用率持续高于 85%，IO 等待占比升高	CPU 多核长期饱和且 job 排队不随磁盘清理下降	发布窗口或合并周出现 3–7 天尖峰
主要收益	降低 Swap 与编译缓存抖动，缩短尾延迟	提高并行度，隔离不同分支或不同团队队列	现金流友好，峰值结束即可回收
主要成本	月费或季费上升，需评估缓存治理是否已做满	需要额外的队列路由、镜像与密钥分发纪律	需要预热脚本与镜像对齐，否则冷启动吞收益
与制品同区关系	强相关，磁盘本地缓存命中率提升	中等相关，两台都要挂载同一套缓存策略	弱相关，更依赖自动化预热与只读镜像
更适合谁	单仓库体积大、构建缓存路径长	多仓库、多产品线并行 CI	活动类、外包峰值、临时合规驻场

队列问题的根因很少是「再买一台 Mac」这么简单；先用标签把 workload 切开，再用同区制品把冷启动砍下来，最后才用并联或租期组合解决结构性并行度。

在裸金属云 Mac 场景下，独占 NVMe 通道让「磁盘是否成为编译尾延迟主因」更容易被观测到：当你清理 DerivedData 后构建时间立刻下降，但几小时后又回升，这几乎总是缓存策略与并行度配置问题，而不是单纯「机器不够快」。此时若直接把机型跳到 M4 Pro 64GB，却不同步收紧并行模拟器数量，预算上升但 p95 可能几乎不动。

03

六区 Runner 标签、制品同区与 LFS 路由骨架怎么写

下面这段骨架不是某个单一 CI 产品的私有语法，而是把「区域、档位、工作负载」三段信息固定在标签里，便于任何控制面做路由。region 建议与你们内部监控里的区域代码一致，避免口头叫新加坡而指标里写 ap-southeast-1 这类双轨命名。workload 至少拆 ci-nightly、ui-smoke、interactive 三档，interactive 严禁与 ci-nightly 抢同一并发池。

标签与队列命名骨架

region: sg | jp | kr | hk | use | usw
tier: m4-16 | m4-24 | m4pro-64
workload: ci-nightly | ui-smoke | interactive | agent

示例 Runner 名: mac-ci-sg-m4pro-64-nightly-01
制品只读镜像: registry.internal.sg/…（与 sg Runner 同区）
LFS 缓存: lfs-cache-sg.internal（与 Runner SSH 同路由域）

制品同区的落地要点是「只读依赖与控制面」跟 Runner 走同一逻辑区域，而不是强求所有开发者个人电脑也在同区。对于 git LFS，建议在 Runner 启动脚本里先做一次 lfs pull 到本地 SSD 固定路径，并把该路径纳入构建缓存键；对于容器化步骤，如果必须跨区拉 layer，至少把 base image 缓存在同区 registry，避免每次从公共仓库冷拉。

跨区域团队还需要一条硬纪律：失败重试必须带区域亲和性。也就是说 smoke 失败默认在同区重试一次，再考虑跨区 fallback；否则你会在日志里看到大量无意义的跨洋重试，把已经紧张的夜间窗口进一步打碎。把这条策略写进 pipeline 的默认模板后，排错会轻松很多。

提示：若你们已在使用静态 IP 与 1Gbps 独占带宽类套餐，请把「控制面到 Runner 的探测」与「Runner 到制品库」分成两条监控链路，避免把 SSH 流畅误判为制品也流畅。

04

六步把多区云 Mac CI 从能跑变成可审计

01

冻结四类 workload：分别统计交互调试、自动化测试、CI nightly、常驻 agent 的周 CPU、磁盘写入与网络出站，禁止混在一个「平均利用率」里。

02

为每个活跃区域建立只读制品锚点：在新加坡、日本、韩国、香港、美东、美西中，只为实际有 Runner 的区域创建 registry 或缓存前缀，并记录 DNS 与 TLS 证书负责人。

03

下发统一 Runner 标签模板：把 region、tier、workload 三段写入安装脚本，并在控制面侧禁止手工改标签，避免漂移。

04

配置带区域亲和的重试策略：同区失败重试一次，跨区 fallback 仅对可幂等任务开放，并在日志里打印区域标签便于追责。

05

建立 DerivedData 与日志轮转阈值：例如磁盘水位 80% 触发清理脚本，85% 触发告警，90% 自动从 nightly 队列摘除该 Runner。

06

把租期与峰值写进成本台账：为每次 burst 记录起止日期、机型与并行度，季度复盘时对照矩阵决定下一季是加盘、并联还是调整区域布局。

05

三条可直接写进评审材料的规划口径

A

队列深度与并发槽：以「每核可持续占用」估算 nightly 并发，不要以峰值瞬时 CPU 作为下单依据；Apple Silicon 在编译与模拟器混合场景下更容易出现长尾。

B

制品同区 ROI：把「冷启动分钟数 × 工程师时薪」与「同区缓存月费」做一张简单表，通常同区只读镜像在第三周即可打平跨区拉取的隐性人力成本。

C

burst 窗口长度：若峰值稳定短于 10 个工作日，优先用短期第二台或日租组合承接主队列溢出，而不是直接把主实例锁到顶配长租。

注意：本文中的跨区域延迟区间仅用于规划对照，真实数值必须以你们 orchestrator 与办公室出口网络实测为准，避免把规划表当成 SLA 合同条款。

把 Mac 当成「能远程登录的桌面」来租，往往会在 CI 与自动化阶段暴露隐性成本：虚拟化或共享存储会放大编译尾延迟，而跨区制品拉取会把夜间窗口打碎成不可预测的排队。相对地，独占 Apple Silicon 裸金属、按天到按季弹性租期、以及覆盖新加坡与日本、韩国、香港、美国东部与美国西部的多节点布局，更适合作为 iOS 与 macOS 工程团队的长期执行层。MESHLAUNCH 的 Mac Mini 云端租赁通常是更优解：它把「算力、磁盘与网络」从办公室消费级宽带里解耦出来，让你可以把队列、制品与租期策略写成可审计的 runbook，而不是靠个人电脑硬扛。

常见问题

建议固定 region、tier、workload 三段，并在控制面禁止手工改标签。更完整的团队级选区方法可参考跨区域团队云租策略，把交互与 API 路径先定锚，再嵌本文的队列规则。

看队列深度与磁盘水位是否同步上升。磁盘单独恶化优先加盘与缓存治理；CPU 与并行度长期打满再并联。需要临时峰值可配合短期租期，具体组合可先对照价格页的档位与周期。

主要后果是冷启动与 layer 下载尾延迟放大。应优先把只读制品与 Runner 同区部署，并在监控里拆分 SSH 与控制面链路。操作细则也可查阅帮助中心的网络与访问说明。

2026 年跨区域 iOS/macOS CI与云 Mac 队列路由实战

云 Mac 上跑 CI 为什么总卡在队列与磁盘两头烧

DerivedData 满了该扩容、并联还是短期日租第二台

六区 Runner 标签、制品同区与 LFS 路由骨架怎么写

六步把多区云 Mac CI 从能跑变成可审计

三条可直接写进评审材料的规划口径

2026 年跨区域 iOS/macOS CI
与云 Mac 队列路由实战