OpenClaw 加 Ollama 后最常见的五条误判签名
混合部署把问题面从「单一供应商的 429」扩展成「本机推理进程、Gateway WebSocket、渠道 SDK、工具沙盒与上游 LLM」五层叠加。任何一层只凭体感下结论,都会在第三周演变成「全员重启云 Mac」的不可审计运维。下面五条签名不是为了堆概念,而是为了在变更评审里快速对齐语言:当你能稳定复现其中任意两条,就应把「是否冻结模型路由与补全回滚脚本」写进风险登记册,而不是继续堆「再拉一个更大的 gguf」。
聊天顺滑但工具永远不进执行器:典型是把流式增量里的 tool 片段误判为「渠道慢」;应先对照 Gateway 日志里模型路由是否指向 Ollama,再核对工具白名单与最小 Shell 冒烟是否走云端模型对照组。
本地 curl 能打到 11434 但 Gateway 里报连接拒绝:典型是绑定在容器网络命名空间或 IPv6 栈只监听了一半回环;需要把「Gateway 进程看到的 127.0.0.1」与「你在 ssh 会话里 curl 的 127.0.0.1」对齐,而不是先改防火墙全区放行。
Swap 飙升但 CPU 并不高:典型是浏览器自动化与 GGUF 权重同时驻留内存,16GB 档位在并发高峰被双重挤压;应把「推理批次」与「无人值守抓取窗口」错峰,而不是先把 max_tokens 盲目加倍。
升级 OpenClaw 后 Ollama「偶发」不可用:典型是全局 npm 前缀或 launchd 单元路径漂移,导致 Gateway 仍指向旧工作目录里的模型缓存;要先核对 plist 与 which 再谈模型量化。
把延迟全部归因到「新加坡线路」:典型是控制面与数据面混在同一台机且未做队列分片;需要把「成员到云 Mac RTT」与「模型首 token」拆开记录,否则你会在错误的大洲加机器。
识别签名之后,下一步是把「允许自动化的边界」写进 Runbook:例如生产 Gateway 上 Ollama 仅服务白名单技能与脱敏摘要,重浏览器任务默认走云端;beta 量化模型只允许在日租样本机打开。没有这条纪律时,混合矩阵再漂亮也只是把风险按钮做得更大。若你们仍在评估 Docker 与 install.sh 双轨交付,可把站内对照文章当作并行阅读,因为卷映射与 OPENCLAW_HOME 类路径会直接决定 Ollama 权重是否在一次滚动发布里被「用完即焚」。
仅云端、仅 Ollama、混合:一张表对齐停机面与能力
工程上不存在「永远正确」的模型拓扑,只存在「你们能否解释每一次请求走了哪条供应链」。下表用粗粒度列帮助你在十分钟内对齐「我们到底缺哪一层治理」,并把「数据驻留、工具协议稳定性、成本曲线」三件事拆开到可审计字段。注意混合不是简单 50/50,而是把任务类型路由到不同 Provider:例如摘要与分类给本地 8B,代码改动与多文件编辑给云端 Sonnet 类模型。
| 维度 | 仅云端闭源 | 仅 Ollama 本地 | 混合(推荐生产探索) |
|---|---|---|---|
| 数据驻留与合规叙事 | 依赖供应商条款与出口审计 | 权重与提示词不出宿主机边界,最易讲故事 | 敏感段走本地,可公开段走云端,需路由纪律 |
| 工具与多步技能链 | 协议成熟、排障资料多 | 受量化与流式实现影响更大,需对照最小冒烟 | 用云端兜底复杂工具,用本地承接轻量工具 |
| 成本与突发流量 | 按 token 计费,洪峰直观 | 主要成本转嫁给内存与磁盘 IO | 需要队列与回落策略,否则双账单叠加 |
| 运维复杂度 | 低,直到遇到 429 与供应商变更 | 中,模型文件与进程守护要纳入同一 Runbook | 高,但可分层冻结变更窗口 |
| 与云 Mac 7×24 的匹配度 | 极适合常驻渠道与稳定出口 | 适合内网批处理窗口与脱敏流水线 | 适合「控制面云上、数据面可本地」的团队画像 |
混合的价值不是「少付一点 API 费」,而是把两类失败模式拆开:本地失败多为资源与实现边界,云端失败多为配额与策略边界。
若你在新加坡、东京、首尔、香港、美国东部与美国西部混用不同规格,还要额外记录「哪台机器是哪一个 Provider 组合的单一事实来源」,否则排障时会把 beta 量化行为误当成区域问题。与裸金属常驻折中的关键是维护窗口:把模型文件拉取与 GGUF 切换放在成员低活跃且无人重任务的时段,并在窗口前后各抓一份 ollama list 与 openclaw doctor 输出存档。
同机拓扑与 Provider 骨架:先让 127.0.0.1:11434 成为可审计事实
最稳的同机假设是:Gateway 与 Ollama 进程落在同一用户会话、同一网络命名空间、同一套 plist 或 launchd 依赖顺序里。任何「ssh 进去手动起一下 ollama」在第七天都会变成不可复现状态。工程上建议把 Ollama 服务单元与 Gateway 单元之间的依赖写清:先等 11434 health,再 kickstart Gateway,而不是反过来用渠道洪峰去撞冷启动。若你走 Docker 侧车,还要额外核对 publish 端口与宿主回环是否一致,避免日志里 handshake 差一点成功。
curl -sS http://127.0.0.1:11434/api/tags openclaw doctor openclaw channels status --probe
Provider 配置层面,团队应把「默认模型」「兜底模型」「仅工具模型」三类写进同一页 wiki,而不是散落在三个人的笔记本里。默认模型承担日常对话与轻量总结;兜底模型在本地队列深度超阈值或首 token 超时时切换;仅工具模型专门承接浏览器与 Shell 类重任务并默认走云端。把三类映射到可观察指标后,值班才能把「慢」从体感迁移到阈值。与 Gateway 热重载相关的「哪些键可不停机生效」仍建议回到站内专题文章对照,因为模型路由变更常常与 reload 边界叠加。
提示:把 ollama ps 与 Gateway 日志按时间戳对齐归档,比事后猜「是不是又换了量化」可靠三个数量级。
六步混合 Runbook:从冻结路由到可执行回落
冻结 Provider 矩阵与版本号:在变更单写明 Ollama 标签、OpenClaw 与 Gateway 版本,禁止口头「切到最新 gguf」。
备份状态目录与模型缓存清单:打包 openclaw 配置、plist、环境导出与 ollama list 输出到时间戳目录。
在日租或预生产机跑最小冒烟:curl 11434、doctor、channels 与一次轻量工具调用全过线后再谈并发。
进入维护窗口切换路由:先停重任务队列再改默认模型,避免浏览器自动化与模型 IO 叠加。
打开观测与队列深度阈值:首 token、队列长度、Swap 与磁盘 IO 四类必须有人认领告警路由。
冻结回落命令:写明切回云端默认模型的具体操作顺序与回滚时间盒,值班无需临场发明路径。
三条可写进值班手册的硬阈值与六区水位口径
首 token 与队列深度联防:若本地 8B 在空载时首 token 中位数超过约 2.5 秒且队列深度持续大于 3,应自动回落到云端默认模型并记录原因码,禁止 silent drift。
Swap 红线:16GB 档位在「Ollama 7B 量化 + 单页浏览器自动化」并存时,Swap 写入速率若连续五分钟高于磁盘舒适区,应视为配置事故并升档或分机。
磁盘水位:GGUF 与 Gateway 状态目录建议预留至少约 35% 未用空间给日志与临时下载,低于约 12% 时禁止再拉新模型直到清理 Runbook 完成。
注意:上述秒级与百分比阈值为工程沟通口径,不构成对具体硬件或云厂商 SLA 的承诺;跨区链路仍以你们实测为准。
仅依赖「出问题再全员重装」或「永远锁在单一闭源模型」时,数据驻留叙事与工具稳定性会互相打架,团队只能用反复换机来吸收成本。相对地,把 Ollama 与云端模型拆成可路由、可观测、可回落的三层,并在新加坡、日本、韩国、香港、美国东部与美国西部用日租或周租先跑样本,再决定是否把混合策略锁进月节奏,更符合短中期自动化项目的现金流与风险节奏。纯自建办公室 Mac 或家用笔记本常受睡眠、漫游与上行抖动影响,很难同时扛住 Gateway 长连接与本地大权重推理;纯靠笔记本热点跑 7×24 也会在第三周暴露 token 刷新与 Swap 的叠加问题。MESHLAUNCH 的 Mac Mini 云端租赁通常是更优解:它让你们在真实裸金属与稳定出口上验证混合矩阵,而不是把风险堆在「唯一一台生产机」上临场发挥。
取决于你是否要不可变交付与卷映射纪律;边界与端口语义见 Docker 与 install.sh 对照,远程与帮助见 帮助中心。
先把「可热生效」与「必须重启」的键分清再改路由;对照 Gateway 热重载与多实例 再进维护窗口。