三类痛点:升级后看起来像「OpenClaw 抽风」
1)无配置契约的升级。 openclaw update 成功打印后,Telegram 不回复可能只是 openclaw.json 键名变更或默认数据目录迁移;若无带日期的 tarball 与上一版 digest,回滚变成猜谜。须明确哪些文件属网关用户、哪些路径存通道令牌、哪些目录缓存模型,恢复时与重装解耦。
2)把 MCP 当纯配置却忽视运行面。 plugins 声明子进程、命令行、环境注入与文件根;JSON 笔误、仓库迁移后的绝对路径、可执行权限变更,会导致进程起来但工具从上下文消失。热重载加速迭代,也可能掩盖「何时开始坏」的时间点,每次改动后需显式验证工具列表。
3)跳过排障阶梯。 应先后验证进程与监听端口、HTTP 健康与反代一致、openclaw doctor 静态校验,再带最小用户消息抓日志;未确认挂载就删依赖只会换故障层。升级与生产发布一样要记录通道、版本串、tarball 校验和与 health JSON。
通道与回滚决策矩阵:stable、beta 与紧急回退
架构评审与事故复盘皆可对照;裸机 macOS、Linux 云主机、容器路径不同,风险形态相近。
| 策略 | 最适用 | 主要风险 | 最小控制面 |
|---|---|---|---|
| 仅 stable | 生产网关、受控流程、单负责人机器人 | 新特性来得慢 | 锁文件或镜像 digest 固定版本、按月演练 tarball 还原 |
| staging 用 beta/nightly | 验证 MCP 栈或新消息桥 | 配置仓库被实验性 schema 污染 | 分离配置路径与密钥、每次 bump 后自动 doctor |
| tarball + 上一版包回滚 | 可接受分钟级中断 | 发行说明若含单向迁移,降级需读文档 | 降级前读 notes,前后各导出 health JSON |
| 重装最新干净 | 实验机与一次性 VM | 缓存丢失即像数据没了 | 勿作生产首选响应 |
通道策略需与安装路径一致:Docker 钉 digest,npm 钉锁文件。
升级前快照:应打包哪些文件、密钥与工作区边界
执行 openclaw update 前打 tarball:含 openclaw.json 目录、叠加配置、服务用户 profile、密钥管理器句柄;昂贵缓存按需纳入。明确工作区读写边界与容器 UID/GID。
对象存储保留 ≥90 天;附 Node、包管理器、which openclaw、上一份 health JSON。升级前 openclaw doctor 留基线;与SHA256 闸门同理重证据。
MCP plugins、热重载与工具列表陷阱
MCP 集成多以结构化条目描述子进程或本地服务;应用编辑器或 schema 校验 JSON。尾逗号、Windows 路径转义、斜杠混用会早失败。优先相对路径并锚定到文档化工作区根,保证克隆行为一致。
热重载并非每版都支持;有时需全量重启。重载后查工具列表并做烟测。on-call 先按子系统过滤日志;插件用专用账号与最小密钥。生产与 staging 插件白名单应书面化。
plugins 变更后示例诊断顺序
openclaw status
curl -sS -m 5 http://127.0.0.1:18789/health || echo "gateway probe failed"
openclaw doctor
openclaw health --json > /tmp/openclaw-health-plugins-$(date +%Y%m%d%H%M).json
openclaw logs --follow
若 TLS 在反代终止,请改写端口与 URL,保持顺序不变。
可引用数据:端口、内存、日志与并行度
2026 文档多将网关 HTTP 健康检查放在 18789,公网与 TLS 由 nginx/Caddy/云 LB 处理;同时写清内部端口与消息桥访问的公网 URL,避免编排器误杀健康容器。小节点为对话突发预留至少 约 1.5 GiB 空闲内存,与网关运维文一致;内存饥饿常表现为工具调用变慢而非立刻崩溃。
热存储至少 14 天日志;按日轮转。CI 与网关同机时限制并行,见并发与会话。每月记录 webhook 到首 token 的 P95。
排障顺序、FAQ 与何时选 SFTPMAC 远程 Mac
升级或改 plugins 后:status→HTTP→doctor→日志。与网关运维文一致。
- doctor 干净但通道静默:查桥接令牌与 allowedOrigins,不只应用日志。
- 工具列表空:查 JSON、权限、是否需重启。
- 反代间歇 502:对比上游超时与长工具调用;MCP 可能超过默认 proxy read。
小结:可靠运维 = 版本纪律 + 快照回滚 + 显式 MCP 契约 + 固定阶梯。
局限:休眠笔记本、共用家目录、未文档化手改,仍是首要故障源,即便上游无 bug。
SFTPMAC:托管远程 Mac 提供稳定在线与目录隔离,便于与 SFTP/rsync 产物同机;减少休眠断连与权限漂移。
小补丁也要快照吗?
跑生产流量则建议要;tarball 成本远低于无序恢复。
staging 与生产能共用 plugins 文件吗?
仅在有模板化与密钥分离时;否则按环境分叉。
云 Linux 够用吗?
多数网关可;若工具链、签名或路径强依赖 macOS,选远程 Mac。
需要与托管文件交付同机的稳定 OpenClaw 网关?了解 SFTPMAC 套餐与节点选型。
