痛点:进程活着不等于网关可信
痛点1:把PID当验收。监督器可能在快速重启子进程,客户端却超时。请按网关运维与doctor通道排查的阶梯执行。
痛点2:Linux忘了linger。SSH断开后systemd --user会话结束,网关随之消失,这不是OpenClaw缺陷。
痛点3:混淆force与卸载。gateway install --force刷新网关侧产物;卸载清理更广的集成面。
痛点4:launchd日志路径漂移。npm全局路径变化后plist里StandardOutPath可能指向旧目录,参见常驻与健康矩阵。
痛点5:反代症状当应用bug。先对照反向代理与TLS再重装。
痛点6:三类失误叠在一起像「随机故障」。只备 JSON 不做 plist/unit 哈希、linger 开在共用人类账号、只在 127.0.0.1 自测 RPC 而生产用另一套 TLS 名,排障会像玄学。请把 gateway install --force 与 semver、4.x 文档、WSL2 注意、快照+MCP 冷重启写在同一变更单,并登记 CLI/网关 semver、doctor 摘要哈希、linger、RPC p95、证书 notAfter、监督器重启计数、日志分区可用率。
官方阶梯:status→gateway→logs→doctor,以及RPC探针
顺序:openclaw status→网关状态→日志→openclaw doctor(先无--fix);fix 仅在快照+窗口内。RPC 用与客户端一致的域名与证书名,勿只做 127.0.0.1。
健康进程≠健康网关;RPC 才覆盖鉴权、路由、适配器与版本。把 p95、错误率与反代 access 对齐存档。
macOS launchd安装与force后的复核
核对 Label、ProgramArguments、日志路径;force 后 diff plist,并用 launchctl bootstrap/launchctl print留证。
Linux systemd --user与loginctl enable-linger
对服务账户执行loginctl enable-linger确认Linger=yes,并做无 SSH 冷启动验证;网络家目录/VPN 写入说明,避免 user manager 早于挂载。
2026年可引用数据:工单建议登记的字段与阈值基线
工单建议登记的可引用基线:监听以本机 openclaw gateway status 为准(文档常举18789示例端口);Node 主版本对齐 openclaw doctor 下限;日志分区保持≥15%可用;loginctl enable-linger 后各做1 次冷重启与1 次公网主机名+证书链 RPC;快照含 plist/unit SHA256 与 which openclaw。
| 字段 | 示例 | 用途 |
|---|---|---|
| CLI / 网关 semver | 2026.4.x | 与二进制及发布说明对齐 |
| plist 或 unit SHA256 | 64 位十六进制 | gateway install --force 后与快照 diff |
Linger | yes / no | 证明无 SSH 会话仍可拉起 user manager |
| RPC p95 | 如内网边缘 <300 ms(示例) | 区分网络与网关内部路由 |
| 日志盘可用率 | ≥15% | 避免轮转截断证据链 |
gateway install --force与七步操作路径
# 1) openclaw status
# 2) openclaw gateway status
# 3) 按通道ID过滤日志
# 4) openclaw doctor
# 5) gateway install --force
# 6) systemctl --user daemon-reload && systemctl --user restart SERVICE
# 7) loginctl enable-linger USER
- 归档JSON、密钥、plist/unit片段与反代片段。
- 按阶梯执行到doctor(无fix)并分类错误。
- 若仅为网关产物损坏,在审批窗口内执行force。
- 重载监督器;启用MCP则冷重启。
- Linux启用linger并做无SSH验收。
- 发送合成RPC与通道探针(见网关运维文)。
- 若路径冲突或完整性不可证,则卸载单通道后干净重装。
决策矩阵、量化字段、FAQ与SFTPMAC
| 场景 | 首选动作 | 证据 | 风险 |
|---|---|---|---|
| RPC失败进程在 | 阶梯→重启 | 日志+公网SNI | loopback误判 |
| 模板缺失 | force | doctor | 覆盖热修 |
| SSH停 | linger | Linger=no | 域误用 |
| npm+Docker | 卸其一 | which | 窗口风险 |
建议登记:双 semver、unit/plist 摘要、doctor 哈希、linger、RPC p95、证书到期、日志余量、重启计数。
Linux上SSH断开就停?
查 linger 与账户隔离。
force等于卸载吗?
否,作用域不同。
进程健康就够吗?
否,需 RPC+TLS 边缘一致。
总结:可靠性=监督器+会话+TLS+RPC 同屏对齐。
局限:自管要扛补丁/磁盘/值班。SFTPMAC远程Mac以可重复镜像+SFTP/rsync交付,适合7x24与审计。
三段收束:自建适合实验与小规模;多机分散抬高补丁与证据链成本;同构远程Mac可把 launchd 常驻、同步与升级审计压缩成可复制界面。
版本、快照名、linger、最近RPC放同一面板。
