Stoppt das Gateway, wenn ich das Terminal schließe?

Ja, wenn kein Daemon die Session ersetzt; launchd oder systemd übernehmen den Prozess außerhalb der interaktiven Shell.

Muss ich nach einem Upgrade die Unit neu laden?

Ja; Pfade zu Binaries ändern sich häufig, daher daemon-reload oder kickstart nach Pfadprüfung.

Reicht Docker statt systemd auf Linux?

Nur wenn die Grenzen klar sind; gemischte Steuerung vermeiden und Restart-Policy in einem System bündeln.

2026 OpenClaw Gateway Residency: launchd, systemd, Absturz-Restart und Gesundheitsmatrix

Schmerzpunkte: Warum das Gateway nachts verschwindet

Sitzungsbindung. Prozesse, die aus einer ssh-Shell oder Terminal.app starten, hängen am Lebenszyklus dieser Sitzung. Beim Abmelden, Schließen des Fensters oder Netzabbruch endet häufig die gesamte Prozessgruppe, und das Gateway wirkt willkürlich offline. Betriebsteams interpretieren das als Applikationsfehler, obwohl die Ursache in fehlender Daemonisierung liegt.

Pfad- und Versionsdrift. Nach globalem npm-Update, Wechsel des Release-Kanals oder Docker-Rebuild zeigt which openclaw auf einen anderen Pfad als die noch geladene Plist oder Unit. Symptom ist ein sporadischer Startfehler, der sich durch Neustart des Rechners manifestiert, nicht durch sanften Reload.

Ressourcen- und Deskriptorenlimits. Ein Gateway mit vielen Kanälen und Tools öffnet viele Dateideskriptoren und Sockets. Ohne angehobene Limits in der Unit oder sorgfältige ulimit-Konfiguration sterben Prozesse still oder mit generischen Exit-Codes, die schwer zu korrelieren sind.

Proxy-Schicht ohne stabiles Upstream. Selbst perfekt konfigurierter TLS-Terminator liefert 502, wenn der OpenClaw-Prozess flattert. Die Ursachenanalyse beginnt deshalb immer beim stabilen Gateway-Prozess, bevor Header an Nginx oder Caddy gezweifelt werden.

Container- und Bare-Metal-Mix. Teams starten lokal per Docker, auf dem Server per systemd und auf dem Mac per Vordergrund. Ohne klare Grenze entstehen doppelte Restart-Mechanismen oder gar keiner. Die Produktionsrichtlinie im Stabilitätsleitfaden sollte eine authoritative Quelle für die Laufzeitwahl sein.

Vordergrund ist nicht Produktion: Sessions, Logs, Wartungsfenster

Produktion verlangt deterministische Neustarts, Ausgaben, die in Dateien oder Journals landen, und dokumentierte Upgrade-Schritte. Ein Vordergrundprozess liefert schnelles Feedback, aber keine garantierte Fortsetzung nach Kernel-Update, Stromausfall oder Out-of-Memory-Ereignis. Wer nur Funktionstests im Terminal fährt, übersieht Signalhandling und Abmeldeverhalten des Betriebssystems.

Logs müssen rotierbar sein und mit Zeitstempeln korrelierbar zu openclaw doctor-Ausgaben. Ohne das verwischen Postmortems. Die Fehlersuche nach Kanalstatus bleibt ohnehin der erste Referenzpunkt im Gateway-Betrieb mit Doctor; Residency macht diese Prüfungen wiederholbar, weil der Prozess nicht verschwindet.

Wartungsfenster brauchen eine definierte Sequenz: Traffic reduzieren oder upstream drainen, Gateway kontrolliert stoppen, Binaries oder Images aktualisieren, Konfiguration validieren, Daemon neu laden, Healthchecks grün, dann erst Proxy-Caches oder CDN invalidieren. Diese Disziplin passt zur Installationsdokumentation in install.sh, npm und Docker Compose, weil dort Pfad- und Rollback-Strategien beschrieben sind.

Beobachtbarkeit bedeutet auch, Alarme auf Prozesszustand und Business-Signal zu trennen. Ein aktiver systemd-Eintrag bei leerem Kanal ist ein anderes Incident als ein bewusst gestopptes Gateway während eines Releases. Beide Zustände wollen unterschiedliche Runbooks.

Schließlich sollten Entwickler- und Produktionsprofile getrennte Umgebungsvariablen und Konfigurationsdateien nutzen. Ein versehentlich gesetztes Debug-Flag im Daemon kostet CPU und verbirgt echte Performanceprobleme hinter Lograuschen.

macOS: launchd mit absoluten Pfaden und klarer Domain

launchd erwartet explizite ProgramArguments ohne Shell-Interpretation. Jede implizite Annahme über PATH scheitert spätestens nach dem nächsten Patch. Setzen Sie EnvironmentVariables mit PATH, LANG und projektspezifischen Präfixen; verankern Sie NODE_BINARY, falls Ihre Installation das vorschreibt.

KeepAlive kann auf erfolgreichen Exit warten oder generell relaunchen; kombinieren Sie es mit ThrottleInterval, um Crash-Schleifen zu bremsen. Für Benutzeragenten reicht oft ~/Library/LaunchAgents; serverseitige Headless-Macs können Login-Items oder globale Agenten erfordern, was Auswirkungen auf Schlaf- und Energieeinstellungen hat.

Standardausgabe und Fehlerausgabe sollten in rotierbare Pfade zeigen, nicht in unbegrenzt wachsende Dateien im Home-Verzeichnis ohne Logrotate-Äquivalent. Wo möglich, nutzen Sie zentrale Logging-Pipelines, die ohnehin für Remote-Mac-Betrieb vorgesehen sind.

Änderungen an der Plist erzwingen launchctl bootout und bootstrap oder ein gezieltes kickstart -k, abhängig von macOS-Version und Domain. Dokumentieren Sie die exakten Kommandos im Runbook, damit On-Call nicht improvisiert.

Die Interaktion mit Gatekeeper und Code-Signatur bleibt außerhalb dieses Artikels, aber ein nicht startender Binary-Pfad äußert sich ähnlich wie eine blockierte Signatur. Halten Sie deshalb Hash- oder Versionsstempel in der Änderungsliste fest und vergleichen Sie mit den Erwartungen aus dem Installationsleitfaden.

Power-Nap, Ruhezustand und Laptopdeckel sind reale Faktoren für mobile Macs. Für 24/7-Gateways auf Desktop-Hardware oder Rack-Macs sollten Energieprofile festgeschrieben werden, damit kein aggressives Power-Management den Netzwerkstack drosselt.

Mehrbenutzer-Setups verlangen saubere Trennung der LaunchAgents pro Benutzerkontext. Vermischen Sie keine globalen Daemons mit benutzerspezifischen Pfaden, sonst entstehen schwer reproduzierbare Berechtigungsfehler beim Zugriff auf Tokens oder Schlüsselbund-Einträge.

Backup und Wiederherstellung der Plist-Dateien gehört in denselben Git- oder Secret-Store wie andere Infrastrukturartefakte. Ohne Versionskontrolle verlieren Teams die Spur, welche Node-Minor-Version produktiv laufen sollte.

Linux: systemd-Unit, Restart-Policy und Ressourcen

Eine Unit-Datei sollte User, Group, WorkingDirectory und ExecStart mit absolutem Pfad enthalten. Restart=always oder on-failure entscheidet, ob kurze manuelle Stopps erlaubt sind oder jeder Exit neu startet. Kombinieren Sie mit RestartSec, um Thundering-Herd bei Datenbank- oder API-Ausfällen zu vermeiden.

LimitNOFILE, TasksMax und MemoryMax schützen vor implizitem Ressourcenverbrauch. Ein Gateway, das Dateideskriptoren aufbraucht, stirbt mit opaquem Fehlerbild; die Grenzen sollten auf realistische Kanal- und Toollast kalibriert werden, nicht auf Default-Kernelwerte vertrauen.

EnvironmentFile trennt Secrets von der Unit und erlaubt Rotation ohne Neuschreiben der gesamten Datei. Achten Sie auf Berechtigungen 600 und Besitz durch den Dienstbenutzer. Nach Änderungen immer systemctl daemon-reload vor restart.

Journald liefert strukturierte Logs; filterbare Felder erleichtern Korrelation mit Proxy- und Anwendungslogs. Für langfristige Aufbewahrung forwarden Sie an Loki, Elasticsearch oder einen verwalteten Dienst, abgestimmt auf Compliance-Vorgaben aus dem Produktionsleitfaden.

Socket-Activation ist meist unnötig für ein dauerhaft verbundenes Gateway, kann aber in speziellen Szenarien helfen. Dokumentieren Sie Abweichungen vom Standard, damit neue Teammitglieder nicht raten.

User-Units versus systemweite Units beeinflussen Pfade und automatische Startlogik. Für Server ohne interaktive Session sind systemweite Units oft robuster, sofern Berechtigungen sauber gesetzt sind.

cgroup-Druck und OOM-Events sollten überwacht werden. Ein Prozess, der regelmäßig an MemoryMax stößt, braucht Architekturarbeit, nicht nur höhere Limits.

Kernel-Updates und Bibliotheksupgrades erfordern geplante Neustarts. Koordinieren Sie sie mit Wartungsfenstern und informieren Sie Kanalnutzer, wenn kurze Unterbrechungen unvermeidlich sind.

Entscheidungsmatrix: launchd, systemd oder Container

Umgebung	Primärwahl	Gewinn	Typische Fallen
Remote Mac 24/7	launchd plus rotierte Logs	Unabhängigkeit von Login-Shell, klare Agent-Domain	Pfad- und Energieprofil-Drift
Linux VPS	systemd	Einheitliches Journal, cgroup-Limits	Vermischung von User- und System-Units
Mehrinstanz-Isolation	Container mit Compose	Reproduzierbare Images	Volume-Mapping für Secrets und Konfiguration
Reines Debugging	Vordergrund oder tmux	Schnelle Iteration	Kein Crash-Recovery
Gemischter Betrieb	Eine Steuerungsebene wählen	Klare Verantwortlichkeit	Doppelte Restarts oder keine

Die Matrix ist kein Ersatz für Lasttests. Tragen Sie reale Verbindungszahlen und Toolnutzung ein, bevor Sie Limits festzurren. Konsultieren Sie bei Unsicherheiten weiterhin den Gateway-Betrieb und die Proxy-Empfehlungen in Nginx und Caddy.

Skeletons: Plist- und Unit-Fragmente

# macOS: ~/Library/LaunchAgents/com.example.openclaw.gateway.plist
# ProgramArguments: /absolut/pfad/zu/openclaw gateway
# KeepAlive: true oder SuccessfulExit
# StandardOutPath / StandardErrorPath → beschreibbare, rotierbare Pfade
# launchctl bootstrap gui/$(id -u) ~/Library/LaunchAgents/com.example.openclaw.gateway.plist

# Linux: /etc/systemd/system/openclaw-gateway.service
# ExecStart=/usr/bin/env openclaw gateway
# Restart=always
# RestartSec=5
# LimitNOFILE=65535
# systemctl daemon-reload && systemctl enable --now openclaw-gateway

Diese Fragmente sind bewusst minimal. Ergänzen Sie Hardening, Security-Optionen und Abhängigkeiten gemäß interner Policy. Nach jedem Upgrade Pfade validieren, wie in Installation und Doctor beschrieben.

Healthchecks: status, gateway, doctor, Logs

Beginnen Sie mit openclaw status, um CLI- und Kontextfehler auszuschließen. Folgen Sie mit Gateway-spezifischen Unterbefehlen, um Konfiguration und Listener zu prüfen. Erst danach lohnt tieferes Log-Stitching. Diese Reihenfolge spiegelt die Empfehlungen im Gateway-Betrieb und verhindert, dass Sie Proxythemen vor Basishealth verfolgen.

openclaw doctor sollte Warnungen als Arbeitspakete behandeln, nicht als kosmetische Hinweise. Speichern Sie Ausgaben versioniert neben Release-Tags, um Drift zwischen Umgebungen sichtbar zu machen.

Portbelegungen und WebSocket-Endpunkte müssen mit der Reverse-Proxy-Konfiguration übereinstimmen. Abweichungen bei Pfaden oder Headern finden sich in TLS und WebSocket. Testen Sie Upgrades in Staging mit identischen Units oder Plists.

Alarme sollten kombiniert werden: Prozess aktiv, aber doctor mit kritischen Hinweisen, oder Prozess aktiv, aber Kanalqueue gestaut. Einzelmetriken täuschen häufig.

Runbooks definieren klare Eskalationspfade, wenn mehrere Warnungen gleichzeitig auftreichen, etwa nach gleichzeitigem OS- und Paketupgrade.

Zeit synchron halten: ohne verlässliches NTP wirken Logkorrelationen willkürlich und erschweren gemeinsame Postmortems mit Proxy-Teams.

Backup der Konfigurationsdateien vor jedem Release reduziert Mean-Time-to-Restore. Kombinieren Sie das mit den Rollback-Hinweisen im Installationsleitfaden.

Healthchecks sollten auch dann laufen, wenn das Gateway absichtlich heruntergefahren wurde, ohne falsche Alarme zu erzeugen; nutzen Sie Wartungsflags oder silencierte Zeiträume in Ihrem Monitoring.

Langfristige Speicherung von doctor-Outputs kann Datenschutz berühren; minimieren Sie Felder und rotieren Sie sensible Abschnitte entsprechend Policy.

Integrationstests nach Daemon-Reload müssen WebSocket-Upgrades und TLS-Handshakes abdecken, nicht nur HTTP-200-Checks.

Schließen Sie Postmortems mit konkreten Action Items zu Unit-Parametern statt vager Appell an bessere Aufmerksamkeit.

Zusätzliche Prüfungen vor einem produktiven Lastanstieg umfassen synthetische Kanaltests, kontrollierte Tool-Aufrufe und die Verifikation, dass Hintergrundjobs nicht die gleichen Ressourcen wie das Gateway beanspruchen. Dokumentieren Sie erwartete Latenzspannen und Abweichungen, damit Support keine falschen Prioritäten setzt.

Bei gemischten Teams aus macOS- und Linux-Administratoren sollten Glossare dieselben Begriffe für Prozesszustände verwenden, etwa aktiv versus loaded, damit Kommunikation in Incident-Channels nicht an terminologischen Missverständnissen scheitert.

Langzeitbeobachtungen helfen, saisonale Muster zu erkennen, etwa höhere Last nach Release-Zyklen oder bei Quartalsenden. Diese Muster fließen in Kapazitätsplanung und Wartungsfenster ein, statt nur reaktiv zu skalieren.

Schulungen für neue Betriebskräfte sollten reale Auszüge aus Journal oder Logrotate enthalten, damit Theorie und Praxis zusammenfallen und Onboarding-Zeiten sinken.

Kurze Checklisten an jedem Knoten reduzieren Flüchtigkeitsfehler beim Wechsel der Bereitschaft.

Upgrade-Fenster und Koexistenz mit Docker

Planen Sie Node-Minor-Updates und OpenClaw-Releases gemeinsam, damit ABI- und CLI-Änderungen nicht zwischen zwei Wartungsereignissen liegen. Dokumentieren Sie erwartete Nebenwirkungen aus Release Notes und spiegeln Sie sie in Ihren internen Checklisten wider.

Wenn Container parallel laufen, vermeiden Sie konkurrierende Portbindings und doppelte Prozessüberwachung. Entweder der Container ist authoritative oder die Host-Unit, nicht beides halbherzig.

Datenmigrationen zwischen Host- und Containerpfaden sind fehleranfällig; halten Sie Pfade in einem einzigen Manifest und versionieren Sie es.

Canary-Deployments können auf separaten Ports erfolgen, bevor Traffic umgeschaltet wird. Dokumentieren Sie Rollback-Schritte explizit.

Kommunizieren Sie erwartete Downtime oder kurze Queue-Verzögerungen an interne Nutzer, damit Support nicht mit falschen Alarmen überlastet wird.

Die Gesamtstrategie sollte mit dem stabilen Produktionsbetrieb übereinstimmen, einschließlich Backup-Rhythmus und Prüfpunkten für Secrets.

Nach großen OS-Upgrades erneut doctor fahren und Limits überprüfen; Kernelparameter können sich ändern und bestehende Units unerwartet an neue Defaults anpassen.

Automatisierte Tests der Units in CI reduzieren menschliche Flüchtigkeitsfehler, etwa falsche Pfadsubstitutionen beim Templating.

Dokumentieren Sie Abhängigkeiten zu externen Diensten, damit Wartungsarbeiten Dritter nicht fälschlich Ihrem Gateway angelastet werden.

Performance-Baselines vor und nach Upgrades sichern objektive Entscheidungen über Ressourcenanpassungen.

Schließen Sie jedes Fenster mit einem kurzen Bericht: erreichte Metriken, verbleibende Risiken, nächste Überprüfungstermine.

FAQ

Reicht cron zum Neustarten?

Nicht als Hauptstrategie; systemd und launchd bieten bessere Semantik und Zustandsintegration.

Port 18789 belegt?

Zuerst lokal prüfen, dann Konflikte mit Proxy- oder zweitem Gateway identifizieren; siehe auch Gateway-Betrieb.

Zwei Überwacher gleichzeitig?

Vermeiden; wählen Sie eine Steuerungsebene und dokumentieren Sie sie.

Wann Container statt systemd?

Wenn Reproduzierbarkeit und Image-Pinning wichtiger sind als direkter Host-I/O; Details bei Docker Compose.

Fazit und Remote-Mac-Operations

Fazit: Residency löst Sitzungs- und Absturzprobleme, indem Betriebssystem-Daemons die Lebenszyklen steuern. Die Matrix hilft, zwischen launchd, systemd und Container zu wählen, ohne doppelte Verantwortlichkeiten.

Grenzen: Selbst perfekte Units ersetzen keine sauberen Proxys oder getesteten TLS-Ketten; kombinieren Sie Daemonisierung mit dem Reverse-Proxy-Leitfaden und dem Stabilitätsrahmen.

SFTPMAC unterstützt Teams mit gehosteten Remote-Macs, auf denen diese Runbooks ohne lokale Hardwarebeschleunigung ausprobiert werden können. Ziel bleibt weniger nächtliche Fehlstarts und mehr reproduzierbare Ergebnisse.

Gestützte Remote-Macs und klare Gateway-Runbooks reduzieren operative Reibung.