Zum Hauptinhalt springen

Level Watchdog-Aufgabe

Level's backup recovery mechanism for the agent service. Runs every 10 minutes, restarts a service the OS service manager didn't recover, and surfaces environmental problems when it fires often.

Einführung

Der Watchdog ist der Backup-Wiederherstellungsmechanismus von Level für den Agent-Dienst. Wenn der Agent-Dienst stoppt, übernimmt der Betriebssystem-Dienst-Manager in den meisten Fällen die Wiederherstellung (der Service Control Manager unter Windows stellt ihn über Dienstwiederherstellungsoptionen innerhalb von 60 Sekunden wieder her). Der Watchdog läuft nach einem Zeitplan und ist für den seltenen Fall gedacht, in dem der Dienst-Manager den Dienst nicht eigenständig wiederhergestellt hat.

Er läuft still im Hintergrund und wird unter normalen Bedingungen nicht auffallen. Wenn der Watchdog den Agent auf einem bestimmten Gerät häufig neu startet, arbeiten sowohl der Dienst-Manager als auch der Watchdog stärker als nötig – das bedeutet, dass etwas in der Umgebung Level beeinträchtigt.


Was der Watchdog tut

Zwei Systeme arbeiten zusammen, um den Level-Dienst am Laufen zu halten. Der Betriebssystem-Dienst-Manager ist die erste Instanz: Wenn der Dienst stoppt, startet er ihn automatisch neu (in der Regel innerhalb von 60 Sekunden unter Windows über Dienstwiederherstellungsoptionen). Der Watchdog ist die zweite Instanz und läuft alle 10 Minuten als Überprüfung, ob der Dienst-Manager seine Aufgabe tatsächlich erfüllt hat.

In seinem 10-Minuten-Zyklus beantwortet der Watchdog eine Frage: Läuft der Level-Agent-Dienst, und wenn nicht, kann er neugestartet werden? Er nutzt den Dienst-Manager, um den aktuellen Zustand auszulesen, und ergreift dann eine von mehreren Maßnahmen:

  • Wenn der Dienst läuft, nichts unternehmen.

  • Wenn der Dienst gestoppt ist, ihn starten.

  • Wenn der Dienst pausiert ist, ihn fortsetzen.

  • Wenn der Dienst-Eintrag vollständig fehlt (der Agent wurde deinstalliert oder ist beschädigt), sich selbst deinstallieren, damit das Gerät nicht mit einer verwaisten Aufgabe weiterläuft.

Der Watchdog meldet sich nicht bei Level, generiert keine Warnungen und installiert den Agent nicht neu. Es handelt sich um eine lokale Selbstheilungsschleife, mehr nicht.

ℹ️ HINWEIS: Der Watchdog startet den Dienst neu. Er installiert den Agent nicht neu. Wenn die ausführbare Datei entfernt, von AV/EDR unter Quarantäne gestellt oder beschädigt wurde, muss eine Neuinstallation mit dem entsprechenden Installer für die Plattform durchgeführt werden. Siehe Windows Install, macOS Install, oder Linux Install.


Windows-Verhalten

Die folgenden Details sind Windows-spezifisch. Unter macOS und Linux wird die Wiederherstellung direkt vom Betriebssystem-Dienst-Manager übernommen (siehe nächster Abschnitt).

Unter Windows ist der Watchdog eine geplante Windows-Aufgabe, die alle 10 Minuten ausgeführt wird und die --check-service Routine. Jeder Durchlauf umfasst drei Schritte.

Schritt 1: Dienststatus abfragen

Der Watchdog verwendet den Service Control Manager (SCM), um den Level-Dienst zu öffnen und seinen aktuellen Status auszulesen (Läuft, Gestoppt, Pausiert oder fehlend). Dies ist die maßgebliche Quelle dafür, ob der Dienst aktiv ist.

Schritt 2: Lokale Überwachungsverbindung validieren

Wenn der SCM den Dienst als Läuft meldet, versucht der Watchdog kurz, über den lokalen Überwachungs-/RPC-Kanal eine Verbindung zum Agent herzustellen. Dies erkennt Fälle, in denen der Dienstprozess zwar aktiv ist, aber intern nicht mehr reagiert.

Wenn diese Verbindung fehlschlägt, protokolliert der Watchdog einen Fehler und macht weiter. Er beendet den Dienst nicht allein aufgrund dieser Überprüfung. Die Wiederherstellung wird weiterhin durch den nächsten Schritt gesteuert.

ℹ️ HINWEIS: Diese Verbindungsvalidierung ist eine weiche Prüfung. Ein vorübergehender RPC-Fehler löst allein keinen Neustart aus, was verhindert, dass der Watchdog auf gesunden Systemen, die kurzzeitig nicht reagieren konnten, instabil wird.

Schritt 3: EnsureRunning ausführen

Nach der Zustandsprüfung ruft der Watchdog stets die EnsureRunning Routine. Hier findet die eigentliche Wiederherstellung statt:

  • Systembetriebszeit unter 60 Sekunden. Überspringt die gesamte Routine, um Konflikte beim frühen Systemstart zu vermeiden, bei dem der Dienst möglicherweise noch nicht gestartet wurde.

  • Dienst-Eintrag fehlt. Behandelt dies als fehlerhaften oder deinstallierten Zustand und entfernt die Watchdog-Aufgabe selbst. Das Gerät wird nicht mehr von einem Watchdog überwacht, da es nichts mehr zu überwachen gibt.

  • Dienst gestoppt. Startet den Dienst.

  • Dienst pausiert. Setzt den Dienst fort.

  • Warten auf Läuft. Fragt in einer kurzen Schleife ab, bis der Dienst Läuft meldet, bevor er beendet wird.

Die eingebettete Aufgabenbeschreibung fasst es zusammen: Der Watchdog dient dazu, den Level Windows-Dienst am Laufen zu halten.


macOS- und Linux-Verhalten

Level verlässt sich auf den Betriebssystem-Dienst-Manager für die Wiederherstellung auf Unix-ähnlichen Plattformen. Der Agent führt keine separate geplante Überprüfung durch, wie es unter Windows der Fall ist.

🖥️ PLATTFORMHINWEIS:

  • Windows: Als geplante Windows-Aufgabe implementiert, die alle 10 Minuten ausgeführt wird. Die vollständige Prüfsequenz ist oben beschrieben.

  • macOS: Verwaltet durch den LaunchDaemon unter /Library/LaunchDaemons/Level.plist. Wenn der Dienst stoppt, launchd startet ihn gemäß der Daemon-Konfiguration neu.

  • Linux: Verwaltet durch systemd. Wenn der Dienst stoppt, systemd startet ihn gemäß der Dienst-Unit-Konfiguration neu.

Das Endergebnis ist plattformübergreifend dasselbe: Ein gestoppter Dienst kehrt ohne manuellen Eingriff zurück. Der Mechanismus unterscheidet sich.


Ruhezustand, Wiederaufnahme und wofür der Watchdog nicht gedacht ist

Der Watchdog verfügt über keine Ruhezustands- oder Wiederaufnahmelogik. Er führt dieselbe 10-Minuten-Prüfung durch, unabhängig davon, ob das Gerät gerade aufgewacht ist oder seit einer Woche läuft.

Der Agent behandelt den Ruhezustand normalerweise eigenständig ohne Eingriff. Der Level-Dienstprozess läuft durch den Standby-Modus weiter, sodass nach der Wiederaufnahme in der Regel keine spezifische Wiederherstellung erforderlich ist. Der Ruhezustand scheint zwar mit seltsamen Netzwerkproblemen zu korrelieren (veralteter DNS-Zustand ist ein häufiges Beispiel), aber die Wiederherstellung dafür ist nicht schlafspezifisch.

Der Agent verfügt über einen intern laufenden separaten Verbindungsbeobachter. Seine Hauptaufgabe ist die Erkennung veralteter Verbindungen: Wenn einige ausgehende Verbindungen funktionieren und andere nicht (zwischengespeichertes DNS ist ein typisches Beispiel), startet der Beobachter den Agent neu, um einen frischen Zustand zu erzwingen. Dies ist kein Ruhezustands-Wiederherstellungsfeature, obwohl es manchmal als Nebeneffekt bei schlafbedingten Netzwerkproblemen hilft.

💡 TIPP: Deaktivieren Sie den Ruhezustand auf verwalteten Endgeräten, wo möglich. Das ist, was wir intern bei Level und was die meisten unserer größeren Kunden (5.000+ Geräte) tun. Damit wird eine Klasse von zeitweiligen Konnektivitätsproblemen beseitigt, die es nicht wert sind, pro Gerät behoben zu werden.


Wann der Watchdog ausgelöst wird

Ein gelegentlicher Neustart ist normal und selten der Untersuchung wert. Ein vorübergehender Absturz, ein Ressourcenspitzenwert, ein kurz interferierende Prozess: Jedes dieser Ereignisse kann einen einmaligen Neustart verursachen, und der Agent kehrt zurück, ohne dass es jemand bemerkt.

Ein Muster häufiger Neustarts ist anders. SCM sollte die meisten Dienstabstürze innerhalb von 60 Sekunden beheben, und der Watchdog sollte selten eingreifen müssen. Wenn der Watchdog den Dienst auf demselben Gerät wiederholt zurückbringt, verhindert etwas auf diesem Gerät, dass der Agent normal läuft.

Häufige Ursachen:

  • AV/EDR-Interferenz. Sicherheitssoftware, die den Level-Agent beendet oder unter Quarantäne stellt. Dies ist die häufigste Ursache und ist in der Regel verhaltensbasiert, weshalb sie ein einzelnes Gerät in einer ansonsten einheitlichen Flotte betreffen kann. Siehe AV/EDR False Detections.

  • Andere Verwaltungstools. Eine andere geplante Aufgabe, GPO oder RMM, die den Level-Dienst stoppt.

  • Hardwareprobleme. Fehlerhafte Festplatte, Speicherfehler oder andere Hardwaredefekte, die den Dienst zum Absturz bringen.

⚠️ WARNUNG: Wir empfehlen nicht, den Watchdog zu deaktivieren. SCM bringt den Level-Dienst in nahezu allen Fällen innerhalb von 60 Sekunden zurück. Der Watchdog ist das Sicherheitsnetz für den seltenen Ausnahmefall, in dem SCM dies nicht getan hat. Ihn aktiviert zu lassen kostet nichts.


FAQ

  • Kann ich den Watchdog deaktivieren? Das ist möglich, wird aber nicht empfohlen. SCM ist der primäre Wiederherstellungsmechanismus für den Level-Dienst und bringt ihn in nahezu allen Fällen innerhalb von 60 Sekunden zurück. Der Watchdog ist das Sicherheitsnetz für den seltenen Ausnahmefall, in dem SCM den Dienst nicht wiederhergestellt hat. Die Deaktivierung entfernt dieses Sicherheitsnetz. Ihn aktiviert zu lassen kostet nichts.

  • Der Watchdog hat den Agent auf einem meiner Geräte neu gestartet. Sollte ich mir Sorgen machen? Ein isolierter Neustart ist in der Regel keine Untersuchung wert. Er kann durch einen vorübergehenden Absturz, einen Ressourcenspitzenwert oder einen kurz interferierenden anderen Prozess verursacht werden. Wenn der Watchdog den Agent auf demselben Gerät wiederholt neu startet, ist das das Signal, genauer hinzusehen. AV/EDR-Interferenz ist die häufigste Ursache. Siehe AV/EDR False Detections.

  • Mein Gerät kommt nach dem Ruhezustand nicht wieder online. Sollte der Watchdog das nicht behandeln? Nein. Der Watchdog verfügt über keine Ruhezustands- oder Wiederaufnahmelogik. Die Wiederherstellung nach dem Aufwachen wird durch den Verbindungsbeobachter und den Realtime-Client des Agents übernommen, sowie durch die Tatsache, dass der Level-Dienstprozess den Ruhezustand normalerweise weiterläuft. Wenn ein Gerät nach dem Aufwachen nicht wieder online kommt, ist der Watchdog nicht der richtige Ausgangspunkt. Beginnen Sie mit dem Netzwerk und dem Verbindungsstatus des Agents. Siehe Offline Troubleshooting.

  • Installiert der Watchdog den Agent neu, wenn die ausführbare Datei fehlt? Nein. Er startet oder setzt nur einen vorhandenen Dienst fort. Wenn der Dienst-Eintrag vollständig fehlt, entfernt sich der Watchdog selbst und das Gerät muss den Agent neu installieren. Siehe die Installationsartikel für Ihre Plattform.

  • Where can I see whether the watchdog is healthy on a device? Run the agent's --check Diagnosebefehl auf dem Gerät aus. Die Ausgabe enthält einen Level-Prüfungsabschnitt, der zeigt, ob sich der Agent-Dienst und dieRunning / Ready). Siehe Offline Troubleshooting für die vollständige Diagnose-Anleitung.

  • Do technicians need permissions in Level to interact with the watchdog? The watchdog runs locally on each device and isn't configurable from the Level web interface. There are no permissions to grant or revoke. Interacting with it directly (inspecting the Windows scheduled task, the macOS LaunchDaemon, or the Linux systemd unit) requires local administrative access on the device.

Hat dies deine Frage beantwortet?