Merkwürdige Teilabstürze Home Assistant

Hallo Welt,

ich weiß nicht genau ob ich mir das Problem bei einem Update oder durch eine neue Integration eingetreten habe. Der Zustand ist jedenfalls unbefriedigend.

Ich kann in unregelmäßigen Zeitabständen auf die Weboberfläche (mit Port 8123) nicht mehr zugreifen. Der Browser meldet einen Verbindungsfehler. Das passiert momentan so ca. aller 2 Tage.

Manchmal aber nur manchmal, komme ich noch per SSH drauf und kann die Kiste zumindest geordnet neu starten. Manchmal ist das Netzwerk auch komplett tot.

Alle Automationen laufen im Hintergrund weiter, Licht geht an und aus, Heizung, alles prima.

Mein HA läuft in einer VM mit KVM, dafür habe ich so installiert, wie das in Install Home Assistant OS with KVM on Ubuntu headless (CLI only) - Community Guides - Home Assistant Community beschrieben ist, nur das bei mir auf dem Host Debian arbytet. Das lief auch ungefähr 2 Jahre völlig fehlerfrei, weshalb ich halt vermute: Ein Update, eine neue Integration. Momentan „beseitige“ ich den Absturz, indem ich über den Host, auf dem die VM läuft, an der Shell mit virsh das Ding reboote.

Wie debuggt man sowas? Ich würde ungern jetzt tagelang mal diese, mal jene Integration deaktivieren, zumal ich immer so 3 Tage warten müsste um ein Ergebnis zu erhalten. Ich habe >30 Integrationen, das würde dauern. :expressionless: In einem vollständigen Linux würde ich jetzt nach /var/log/syslog oder den entsprechenden systemd-Zeug gucken, aber nichts davon sehe ich, wenn ich mich via SSH einlogge?

Das Logfile der Weboberfläche ist unauffällig.

Ich habe zur Diagnose die Integration „System Monitor“ installiert. Festplattenplatz und RAM sind ausreichend vorhanden, die CPU idelt so vor sich hin. Auffällig ist, bei jedem Neustart des Systems werden schlagartig 500 MByte Speicher frei. Das erscheint mir für bissel /tmp relativ… viel? Oder sind das normale Größen?

Also, wie debugge ich das? Danke fürs Lesen.

VG Jörg

Ich hatte vor einiger Zeit auch ‚Teilabstürze‘. Am Energiemonitor könnte ich sehen das es immer ca. 04:15 Uhr passiert ist. Inzwischen habe ich den Internet Reconnect während des Backup im Verdacht. Aber das ist nicht verifiziert, nur meine Internet Neuverbindung hat sich geändert, seit dem habe ich keine Abstürze mehr. Bei einem anderen User habe ich, irgendwo im www, auch einen Zusammenhang zwischen Absturz, Backup und kurzzeitige Internetunterbrechung gelesen.
Aber wenn es bei dir regelmäßig Auftritt, lässt es sich ja innerhalb weniger Tage testen. Viel Glück und bitte Berichte.

Hallo,

Das ist interessant! Der letzte Absturz war heute Nacht um 2:20, und ich sehe es auch im Energiemonitor. Ich habe sonst alles über Zigbee angeschlossen, wo ich logischerweise keine Aussetzer sehen kann. Das Netz hat sich übrigens „von alleine“ gegen 4:30 wieder eingekriegt, ab hier habe ich wieder Aufzeichnungen aus dem Energiemonitor.

Meine Fritzbox behauptet aber, es habe ich fraglichen Zeitraum keine Zwangstrennung gegeben. In der Fritzbox sind auch keine Ab- oder Neuanmeldungen der HA-IP übers DHCP vermerkt. Bei der Suche in der Netzwerk-Ecke sind mir weitere Merkwürdigkeiten aufgefallen:

Über die Web-GUI (Einstellungen, System, Netzwerk behauptet mein System, es benutze für den Bezug einer IP DHCP. Von dort hat es offensichtlich auch den korrekten DNS-Server, den meine Fritzbox bereit stellt, bezogen. Wenn ich aber vias SSH in /etc/resolv.conf gucke, steht da Unsinn drin:

nameserver 172.30.32.3

Ähm, what? Kenne ich nicht. Und er ist auch nur von innerhalb HAOS anpingbar, von keinem anderen PC. (Logisch, mein Netz ist 192… und die IP ist aus dem nichtgerouteten Adrtessbereich)

Und es wird noch wilder. Ich habe gestern fürs Debugging mc und joe installiert. Die sind heute wieder weg, ich muss sie neu installieren!

Läuft da, obwohl ich ganz ausdrücklich eine VM mit KVM installiert habe, doch wieder irgendwelcher Containerkram innerhalb der VM? Oder hab ich mir… was eingetreten? Schadcode? Ich bin gerade maximal verwirrt. :-/

Jörg

Hallo,
leider kann ich dir bei der Lösung deines Problems nicht helfen. Allerdings hätte ich eine Idee wie du einen Reboot auslösen könntest wenn das UI und ssh nicht mehr erreichbar ist. Du schreibst

Wie wär’s wenn du einen Schalter/Fernbedienung/Taster nimmst und damit eine Automation triggerst die dein System rebootet?

Hallo,

Ja, das gänge. Wenn ich Zuhause bin ist es mir aber eh nicht ganz so wichtig das ich die Weboberfläche erreiche. Ich kann auch wie so ein Höhlenbewohner direkt zu einem Temperatursensor gehen und gucken wie warm es ist. :slight_smile:

Viel problematischer ist, wenn ich nicht Zuhause bin (Urlaub, Dienstreise usw.) Da würde ich schon gern gucken ob alles ok ist…

Momentan ist die Notlösung, dass ich von extern via ssh auf eine andere VM des gleichen Hosts gehe (Keyauthentifizierung und Portforwarding ist eingerichtet), mich von dort zum Host durchconnecte und dann die VM mit HA reboote.

Komfortabel ist was Anderes. Und ich würde das Problem natürlich gern lösen.

VG

Auch wenn es nur das Symptom lindert und nicht die Ursache, kannst du nicht per Fernadministration die Vm neu starten? Hängt ja noch ein wenig mehr dran, sonst hätte ich geschrieben, benutze einen Shelly Plug um neu zu starten.

Hab ich ja schon geschrieben, so mache ich das momentan. Ist eben keine Lösung, nur ein Würg-Around.