Zum Inhalt springen

Wenn der Strom ausfällt: Ein Albtraum für den Heim-Cluster

Letzten Freitag war es mal wieder soweit – kompletter Stromausfall im Dorf für 45 Minuten. Kein großes Ding? Doch, wenn dein ganzes Heimnetzwerk und Server-Cluster darauf angewiesen sind, bleibt dir nur eins: Troubleshooting unter Druck.

Mein Setup

Mein Server-Cluster besteht aus drei Mini-PCs, die unter Proxmox VE laufen. Die VMs liegen auf einem Ceph-Cluster, der intern die NVMe-Speicher der Nodes nutzt. Soweit, so gut – solange der Strom nicht weg ist.

Nach dem Blackout: Nichts geht mehr

Nach Wiederkehr des Stroms starteten die Nodes alle brav neu und waren erreichbar – nur die VMs nicht. Der Cluster verhielt sich merkwürdig:

  • Einzelne Nodes wurden als nicht erreichbar angezeigt
  • Ceph-Cluster? Verschwunden
  • Ohne DNS und DHCP-Server geht natürlich nichts im Netz

Und so begann das Troubleshooting – unter wachsendem Druck. Die Kinder kamen im Minutentakt: „Wann geht das Internet wieder?“ Sie mussten natürlich noch Hausaufgaben machen. Streaming? Ebenfalls tot.

Erste Fehleranalyse

Also ran an die Nodes. Ping per IP? Kein Problem. Ping per Hostname? Fehlanzeige – klar, der DNS-Server läuft ja nicht. Blöd nur, dass ich die Cluster-Kommunikation über Hostnamen konfiguriert habe.

Der erste Fix: Manuelle Einträge in /etc/hosts auf allen Nodes. Plötzlich war die Namensauflösung wieder da, und nach einem Neustart fanden sich die Nodes auch wieder im Ceph-Cluster.

VMs starten trotzdem nicht…

Ceph lief wieder, die Nodes waren da, aber die Storages? Fehlanzeige. Ein Blick in die Logs brachte Licht ins Dunkel: Zeitdifferenz zu groß.

Ein Node lag zeitlich weit daneben – natürlich kein Wunder, wenn der NTP-Server über DNS nicht erreichbar ist. Die Lösung:

  1. Zeit manuell auf dem Node korrigieren
  2. Eine externe NTP-Server-IP direkt hinterlegen

Und siehe da – Ceph kam wieder online, die Storages waren verfügbar und die VMs starteten endlich wieder.

Fazit

Nach einem Stromausfall ist Zeit-Synchronisation im Cluster kritisch. Ohne konsistente Zeitangaben verweigert Ceph den Dienst. Lessons learned:

✅ /etc/hosts als Backup für DNS-Probleme nutzen

✅ Externe NTP-Server als IP eintragen, nicht nur als Hostname

✅ Eine längere USV-Laufzeit wäre vielleicht keine schlechte Idee…

Am Ende war’s zwar eine lange Nacht, aber hey – der Cluster lebt wieder. 🚀

Anmelden , um einen Kommentar zu hinterlassen