Letzten Freitag war es mal wieder soweit – kompletter Stromausfall im Dorf für 45 Minuten. Kein großes Ding? Doch, wenn dein ganzes Heimnetzwerk und Server-Cluster darauf angewiesen sind, bleibt dir nur eins: Troubleshooting unter Druck.
Mein Setup
Mein Server-Cluster besteht aus drei Mini-PCs, die unter Proxmox VE laufen. Die VMs liegen auf einem Ceph-Cluster, der intern die NVMe-Speicher der Nodes nutzt. Soweit, so gut – solange der Strom nicht weg ist.
Nach dem Blackout: Nichts geht mehr
Nach Wiederkehr des Stroms starteten die Nodes alle brav neu und waren erreichbar – nur die VMs nicht. Der Cluster verhielt sich merkwürdig:
- Einzelne Nodes wurden als nicht erreichbar angezeigt
- Ceph-Cluster? Verschwunden
- Ohne DNS und DHCP-Server geht natürlich nichts im Netz
Und so begann das Troubleshooting – unter wachsendem Druck. Die Kinder kamen im Minutentakt: „Wann geht das Internet wieder?“ Sie mussten natürlich noch Hausaufgaben machen. Streaming? Ebenfalls tot.
Erste Fehleranalyse
Also ran an die Nodes. Ping per IP? Kein Problem. Ping per Hostname? Fehlanzeige – klar, der DNS-Server läuft ja nicht. Blöd nur, dass ich die Cluster-Kommunikation über Hostnamen konfiguriert habe.
Der erste Fix: Manuelle Einträge in /etc/hosts auf allen Nodes. Plötzlich war die Namensauflösung wieder da, und nach einem Neustart fanden sich die Nodes auch wieder im Ceph-Cluster.
VMs starten trotzdem nicht…
Ceph lief wieder, die Nodes waren da, aber die Storages? Fehlanzeige. Ein Blick in die Logs brachte Licht ins Dunkel: Zeitdifferenz zu groß.
Ein Node lag zeitlich weit daneben – natürlich kein Wunder, wenn der NTP-Server über DNS nicht erreichbar ist. Die Lösung:
- Zeit manuell auf dem Node korrigieren
- Eine externe NTP-Server-IP direkt hinterlegen
Und siehe da – Ceph kam wieder online, die Storages waren verfügbar und die VMs starteten endlich wieder.
Fazit
Nach einem Stromausfall ist Zeit-Synchronisation im Cluster kritisch. Ohne konsistente Zeitangaben verweigert Ceph den Dienst. Lessons learned:
✅ /etc/hosts als Backup für DNS-Probleme nutzen
✅ Externe NTP-Server als IP eintragen, nicht nur als Hostname
✅ Eine längere USV-Laufzeit wäre vielleicht keine schlechte Idee…
Am Ende war’s zwar eine lange Nacht, aber hey – der Cluster lebt wieder. 🚀
Wenn der Strom ausfällt: Ein Albtraum für den Heim-Cluster