Managed Cloud Server Infrastruktur

Restart

Løst

Wir konnten das Problem auf eine Kettenreaktion zurückführen, die durch das Update einer kritischen Softwarekomponente auf einigen Cluster-Nodes im betroffenen Cluster ausgelöst wurde.

Durch einen Fehler hierbei wurden die betroffenen Nodes vom Clusterverbund separiert, woraufhin auf diesen Nodes das automatische Fencing ausgelöst wurde und es zu einem harten Reset dieser Server kam. Dadurch waren die darauf befindlichen Cloud Server nicht erreichbar bzw. mussten (im Falle von “Highline”) auf anderen Nodes neu gestartet werden, was zu einer Downtime von einigen Minuten führte.

Dieser Fencing-Mechanismus einzelner Cluster-Nodes ist normalerweise erwünscht und sinnvoll, damit der Cluster-State intern immer “klar” ist und kein sogenanntes Split-Brain-Szenario, also eine Cluster-Separierung durch Abkopplung einzelner Nodes, aus dem Cluster entsteht. In diesem Fall war es jedoch natürlich nicht erwünscht, zumal es auf mehreren Nodes in kurzem Abstand nacheinander auftrat.

Wir haben bereits Ad-hoc-Maßnahmen ergriffen, die einen solchen Vorfall zukünftig verhindern und werden den Vorfall nochmals intern im Detail besprechen und ggf. weitere Maßnahmen implementieren.

Danke für Ihr Verständnis und nochmals Entschuldigung für die Ihnen entstandenen Unannehmlichkeiten.

Overvåkes

Alle Services laufen seit einer Weile wieder. Wir untersuchen nun die Ursache am Cluster und werden hier dazu zeitnah eine Post-mortem-Analyse veröffentlichen.

Wir bitten für die entstandenen Unannehmlichkeiten um Entschuldigung!
Sollten Sie noch Probleme bemerken, wenden Sie sich bitte via Ticket an uns.

Overvåkes

Alle Nodes sind wieder online und alle VMs gestartet. Wir prüfen nun aller Services und starten ggf. einzelne Dienste, die noch nicht wieder online sind.

Weitere Informationen erhalten Sie später hier.

Undersøker

Einer unser Cluster hat sich soeben neu gestartet, wir untersuchen die Ursache und bringen VMs schnellstmöglich wieder online.

Updates erhalten Sie hier zeitnah!