Wenn eine Website oder ein Webservice nicht online verfügbar sind oder für die Endnutzer nicht ausreichend funktionieren, um eine Aufgabe auszuführen, erachtet man diese Website als ausgefallen.

Obwohl die meisten Websites und Webservices danach streben, keine Ausfälle zu verzeichnen, sind Ausfälle nicht vermeidbar. Selbst Riesen wie Google und Facebook unterliegen gelegentlich Ausfällen. Obwohl die Technologie sich verbessert hat und Anbieter Systeme einrichten, um Ausfälle zu unterbinden, können unvorhergesehene Umstände einen Ausfall verursachen.

Was ist ein Ausfall?

Der Begriff Ausfall ist subjektiv, genauso wie sein Gegenüber, die Verfügbarkeit. In den Anfangszeiten des Internets bedeutete ein Ausfall in der Regel, dass die Website für die Endnutzer nicht erreichbar war. Heute ist die Sachlage, die einen Ausfall ausmacht, komplizierter. Die meisten erachten eine Website oder einen Service als ausgefallen, wenn die Endnutzer eine Funktion nicht ausführen können. Eine E-Commerce-Website ist zum Beispiel letztendlich ausgefallen, wenn die Endnutzer den Einkaufsvorgang nicht abschließen können. Tatsächlich vergeben Besucher einer Website einen Komplettausfall eher, als sie fehlerhafte Funktionen vergeben. Eine schlechte Performance kann auch in die Kategorie Ausfall gehören, wenn sie Endnutzer daran hindert, ihr Ziel zu erreichen.

Was verursacht einen Ausfall?

Viele Dinge können zu Ausfällen führen. Einige Ursachen kann der Anbieter steuern, wie etwa geplante Wartungen. Über andere Ausfälle hat er keine Kontrolle. Jede Situation ist einzigartig, aber die meisten Ursachen fallen unter die folgenden Kategorien.

Menschliches Versagen

Wie bei allem, das schiefgeht, führt die Ursache häufig zu einem einzelnen Fehler, der einer Person oder einem Team unterlief. Eine gutgemeinte Code-Änderung wirkt sich auf etwas anderes aus und es erscheint nicht beim Regressionstesten, ein System geht unbeabsichtigt offline oder ein DNS-Eintrag wird mit nicht korrekten Daten aktualisiert. Dies sind nur wenige Beispiele, wie Menschen zum Ausfall einer Website beitragen können. Der große AWS outage Anfang 2017 ist ein Beispiel, wie etwas so Einfaches wie ein Tippfehler einen Ausfall verursachen kann, der sich nicht nur auf die Webservices von Amazon auswirkte, sondern vielen anderen großen Websites Probleme bereitete.

Geräteausfall

Geräte verschleißen und erleiden Defekte. Auch neue Geräte können ohne Warnung ausfallen. Angemessene Instandhaltung und Hardware-Redundanz sind die einzigen Möglichkeiten, Ausfällen aufgrund von Geräten entgegenzutreten. Bei einem anderen Amazon-Beispiel erlitt der E-Commerce-Riese einen Ausfall, der sich 2010 auf einen Großteil Europas auswirkte. Obwohl zuerst der Verdacht bestand, dass Hacker die Website zum Ausfall brachten, legte Amazon später offen, dass der Ausfall aufgrund eines Hardware-Fehlers in seinem Datenzentrum passierte.

Böswilliger Angriff

Hacker entdecken immer wieder schlaue neue Möglichkeiten, Unternehmen zu infiltrieren und ihren Betrieb zu stören. Eine gern genutzte Methode ist der Distributed Denial-of-Service (DDoS)-Angriff. Die Denial-of-Dervice-Angriffe versuchen, Server mit Anfragen in die Knie zu zwingen. Die Anfragen kommen simultan und wiederholt von vielen Standorten und verursachen eine Überlastung des anvisierten Webservers. Die Flut an Anfragen blockieren legitime Anfragen und sorgen für einen Ausfall der Website. Andere Angriffe sind beispielsweise DNS-Cache-Poisoning, bei dem Hacker den Cache des Domain Name System (DNS)-Auflösers infiltrieren und die IP-Adresse in etwas ändern, das ihnen ermöglicht, die Nutzer der Website auszubeuten. Die gewünschte Website ist also tatsächlich nicht verfügbar. Weitere Angriffe beziehen sich auf SSL-Zertifikate oder involvieren Malware.

Wie vermeiden Websites Ausfälle?

In Sachen Hardware setzen Unternehmen auf Redundanz, um sicherzustellen, dass Backup-Systeme bei einem Ausfall bereitstehen. Lastenausgleicher und Datenzentren sorgen für eine gute Performance. Synthetic Monitoring Services überwachen Websites, Server, APIs und Webanwendungen im Hinblick auf Ausfälle, Performance und Funktionstüchtigkeit. Der Monitoring Service meldet den IT-Teams, wenn etwas nicht richtig funktioniert.

Verfügbarkeits-Monitoring

Auch Website Monitoring oder Uptime Monitoring genannt gehört das Verfügbarkeits-Monitoring zu den synthetischen Monitoring-Arten, die ein Netzwerk an Computern (Checkpoints) einsetzen, um Anfragen, Pings und Verbindungsanforderungen an Websites und Server zu senden. In ihrer grundlegenden Funktion testen diese Prüfobjekte die Antwortcodes sowie Antwortzeiten und berichten die Ergebnisse an den Monitoring Service. Wenn ein Fehler auftritt oder die Antwort länger dauert, als vorgegeben, kann der Monitoring Service eine Warnmeldung ausgeben. Der Monitoring Service kann den Fehler auch von einem weiteren Checkpoint bestätigen lassen, bevor er eine Warnmeldung sendet.

Erweitertes Verfügbarkeits-Monitoring

Advanced Availability Monitoring uses specialized monitoring types to verify availability based on specific servers or functions. Companies use Advanced Availability Monitoring to:

Erweitertes Verfügbarkeits-Monitoring nutzt spezialisierte Monitoring-Typen, um die Verfügbarkeit auf Grundlage besonderer Server oder Funktionen zu prüfen. Unternehmen nutzen das erweiterte Verfügbarkeits-Monitoring, um:

  • TLS/SSL-Zertifikate auf Auslaufen und Inhalt zu prüfen,
  • den DNS-Status durch Bestätigen der Hauptfelder in einem DNS-Eintrag zu prüfen,
  • mit POP3-, IMAP- und SMTP-E-Mail-Servern zu kommunizieren,
  • Abfragen an MySQL- und SQL-Serverdatenbanken zu senden und diese zu prüfen,
  • die Verfügbarkeit und Downloads von FTP und SFTP zu prüfen.

Performance- und Funktions-Monitoring

Sowohl das Verfügbarkeits- als auch das erweiterte Monitoring sind gut geeignet, um auf Systemausfälle zu prüfen, aber sie können nur in geringem Maße auf Performance und Funktion testen. Web Performance, Web Application und API Monitoring führen das Verfügbarkeits-Monitoring auf eine andere Stufe.

Web Performance monitoring

Performance-Prüfobjekte machen mehr, als Anfragen zu senden oder zu empfangen. Sie verwenden echte Browser wie Chrome und Internet Explorer, um diese Anfragen zu senden und die Antworten zu empfangen. Die Checkpoints machen mehr, als die Ausgabe auf Fehlermeldungen zu prüfen. Der Checkpoint lädt die Antwort in einen Browser. Das Laden des Inhalts erlaubt die Auslösung nachfolgender Anfragen und das Laden der Skripte und Inhalte der Seite in den Browser. Das Prüfobjekt untersucht die Performance für jedes Seitenelement. Ein Monitoring Service erzeugt einen visuellen Bericht in Form eines Wasserfalldiagramms zur einfacheren Analyse. Wasserfallberichte vereinfachen die Ursachenanalyse durch Identifizieren langsam ladender Inhalte (gleich ob externe oder eigene) und berichten über die Front- und Backend-Performance für jedes Element.

Web Application Monitoring

Die Website ist eventuell erreichbar, funktioniert aber nicht richtig. Dann unterliegt die Website letztendlich einer Form eines Ausfalls. Das Web Application Monitoring bzw. das Transaktions-Monitoring unterstützt Unternehmen dabei, dass Websites funktionsfähig bleiben. Die Checkpoints verwenden Skripte, die wie reguläre Nutzer handeln, um Anmeldeformulare, Einkaufsprozesse, Webformulare und Bezahlvorgänge zu testen. Die Prüfobjekte überwachen auch die Reaktionsgeschwindigkeit von Servern und prüfen daneben auf Seiteninhalte.

API Monitoring

SaaS-Unternehmen und Websites kommunizieren andauernd miteinander und mit Endnutzern über ihre extern gerichteten APIs. Wenn eine API ausfällt, wirkt sich das auf mehr aus, als nur die API. Mobile Apps funktionieren nicht mehr, abhängige Webinhalte und Funktionen fallen aus sowie auch Backend-Prozesse. Das Testen von API-Funktionen mit dem API Monitoring kann Ausfallzeiten drastisch reduzieren, indem es die Ausfälle und Trends schnell erfasst. Das frühzeitige Erkennen von API-Problemen kann verhindern, dass API-Probleme sich auf API-Nutzer auswirken.

Fazit

Ausfallzeiten lassen sich schwer vermeiden, aber die richtigen Supportsysteme und Monitoring-Lösungen können sie auf nahezu Null reduzieren. Anbieter streben nach einer hohen Verfügbarkeit (99,99 % Verfügbarkeit) und viele erreichen und halten dieses Ziel. Eine andere Lösung, die von Anbietern eingesetzt wird, um ihren Webauftritt zu überwachen, ist das Real User Monitoring (RUM). RUM erlaubt einem Anbieter, die tatsächliche Erfahrung der Nutzer aufzuzeichnen (Digital Experience Monitoring, DEM). Obwohl RUM sich nicht gut für das Verfügbarkeits-Monitoring eignet, kann es Performance-Informationen basierend auf Standort des Nutzers, Browser-Typ und -Version, Betriebssystem und -version, Gerätetyp und aufgerufene Seiten liefern.