Ereignis-Log

Wir geben unser Bestes, unsere Services störungs- und unterbrechungsfrei anzubieten. Aber trotz großen Engagements und Vorsichtsmaßnahmen, kann es zu einem Ausfall oder einer Störung unserer Services kommen. Da wir, ebenso wie du, auf eine Reihe von Services von Fremdanbietern bauen, liegt das Problem (und seine Lösung) eventuell nicht in unserer Macht. Auf dieser Seite protokollieren wir Ereignisse und einige Hintergrundinformationen zum Geschehen. Sobald die Ursache bekannt ist, teilen wir die Einzelheiten hier mit.

Verzögerte E-Mail-Zustellung (Dezember 2023)

Kürzlich wurde ein Zustellungsproblem bei unserem E-Mail-System identifiziert. In den letzten Tagen hat eine technische Störung dazu geführt, dass einige E-Mails, die von unserem Service generiert wurden, in einer Warteschlange aufgenommen wurden, statt sofort gesendet zu werden. Das Problem wurde am 20. Dezember 2023 behoben, indem unser Team das System auf die normale E-Mail-Zustellung zurückgesetzt hat und die sofortige Aussendung aller E-Mails der Warteschlange sicherstellte.

Aufgrund dieses Vorfalls ist es möglicherweise zu einer Empfangsverzögerung bestimmter E-Mails gekommen. Wir haben seitdem unsere Monitoring-Verfahren für die E-Mail-Zustellung verbessert, um ähnliche Probleme zukünftig zu vermeiden.

Wir bitten für eventuell entstandene Unannehmlichkeiten um Entschuldigung und danken für dein Verständnis. Solltest du Bedenken haben oder weitere Informationen zu diesem Problem benötigen, wende dich bitte an unser Support-Team.

Problem mit Timeline-Screenshots (Oktober 2023)

Um deine Endnutzer am besten wiederzugeben, ist Uptrends bestrebt, die neuesten Browserversionen für das browserbasierte Monitoring in deinem Accounts einzusetzen. Dafür folgen wir dem Chrome-Release-Rhythmus. Leider wurde mit dem Roll-out von Chrome 118 ein Fehler bei der Erstellung von Screenshots in den Chrome-Entwicklertools eingeführt. Für Uptrends bedeutete dies, dass bei allen Browser Checks, die von Checkpoints mit Chrome 118 ausgeführt wurden, Timeline-Screenshots fehlten. Statt einer Reihe von Screenshots zu enthalten, die verschiedene Phasen des Ladens der Seite erfassten, zeigt das Prüfobjektergebnis einen einzelnen leeren Screenshot.

Das langsame Ausbringen des neuen Chrome Releases bedeutete, dass seit dem Release von Chrome 118 Anfang des Monats mehr und mehr unserer Checkpoints von dem Problem betroffen waren. Daher werden bei immer mehr Ergebnissen von Browser Checks Timeline-Screenshots fehlen.

Wir haben eine Lösung entwickelt und sind derzeit dabei, unser gesamtes Checkpoint-Netzwerk zu aktualisieren.

Alarmierungsausfall (21.–22. August 2023)

Zwischen dem 21. und 22. August 2023 trat bei der Uptrends Plattform ein Problem auf, aufgrund dessen keine Alarmierungsbenachrichtigungen durch die verfügbaren Integrationen gesendet wurden. Das Problem begann am 22. August 01:47 CEST (21. August 19:47 EDT) und wurde am 22. August 02:52 CEST (21. August 20:52 EDT) behoben. Während dieser Zeit wurden keine Warnmeldungen gesendet. Alle Alarme, die in diesem Zeitraum generiert wurden, werden in der Alarmierungshistorie in deinem Account angezeigt, da nur die ausgehenden Benachrichtigungen betroffen waren. Das Monitoring war nicht beeinträchtigt.

Aufgrund dieses Ausfalls haben Plattformen, die eingehende Benachrichtigungen von Uptrends (wie zum Beispiel Incident Management Tools, Automatisierungstools oder Kommunikationsplattformen) handhaben, die Meldung nicht erhalten, die eine Reaktion wie die Erzeugung eines Tickets, eines Ereignisses oder einer Benachrichtigung hätte auslösen sollen, während darauffolgende „Ok“-Meldungen eingingen. Im Gegenzug wurden eventuell Warnmeldungen empfangen, für die nie eine „Ok“-Benachrichtigung gesendet wurde, sodass der Alarm oder das Ereignis bei externen Plattformen möglicherweise noch als aktuell gilt. Siehe in der Übersicht zum Meldestatus in deinem Account nach, um den Echtzeit-Status deiner Uptrends Alarme zu erfahren.

Unterbrochener Uptrends Service (6. April 2022)

Am 6. April 2022 kam es bei der Uptrends Plattform zu zwei nicht zusammenhängenden Ereignissen, die sich beide auf die Ausführungen von Prüfungen und Alarmierungen sowie auf den Zugriff auf die Plattform auswirkten.

Das erste Ereignis begann etwa um 8:15 Uhr UTC und dauerte bis etwa 9:00 Uhr UTC. Es wurde von einem Problem in der zugrunde liegenden Infrastruktur von AMS-IX verursacht, das sich auf eine große Anzahl von AMS-Kunden auswirkte, einschließlich beider Datenzentren von Uptrends. Für weitere Informationen zu diesem Ereignis verweisen wir auf diesen Ausfall-Bericht, der von AMX-IX veröffentlicht wurde.

Das zweite Ereignis begann etwa um 13:30 Uhr UTC und dauerte bis etwa 14:30 Uhr UTC. Dieses Problem wurde von einem Software-Fehler verursacht, der zuvor mit der Veröffentlichung einer neuen Version am selben Tag eingeführt wurde. Dies wirkte sich erheblich auf die Performance der Uptrends Datenbank aus. Sobald das Problem sichtbar wurde, arbeiteten unsere Software-Entwickler an seiner genauen Identifizierung und veröffentlichten eine Version, die das Problem eindämmte.

Unvollständiger Wasserfall aufgrund von Problemen mit Chrome Service Worker (16. November 2021)

Hinweis (16.03.2022): Die Probleme mit Service Worker bei Chrome wurden inzwischen behoben. In den Wasserfalldiagrammen werden keine Objekte mehr fehlen.

Ab dem Release von Chrome 96 werden Service Worker nicht mehr korrekt installiert, sodass Objekte im Wasserfallbericht des Full Pagechecks eventuell fehlen. Uptrends führt seine Checkpoints immer auf der letzten stabilen Version von Chrome aus, wodurch die Uptrends Anwendung manchmal solchen Bugs ausgesetzt ist.

Hintergrund: Service Worker

Ein Service Worker ist ein Skript, das im Hintergrund deines Browsers unabhängig von einer Webseite ausgeführt wird. Es ermöglicht dir Funktionen wie den Cache, Push-Benachrichtigungen oder eine Datensynchronisation im Hintergrund zu nutzen. Service Worker sind in der Lage, Netzwerk-Traffic abzufangen und programmatisch Ergebnisse aus Caches abzurufen.

Was ist das Problem?

Ab Chrome 96 hat Chrome die Art geändert, wie Service-Worker-bezogene Ereignisse registriert werden. Das wurde jedoch nicht richtig in ChromeDriver implementiert. ChromeDriver, der auch vom Google-Team gepflegt wird, ist das Werkzeug, das Uptrends nutzt, um Browser-Checks zu automatisieren. Der Service Worker hängt sich bei der Installation auf, wodurch Objekte im Wasserfall des Full Pagechecks fehlen. Wir arbeiten mit den entsprechenden Teams zusammen, um das Problem zu beheben.

Auswirkung und Schadensminderung

Die meisten Websites, die Service Worker verwenden, werden die Seite immer noch korrekt laden. Jedoch werden einige oder sogar viele Objekte im Wasserfall fehlen. Auch kann sich das Verhalten der Seite ändern. Das führt dazu, dass Informationen eventuell nicht verfügbar sind, um Probleme zu beheben. Es kann sich auch auf die berichtete Gesamtzeit auswirken. Als Vorbeugung in Bezug auf nicht korrekte Gesamtzeiten kannst du auf die Ladezeitwerte auf Basis des W3C Events wechseln. Um mehr Objekte zu sehen, kannst du den Browser ändern, beispielsweise nach Firefox.

Weitere Informationen

Siehe https://bugs.chromium.org/p/chromium/issues/detail?id=1270761.

Let‘s Encrypt – Zertifikatsprobleme (30. April 2021)

Am Freitag, den 30. April 2021, um etwa 19:40 Uhr (UTC), meldeten eine erhebliche Anzahl HTTPS-Prüfobjekte von vielen Uptrends Kunden den Fehler, dass das HTTPS-Zertifikat nicht bestätigt werden konnte. Nicht alle Prüfobjekte meldeten dieses Problem: Betroffen waren nur Websites, die ein vom Zertifikatsaussteller Let‘s Encrypt ausgegebenes TLS-Zertifikat nutzten.

Hintergrund: HTTPS-Prüfobjekte führen Zertifikatsprüfungen aus

HTTPS-Prüfobjekte testen die Verfügbarkeit der angegebenen URL. Sie prüfen auch die Gültigkeit des vom Server bereitgestellten HTTPS-Zertifikats, wenn die Option SSL Zertifikat Fehler prüfen auf der Registerkarte Erweitert in den Prüfobjekteinstellungen aktiviert ist. Zertifikate sind nur gültig, wenn sie noch nicht abgelaufen sind. Neben dem automatischen Ablauf (üblicherweise nach einem Jahr) können Zertifikate auch von dem Zertifikatsaussteller widerrufen werden. Daher muss die HTTPS-Zertifikatsprüfung bestätigen, dass das Zertifikat nicht widerrufen wurde, um eine unumstößliche Prüfung vorzunehmen und sicherzustellen, dass dem Zertifikat vertraut werden kann. Ohne dem wäre die Prüfung im Wesentlichen nicht schlüssig.

Was war das Problem?

Die Prüfung auf Widerruf wird auf zwei Wegen durchgeführt: über das OCSP (Online Certificate Status Protocol) und über eine Zertifikat-Widerrufsliste (Certificate Revocation List, CRL). Mehrere Stunden nach dem Ereignis berichteten Mitarbeiter von Let‘s Encrypt, dass sie eine abgelaufene CRL veröffentlicht hatten, weshalb CRL-Prüfungen fehlschlugen und einen Fehler meldeten. Als Folge meldeten Uptrends‘ Prüfobjekte einen möglicherweise unsicheren Status, da die Gültigkeit der Zertifikate einfach nicht bestätigt werden konnte.

Dies wirkte sich nicht nur auf Uptrends‘ Prüfobjekte aus: Jeder, der .NET oder Java-Code nutzte, um auf Websites und APIs zuzugreifen, war von dieser Situation betroffen. Das Problem wurde von Let‘s Encrypt am Samstag, den 1. Mai 2021, um 00:04 Uhr (UTC) behoben.

Browser haben dieses Problem nicht gemeldet.

Browser verwenden häufig eine eigene interne Zertifikats-Widerrufsliste, die sich nicht auf Zertifizierungsstellen stützt. Daher wurden betroffene Websites ohne Probleme im Browser dargestellt.

Fazit, Empfehlungen und Follow-up

Es bestand ein echtes Problem. Daher waren die Fehlermeldungen (Fehler oder Alarme? Beides?), die von den Uptrends HTTPS-Prüfobjekten verzeichnet wurden korrekt. Wir konnten die Gültigkeit der Zertifikate nicht bestätigen und somit auch nicht die Sicherheit, die sie gewährleisten sollten.

Wir sehen jedoch, dass es für unsere Kunden praktisch unmöglich war, das Problem zu lösen, da die Störung vollständig auf externen Faktoren beruhte. Damit du in Zukunft mehrere Wahlmöglichkeiten hast, ziehen unsere Entwickler die Einrichtung zusätzlicher Einstellungsoptionen in Betracht, sodass du den Level der Zertifikatsprüfungen (einschließlich Prüfung von Widerrufslisten) bestimmen kannst.

Wenn ein Problem wie dieses auftritt und du sicher bist, diese Art von Fehler zeitweilig ignorieren zu wollen, kannst du die Zertifikatsprüfungen umgehen, indem du SSL Zertifikat Fehler prüfen auf der Registerkarte Erweitert in den Prüfobjekteinstellungen deaktivierst.

Der Statusbericht von Let‘s Encrypt zu diesem Problem ist unter https://letsencrypt.status.io/pages/incident/55957a99e800baa4470002da/608c9dd384a5cf052fc6ed24 zu finden.

Durch die Nutzung dieser Website stimmen Sie der Verwendung von Cookies gemäß unserer Cookie-Richtlinien zu.