Der vorliegende Beitrag befasst sich mit Zeitreihenkorrelation. Diese ist in den vergangenen Jahren zu einem der zentralen Dreh-und-Angel-Punkte geworden, wenn es um Probleme mit der Leistungsfähigkeit von Anwendungen geht.
Kommen wir zum konkreten Problem: Unser Kunde, ein mittelständisches Maschinenbau-Unternehmen, hatte nach der Migration auf die neue Version von SharePoint massive Probleme mit den Antwortzeiten seiner SharePoint-Seiten.
Zur Windows-Infrastruktur des Unternehmens gehören unter anderem folgende Komponenten:
Die Hardware-Umgebung besteht hauptsächlich aus Komponenten der Firma HPE: Blade-Systeme vom Typ HPE C7000 mit den entsprechenden Server(Blade)Einschüben BL460g7 mit SAN-Anbindungen von je 8GB/s und Netzwerk-Anbindungen (LAN) von 10GB/s. Das Plattenspeichersystem (Storage System) ist eine HPE P9500. Die HPE P9500 war vor der breiten Einführung von „All Flash“ Systemen mit das schnellste Plattensubsystem am Markt.
Die Funktionen des SharePoint-Services stellen die wichtigste Basis für die Zusammenarbeit der Mitarbeiter im Unternehmen dar. Antwortzeiten von einer bis anderthalb Sekunden sind der Normalstandard. Nach der Migration lagen die Antwortzeiten bei bestimmten Seiten und SharePoint-Anwendungen (Webparts) jedoch bei über fünf Sekunden. Die Mitarbeiter beklagten sich über schlechte bis sehr schlechte Reaktionszeiten. Da SharePoint als unternehmenskritische Anwendung eingestuft wird, war dringend Handlungsbedarf geboten.
Der IT-Bereich konnte die Ursache mit den zur Verfügung stehenden Monitoringsystemen nicht finden. Alle Infrastrukturbereiche wie Windows Server, MS-SQL-Server, Netzwerk und Storage meldeten „grün“.
Die verschiedenen Monitoringsysteme zeigten für Basiswerte wie CPU, Hauptspeicher, Netzwerk usw. einstellige oder sehr kleine zweistellige Prozentwerte an. Also doch alles im grünen Bereich? Wie konnte das sein?
Zur Problembehebung setzte das Management eine Arbeitsgruppe ein und beauftragte unser Unternehmen damit, die Ursachen für die schlechten Antwortzeiten zu finden. Wir installierten das Analyse- und Korrelationssystem SightLine® zur Erfassung der Daten von:
Das Ergebnis: Durch die Korrelation der Messwerte der verschiedenen Infrastruktur-komponenten wurde die „Temp-DB“ des Microsoft SQL-Servers als Ursache des Problems ausgemacht.
Die SharePoint-Seiten und SharePoint-Anwendungen nutzen die Datenbanken des SQL-Servers so, dass sehr viele Zugriffe auf die „TEMP-DB“ notwendigen werden. Durch die Optimierung der Temp-DB und die ständige Überwachung ihre Leistungsfähigkeit wurden die geforderten Antwortzeiten wieder erreicht und sogar auf über 200% verbessert.
Durch die Analyse- und Korrelationsfunktionen über die gesamte IT-Landschaft konnte wieder die beste Performance aller Systeme erreicht werden. Die Mitarbeiter können jetzt wieder schnell auf Informationen und Dokumente zugreifen. Insgesamt verbesserten sich die Leistungsfähigkeit der SharePoint-Umgebung und damit die Arbeitsleistung des gesamten Unternehmens.