| Red Hat Enterprise Linux 4: Einführung in die System-Administration | ||
|---|---|---|
| Zurück | Nach vorne | |
Das Vorbereiten auf Katastrophen ist ein Thema, das leicht von Systemadministratoren vernachlässigt wird — es ist unangenehm und irgendwie kommt doch immer etwas Dringenderes dazwischen. Katastrophenvorbereitung zu vernachlässigen ist jedoch das Schlimmste, was ein Systemadministrator tun kann.
Auch wenn einem die eher dramatischen Katastrophen (wie Feuer, Überflutung oder Sturm) zuallererst in den Sinn kommen, können die geringeren Probleme wie versehentlich durchtrennte Stromleitungen oder ein Rohrbruch genauso starke Auswirkungen haben. Daher ist die Definition einer Katastrophe, die ein Systemadministrator im Hinterkopf behalten sollte, eher die eines ungeplanten Ereignisses, das den Arbeitsfluss in einem Unternehmen unterbricht.
Während es unmöglich ist, alle verschiedenen Katastrophentypen aufzulisten, untersucht dieser Abschnitt die Hauptfaktoren, die Teil einer jeden Katastrophe sind. Mögliche Risiken können somit nicht aufgrund ihrer Wahrscheinlichkeit, sondern aufgrund der Faktoren, die zur Katastrophe führen können, untersucht werden.
Im allgemeinen gibt es vier verschiedene Faktoren, die eine Katastrophe auslösen können. Diese sind:
Hardware-Ausfälle
Software-Ausfälle
Umgebungs-Ausfälle
Menschliches Versagen
Hardware-Ausfälle sind leicht zu verstehen — die Hardware fällt aus und die Arbeit kommt zum Stillstand. Was schwieriger zu verstehen ist, sind die Gründe für einen Ausfall und inwieweit die Risiken reduziert werden können. Hier sind einige Vorschläge:
Im einfachsten Fall kann das Risiko durch Hardware-Ausfälle durch das Bereithalten von Ersatz-Hardware reduziert werden. Diese Maßnahme erfordert jedoch zwei Voraussetzungen:
Es gibt jemanden vor-Ort, der das Problem diagnostizieren, die ausgefallene Hardware identifizieren und diese austauschen kann.
Ersatz für die ausgefallene Hardware steht zur Verfügung.
Diese Themen werden später in größerem Detail behandelt.
Abhängig von Ihrer Erfahrung und der betroffenen Hardware steht die Kompetenz eventuell gar nicht zur Debatte. Wenn Sie jedoch vorher noch nicht mit Hardware gearbeitet haben, sollten Sie sich vielleicht bei einem Anfängerkurs zur PC-Reparatur an der Volkshochschule in Ihrem Ort anmelden. Auch wenn solche Kurse Sie nicht unbedingt auf das Lösen von Problemen von großen Servern vorbereiten oder gar darauf ausgelegt sind, bieten sie jedoch eine gute Methode, mit den Grundlagen (richtiger Umgang mit Werkzeugen und Komponenten, grundlegende Diagnose etc.) vertraut zu werden.
![]() | Tipp |
|---|---|
Bevor Sie den Versuch unternehmen, das Problem selbst zu lösen, sollten Sie sicherstellen, dass die betroffene Hardware:
Wenn Sie versuchen, Hardware zu reparieren, die noch durch eine Garantie und/oder Servicevertrag abgedeckt ist, verletzen Sie höchstwahrscheinlich die Vertragsbedingungen und setzen eine weiterführende Abdeckung aufs Spiel. |
Es ist jedoch auch mit den geringsten Kenntnissen möglich, ausgefallene Hardware zu diagnostizieren und zu ersetzen — vorausgesetzt, Sie wählen Ihren Bestand an Ersatz-Hardware mit Bedacht.
Die Frage nach dem richtigen Bestand beschreibt die vielschichtige Natur der Wiederherstellung. Wenn Sie überlegen, von welcher Hardware einen Bestand anzulegen, sollten Sie folgende Dinge im Hinterkopf behalten:
Maximale Ausfallzeit
Die Fähigkeiten, die zur Reparatur benötigt werden
Budget für Ersatzteile
Lagerplatz für Ersatzteile
Andere Hardware, für welche die gleichen Ersatzteile verwenden werden können
Jeder dieser Punkte hat Auswirkungen auf die Art der Ersatzteile, die gelagert werden sollen. So reduziert zum Beispiel das Lagern gesamter Systeme die Ausfallzeit erheblich und erfordert nur geringe Fähigkeiten für die Installation. Diese Vorgehensweise ist jedoch auch wesentlich teurer als ein Ersatz-CPU und RAM-Modul im Schrank. Die Kosten können sich jedoch lohnen, wenn Ihr Unternehmen mehrere Dutzend identische Server besitzt, die von einem einzigen Ersatzsystem profitieren können.
Unabhängig von der letztendlichen Entscheidung ist die nächste Frage unvermeidlich und wird als nächstes behandelt.
Die Frage nach den Ersatzteilbeständen ist auch vielschichtig. Hier sind die Hauptpunkte:
Maximale Ausfallzeit
Voraussichtliche Ausfallrate
Geschätzte Zeit der Wiederbeschaffung
Budget für Ersatzteile
Lagerplatz für Ersatzteile
Andere Hardware, für welche die gleichen Ersatzteile verwenden werden können
Für Systeme, die eine Ausfallzeit von 2 Tagen verkraften können und für ein Ersatzteil, das einmal im Jahr verwendet wird und innerhalb eines Tages wiederbeschafft werden kann, ist es sinnvoll, nur ein Ersatzteil zu haben (oder gar keines, wenn Sie sich sicher sind, ein Ersatzteil innerhalb von 24 Stunden beschaffen zu können).
Für Systeme, die maximal nur einige Minuten ausfallen dürfen und für ein Ersatzteil, das einmal im Monat verwendet wird (und mehrere Wochen in der Wiederbeschaffung braucht) ist es sinnvoll, dass ein halbes Dutzend (oder mehr) Ersatzteile gelagert werden.
Wann ist ein Ersatzteil gar kein Ersatzteil? Wenn es allgemein im täglichen Job verwendet wird, jedoch einem hochrangigeren System als Ersatzteil dient, falls dies notwendig wird. Dieser Ansatz hat einige Vorteile:
Weniger finanzielle Ressourcen für "unproduktive" Ersatzteile aufwenden
Die Hardware ist funktionstüchtig
Es gibt jedoch auch einige Nachteile bei dieser Methode:
Die normale Produktion der niederrangigen Aufgabe wird unterbrochen
Es entsteht ein Risiko, sollte die niederrangige Hardware ausfallen (und damit kein Ersatzteil für die höherrangige Hardware lassen)
Vor dem Hintergrund dieser Einschränkungen kann das Verwenden eines anderen Produktions-Systems als Ersatz funktionieren. Der Erfolg hängt jedoch von der systemspezifischen Last und den Auswirkungen ab, die der Ausfall des Systems auf die Vorgänge im Datenzentrum hat.
Serviceverträge lassen Hardware-Ausfälle zum Problem anderer werden. Alles, was Sie tun müssen, ist zu bestätigen, dass tatsächlich ein Ausfall aufgetreten ist und dies nicht durch einen Softwarefehler hervorgerufen worden ist. Dann tätigen Sie einen Telefonanruf und jemand kommt vorbei, der die Probleme behebt.
Es scheint so einfach. Wie jedoch mit den meisten Dingen im Leben, steckt mehr dahinter als es den Anschein hat. Hier einige Dinge, die Sie berücksichtigen sollten, wenn Sie einen Servicevertrag abschließen wollen:
Verfügungsstunden
Reaktionszeit
Verfügbarkeit von Ersatzteilen
Verfügbares Budget
Zu ersetzende Hardware
In den folgenden Abschnitten wird jedes Einzelne dieser Details näher besprochen.
Es sind je nach Bedürfnis verschiedene Serviceverträge erhältlich. Eine der großen Variablen zwischen den verschiedenen Verträgen sind die Verfügungsstunden. Wenn Sie nicht in der Lage sind, eine gewisse Summe für das Privileg zu bezahlen, können Sie nicht jederzeit anrufen und erwarten, dass ein Techniker kurze Zeit später vor der Tür steht.
Abhängig von Ihrem Vertrag kann es sein, dass Sie die Wartungsfirma nur an einem bestimmten Tag/zu einer bestimmten Zeit anrufen können oder auch die Firma eventuell erst nach einer bestimmten Zeit/an einem bestimmten Tag einenTechniker vorbeischickt.
Die meisten Verfügungsstunden werden in Stunden und Tagen festgelegt, an denen ein Techniker Ihnen im Problemfall zur Verfügung steht. Einige der häufigeren Verfügungsstunden sind:
Montag bis Freitag, 09:00 bis 17:00 Uhr.
Montag bis Freitag, 12/18/24 Stunden pro Tag (mit gemeinsam vereinbarten Beginn- und Endzeiten)
Montag bis Samstag (oder Montag bis Sonntag), Zeiten wie oben
Wie Sie wahrscheinlich erwarten, erhöhen sich die Vertragskosten mit den Verfügungsstunden. Im allgemeinen kostet das Erweitern der Deckung Montag bis Freitag weniger als das Hinzufügen von Samstags- und Sonntagsdeckung.
Aber auch hier können Sie die Kosten reduzieren, wenn Sie einige Arbeiten selbst durchführen.
Erfordert Ihre Situation nichts weiter als einen Techniker während allgemeiner Geschäftszeiten und verfügen Sie über ausreichend Erfahrung, so dass Sie feststellen können, was repariert werden muss, sollten Sie sich den Depot-Service ansehen. Unter vielen Namen, wie Walk-In Service oder Drop-Off Service bekannt, haben einige Hersteller Service-Depots, in denen Techniker die vom Kunden vorbeigebrachte Hardware reparieren.
Der Depot-Service hat den Vorteil, dass er genauso schnell ist wie Sie. Sie müssen nicht auf technisches Personal warten. Mitarbeiter in einem Depot kommen nicht zum Kunden, was bedeutet, dass sofort jemand Ihre Hardware reparieren kann, sobald Sie diese zum Depot gebracht haben.
Da der Depot-Service zentral durchgeführt wird, stehen die Chancen auf verfügbare Ersatzteile ziemlich gut. Dies kann Ersatzteillieferungen über Nacht oder das Warten auf Ersatzteile, die erst hunderte von Kilometern von einer anderen Geschäftsstelle geliefert werden müssen, verhindern.
Es gibt jedoch auch einige Nachteile. Der Offensichtlichste ist, dass Sie sich die Servicestunden nicht aussuchen können — Sie erhalten Service, wenn das Depot offen ist. Ein weiterer Aspekt ist, dass die Techniker zu einer bestimmten Zeit Feierabend machen. Fällt Ihr System also am Freitag um 16:30 Uhr aus und Sie erreichen das Depot um 17:00 Uhr, bleibt die Reparatur bis Montag morgen liegen.
Ein weiterer Nachteil ist, dass der Depot-Service von einem nahegelegenen Depot abhängt. Befindet sich Ihr Unternehmen im Stadtbereich, ist dies wahrscheinlich kein großes Problem. Sind Sie jedoch eher auf dem Land oder außerhalb der Stadt angesiedelt, kann das nächste Depot ziemlich weit weg sein.
![]() | Tipp |
|---|---|
Wenn Sie sich für den Depot-Service entscheiden, denken Sie bitte einen Moment darüber nach, wie die Hardware zum Depot geliefert werden soll. Haben Sie einen Firmenwagen oder Ihr eigenes Auto? Falls Sie Ihren eigenen Wagen verwenden, haben Sie genügend Platz und Kapazitäten? Wie sieht es mit der Versicherung aus? Werden mehr als eine Person für das Auf- und Entladen der Hardware benötigt? Auch wenn diese Fragen relativ einfach erscheinen, sollten diese angesprochen werden, bevor die Entscheidung für einen Depot-Service gefällt wird. |
Zusätzlich zu den Verfügungsstunden geben viele Servicevereinbarungen eine bestimmte Reaktionszeit vor. Mit anderen Worten: Wie lange dauert es, bis Sie nach Ihrer Serviceanfrage einen Techniker zur Verfügung haben? Wie Sie sich denken können, resultiert eine schnellere Reaktionszeit in einem teureren Vertrag.
Die zur Verfügung stehenden Reaktionszeiten unterliegen gewissen Einschränkungen. So hat zum Beispiel die Anfahrtszeit vom Hersteller zu Ihrem Unternehmen einen großen Einfluss auf die möglichen Reaktionszeiten[1]. Reaktionszeiten um die vier Stunden werden allgemein als schnell betrachtet. Langsamere Reaktionszeiten reichen von acht Stunden (was effektiv gesehen zum Service am "nächsten Tag" innerhalb einer Standard-Geschäftsvereinbarung wird), bis zu 24 Stunden. Wie bei jeden anderen Aspekt der Vereinbarung sind diese Zeiten verhandelbar — für die richtige Summe.
![]() | Anmerkung |
|---|---|
Auch wenn es nicht häufig vorkommt, sollten Sie sich doch bewusst sein, dass einige Servicevereinbarungen mit Reaktionszeitregelungen den Service eines Herstellers vollkommen auslasten können. Es ist nicht ganz unbekannt, dass vollkommen ausgelastete Unternehmen jemanden — irgendjemanden — zu einem Serviceanruf mit kurzer Reaktionszeit schicken, nur um die Reaktionsklausel einzuhalten. Diese Person diagnostiziert dann angeblich das Problem, und ruft dann das "Hauptquartier" an, damit jemand "das richtige Ersatzteil" bringt. Tatsächlich wird jedoch nur auf die Person gewartet, die dann wirklich in der Lage ist, das Problem zu beheben. Während dies unter besonderen Umständen verständlich ist (wenn zum Beispiel ein Stromausfall Systeme im gesamten Servicebereich lahmgelegt haben), sollten Sie, falls dies Verhalten öfter auftritt, den Servicemanager benachrichtigen und eine Erklärung verlangen. |
Sind Ihre Ansprüche an die Reaktionszeit sehr hoch (und Sie verfügen über das entsprechend hohe Budget), gibt es einen Ansatz, bei dem Sie die Reaktionszeiten noch weiter senken können — auf Null.
In angemessener Situation (Sie sind einer der größten Kunden in der Gegend), ausreichend Bedarf (jegliche Downtime ist inakzeptabel) und ausreichenden finanziellen Ressourcen (wenn Sie nach dem Preis fragen müssen, können Sie sich es wahrscheinlich nicht leisten), sind Sie eventuell ein Kandidat für einen Vollzeit-Techniker vor-Ort. Die Vorteile eines ständig verfügbaren Technikers sind offensichtlich:
Sofortige Reaktion auf jegliche Probleme
Eine proaktive Herangehensweise an die Systemwartung
Wie Sie sich denken können, kann diese Option sehr kostspielig werden, insbesondere, wenn Sie einen Techniker 24/7 benötigen. Wenn dies jedoch für Ihr Unternehmen angemessen ist, sollten Sie eine Reihe von Punkten im Hinterkopf behalten, um den größten Nutzen hieraus zu ziehen.
Als erstes benötigen Techniker vor-Ort viele der Ressourcen eines normalen Mitarbeiters wie zum Beispiel einen Arbeitsplatz, Telefon, Zugangskarten und/oder Schlüssel und so weiter.
Vor-Ort Techniker sind nur dann wirklich von Vorteil, wenn die richtigen Ersatzteile zur Verfügung stehen. Stellen Sie daher eine sichere Lagerstätte für Ersatzteile zur Verfügung. Zusätzlich dazu sollte der Techniker einen angemessenen Lagerbestand der Ersatzteile für Ihre Konfiguration führen und sicherstellen, dass diese Teile nicht regelmäßig von anderen Technikern für eigene Zwecke "ausgeschlachtet" werden.
Offensichtlich spielt die Verfügbarkeit von Ersatzteilen eine große Rolle bei der Eingrenzung des Risikos für Hardware-Ausfälle. Im Kontext einer Servicevereinbarung nimmt die Verfügbarkeit der Ersatzteile eine andere Dimension ein, da diese nicht nur auf Ihr Unternehmen zutrifft, sondern auf alle Kunden im Einzugsbereich des Herstellers, die diese Teile eventuell auch benötigen. Ein anderes Unternehmen, das vielleicht eine größere Menge Hardware von dem betreffenden Hersteller abgenommen hat als Ihr Unternehmen wird u.U. auch bevorzugt behandelt, wenn es um Ersatzteile (oder Techniker) geht.
Leider kann in diesem Fall nicht getan werden, abgesehen von einem Gespräch mit dem Service-Manager.
Wie bereits erwähnt variieren Servicevereinbarungen im Preis, je nach Art von bereitgestelltem Service. Denken Sie daran, dass die Kosten für einen Wartungsvertrag ein periodisch wiederkehrender Aufwand ist; jedes Mal, wenn der Vertrag ausläuft, müssen Sie einen neuen Vertrag aushandeln und neuerdings die Summe bezahlen.
Hier ist ein Bereich, für den Sie die Kosten so gering als möglich halten können. Stellen Sie sich vor, Sie haben eine Servicevereinbarung mit einem '24 Stunden rund um die Uhr'-Techniker vor-Ort , Ersatzteile vor-Ort — alles was das Herz begehrt. Jedes Stück Hardware, das Sie von diesem Hersteller erworben haben, wird abgedeckt, selbst der PC der Sekretärin, auf dem nichtkritische Aufgaben erfüllt werden.
Muss für diesen PC wirklich jemand 24/7 vor-Ort zur Verfügung stehen? Die Sekretärin arbeitet täglich von 9:00 Uhr bis 17:00 Uhr Es ist daher relativ unwahrscheinlich, dass:
Der PC zwischen 17:00 Uhr und 9:00 Uhr genutzt wird (oder am Wochenende)
Dass ein Ausfall außerhalb der Bürozeiten bemerkt wird (zwischen 9:00 Uhr und 17:00 Uhr)
Es ist daher eine Geldverschwendung, wenn man dafür zahlt, dass dieser PC an einem Samstag mitten in der Nacht gewartet werden kann.
Sie sollten die Service-Vereinbarung aufteilen, sodass nicht-kritische Hardware separat von kritischer Hardware aufgeführt wird. Auf diese Weise können Sie die Kosten so gering als möglich halten.
![]() | Anmerkung |
|---|---|
Wenn Sie über 20 identische Server verfügen, die für Ihr Unternehmen kritisch sind, sind Sie vielleicht versucht, eine hochrangige Servicevereinbarung für nur einen oder zwei Server abzuschließen und den Rest mit einer kostengünstigeren Vereinbarung abzudecken. Wenn dann irgendeiner der Server ausfällt, behaupten Sie einfach, dass dieser derjenige mit dem High-Level Service war. Sehen Sie davon lieber ab. Es ist nicht nur unehrlich, sondern behalten die meisten Hersteller auch einen guten Überblick über Seriennummern. Selbst wenn Sie einen Weg finden, solche Prüfungen zu umgehen, werden Sie langfristig wesentlich mehr Geld ausgeben, sollten Sie dabei erwischt werden, als wenn Sie ehrlich für die Services, die Sie benötigen, bezahlen. |
Software-Ausfälle können in langer Downtime resultieren. So haben zum Beispiel die Besitzer einer bestimmten Marke von Computersystemen, die für ihre Hochverfügbarkeitsfeatures bekannt sind, dies an eigenem Leibe erfahren. Ein Fehler im Time-Handling-Code des Betriebssystems resultierte darin, dass die Systeme aller Kunden zu einem bestimmten Zeitpunkt jeden Tag abstürzten. Während diese Situation ein eher seltenes Beispiel von Softwarefehlern in Aktion ist, sind andere Software-bezogene Ausfälle vielleicht weniger dramatisch, jedoch genauso zerstörend.
Software-Ausfälle können in einem der folgenden Bereiche zuschlagen:
Betriebssystem
Applikationen
Jede Ausfallart hat ihren eigenen speziellen Effekt und wird in den folgenden Abschnitten im Detail dargestellt.
Bei dieser Ausfallart ist das Betriebssystem für die Unterbrechung des Services verantwortlich. Ausfälle des Betriebssystems entstehen aus zwei Bereichen:
Abstürze
Aufhängen
Das Wichtigste, was Sie über Ausfälle des Betriebssystems wissen sollten, ist, dass alles, was zum Zeitpunkt des Ausfalls läuft, mit abstürzt. Als solches können Systemausfälle extreme Auswirkungen auf die Produktion haben.
Abstürze treten dann auf, wenn das Betriebssystem einen Fehlerzustand erleidet, von dem es sich nicht erholt. Die Gründe für Abstürze reichen von der Unfähigkeit, ein tieferliegendes Hardwareproblem zu lösen bis hin zu Bugs im Kernel-Code, die das Betriebssystem kompromittieren. Stürzt ein Betriebssystem ab, so muss das System neu gebootet werden, um mit der Produktion fortfahren zu können.
Stoppt das Betriebssystem das Bearbeiten von System-Events, kommt das gesamte System zum Stillstand. Dies ist als Aufhängen bekannt. Dies kann durch Deadlocks (zwei Verbraucher von Ressourcen, die sich im Disput um die Ressource des jeweils anderen befinden) und Livelocks (zwei oder mehr Prozesse reagieren auf die Aktivitäten des jeweils anderen, produzieren aber dabei nichts Sinnvolles) entstehen. Das Endresultat ist jedenfalls das Gleiche — ein völliger Produktivitätsausfall.
Im Gegensatz zu Ausfällen des Betriebssystems sind Applikationsausfälle etwas begrenzter im angerichteten Schaden. Abhängig von der jeweiligen Applikation betrifft ein Applikationsausfall eventuell nur eine Person. Ist jedoch eine Server-Applikation davon betroffen, so sind die Konsequenzen eines Ausfalls wesentlich weitreichender.
Applikationsausfälle sowie auch Ausfälle des Betriebsystems können durch Aufhängen oder Abstürzen verursacht werden. Der einzige Unterschied ist, dass hier nur die Applikation sich aufhängt oder abstürzt.
Genauso wie Hardware-Hersteller Support für ihre Produkte liefern, bieten auch viele Software-Hersteller ihren Kunden Support-Pakete an. Abgesehen von den offensichtlichen Unterschieden (es wird keine Ersatz-Hardware benötigt und die Arbeit kann von Support-Personal über das Telefon aus durchgeführt werden), ähneln Software-Supportverträge denen von Hardware erheblich.
Der jeweilige Support-Level ist von Hersteller zu Hersteller verschieden. Im folgenden finden Sie die häufigeren Support-Strategien:
Dokumentation
Selbsthilfe
Web- oder E-Mail-Support
Telefon-Support
Vor-Ort-Support
Jede Art von Support wird in den folgenden Abschnitten genauer beschrieben.
Wenn auch meistens übersehen, kann eine Software-Dokumentation als 1-A-Supporttool dienen. Ob Online oder gedruckt, Dokumentation enthält häufig die für eine Problemlösung wichtigen Informationen.
Selbsthilfe bedeutet, dass der Kunde Online-Ressourcen für die Problemlösung zur Hilfe nimmt. Häufig werden diese Online-Ressourcen als web-basierte FAQ (häufig gestellte Fragen) oder Wissensdatenbanken zur Verfügung gestellt.
FAQs haben meistens nur geringe oder gar keine Auswahlmöglichkeiten, so dass der Kunde sich von Frage zu Frage klicken muss, in der Hoffnung, eine Lösung zu seinem Problem irgendwo zu finden. Knowledgebases (Wissensdatenbanken) sind häufig etwas weiter entwickelt und bieten eine Suche nach Begriffen. Knowledgebases können in einigen Fällen auch sehr umfangreich sein, was sie zu einem sehr guten Tool für die Problemlösung machen.
Auf vielen Selbsthilfe-Webseiten finden sich auch web-basierte Formulare oder E-Mail-Adressen, über die Sie Ihre Fragen an Mitarbeiter des Supports senden können. Während dies auf den ersten Blick als Verbesserung einer guten Selbsthilfe-Webseite erscheint, hängt es in Wirklichkeit erheblich von denjenigen ab, die die E-Mails beantworten.
Sind die Support-Mitarbeiter überlastet, erweist es sich als schwierig, die nötigen Informationen zu bekommen, da das Hauptaugenmerk auf einer schnellen Beantwortung jeder E-Mail liegt. Der Grund dafür ist, dass fast das gesamte Support-Personal auf Basis der gelösten Probleme evaluiert wird. Eine Eskalation von Problemen ist auch schwierig, da innerhalb einer E-Mail wenig für eine angemessene und hilfreiche Antwort getan werden kann — insbesondere, wenn die Person, die Ihre E-Mail liest, unter Zeitdruck steht.
Den besten Service erhalten Sie, wenn Sie in Ihrer E-Mail alle Fragen ansprechen, die ein Support-Techniker stellen würde. Zum Beispiel:
Beschreiben Sie klar und deutlich das Problem
Geben Sie alle wichtigen Versionsnummern an
Beschreiben Sie, was Sie bereits versucht haben, um das Problem zu lösen (Anwenden der neuesten Patches, Reboot mit Minimalkonfiguration etc.)
In dem Sie dem Support-Techniker diese Informationen geben, haben Sie eine höhere Chance, den benötigten Support zu erhalten.
Wie der Name schon sagt, beinhaltet der Telefon-Support die telefonische Unterstützung eines Technikers. Diese Art von Support ist dem Hardware-Support am ähnlichsten. Es gibt verschiedene Support-Level (mit verschiedenen Abdeckungsstunden, Reaktionszeiten etc.).
Diese auch als On-Site Consulting bekannte Art ist der teuerste Software-Support. Gewöhnlich wird dies nur für das Lösen ganz bestimmter Probleme, wie einer erstmaligen Softwareinstallation und Konfiguration, für bedeutende Upgrades, usw. reserviert. Wie bereits erwähnt, ist dies der teuerste Support.
Es gibt jedoch Vorfälle, wo der vor-Ort-Support sinnvoll ist. Denken Sie zum Beispiel an eine kleinere Firma mit nur einem Systemadministrator. Die Firma will nun ihren ersten Datenbank-Server einsetzen, aber der Einsatz (und die Verwaltung) ist nicht umfassend genug, um einen eigenen Datenbank-Administrator zu rechtfertigen. In dieser Situation kann es durchaus günstiger sein, einen Experten des Datenbankherstellers in die Firma zu holen, der den anfänglichen Einsatz (und je nach Bedarf zu einem späteren Zeitpunkt) regelt, als den Systemadministrator im Umgang mit der Software zu schulen.
Auch wenn die Hardware ordnungsgemäß läuft und die Software richtig konfiguriert ist und ordnungsgemäß funktioniert, können trotzdem noch Probleme auftreten. Die häufigsten Probleme, die außerhalb des Systems selbst auftreten, haben mit der physikalischen Umgebung, in der sich das System befindet, zu tun.
Umgebungsprobleme können in vier Hauptkategorien aufgeteilt werden:
Intaktheit des Gebäudes
Elektrizität
Klimaanlage
Das Wetter und die Außenwelt
Angesichts einer derart einfachen Grundstruktur, erfüllt ein Gebäude eine enorme Anzahl an Funktionen. Es bietet Schutz vor den Naturgewalten. Es bietet das richtige Mikro-Klima für alles, das sich im Gebäude befindet. Es besitzt Mechanismen für die Bereitstellung von Strom und Schutz vor Feuer, Diebstahl und Vandalismus. Daher ist es auch nicht verwunderlich, dass einiges in Bezug auf Gebäude schiefgehen kann. Hier sind einige Dinge:
Das Dach kann undicht werden und somit Wasser in Datenzentren eindringen.
Verschiedene Systeme im Gebäude (z.B. Wasser, Abwasser oder Luft) können ausfallen und das Gebäude unbewohnbar machen.
Fußböden können evtl. nicht die Last Ihrer Einrichtung im Datenzentrum tragen.
Eine lebendige Vorstellungskraft ist wichtig, wenn es darum geht, was bei Gebäuden alles schiefgehen kann. Die obige Liste ist ist nur der Anfang, um Sie in die richtige Richtung zu weisen.
Da Strom die Lebensquelle für jedes Computersystem ist, sind Strom-bezogene Angelegenheiten von höchster Bedeutung für den Systemadministrator. Es sind mehrere Aspekte zu betrachten, welche in den folgenden Abschnitten eingehender beschrieben werden.
Als erstes muss festgestellt werden, wie sicher Ihre reguläre Stromversorgung ist. Wie wahrscheinlich jedes andere Datencenter auch, erhalten Sie Ihren Strom von einem örtlichen Energieversorgungsunternehmen über Elektrizitätsleitungen. Hierdurch sind Sie in der Sicherung Ihrer primären Stromversorgung eingeschränkt.
![]() | Tipp |
|---|---|
Unternehmen, die sich im Grenzbereich eines Energieunternehmens befinden, können unter Umständen einen Anschluss an zwei verschiedene Energienetze aushandeln:
Die Kosten einer Stromleitung von einem benachbarten Netz sind beträchtlich. Daher kommt diese Option wahrscheinlich nur für größere Unternehmen in Frage. Diese Unternehmen werden jedoch feststellen, dass die Vorteile durch zusätzliche Stromversorgung die Kosten vielfach überwiegen. |
Die Hauptpunkte, die es zu prüfen gilt, sind die Wege, auf die der Strom auf das Gelände und in die Gebäude Ihrer Firma kommt. Sind die Elektrizätsleitungen über oder unter der Erde? Überirdische Leitungen sind anfällig für:
Schäden durch extremes Wetter (Eis, Wind, Blitzschlag)
Verkehrsunfälle, bei denen die Masten und/oder Transformatoren beschädigen
Tiere, die zur falschen Zeit am falschen Ort sind und die Leitungen kurzschließen
Unterirdische Leitungen haben jedoch auch ganz besondere Probleme:
Schäden durch Bauarbeiter, die am falschen Ort graben
Überflutungen
Blitzschlag (jedoch weniger anfällig als überirdische Leitungen)
Verfolgen Sie nun die Leitungen bis zu Ihrem Gebäude. Werden diese erst über einen externen Transformator geleitet? Ist dieser Transformator vor Fahrzeugen oder umfallenden Bäumen geschützt? Sind alle offenliegenden Schalter vor unbefugter Benutzung geschützt?
Können diese Leitungen (oder Kabelführungen) innerhalb des Gebäudes anderen Problemen ausgesetzt sein? Könnte zum Beispiel ein Wasserrohrbruch den Maschinenraum überfluten?
Verfolgen Sie die Leitung ins Datencenter. Gibt es irgendetwas, das unvorhergesehen die Stromversorgung unterbrechen könnte? Teilt sich zum Beispiel das Datencenter einen oder mehrere Stromkreise mit Nicht-Datencenter-Verbrauchern? Ist dies der Fall, kann eines Tages vielleicht die externe Last den Überlastungsschutz des Schaltkreises auslösen und im Zuge dessen das Datenzentrum ohne Strom belassen.
Das alleinige Sicherstellen, dass die Energiequellen für das Datenzentrum sicher sind, reicht leider nicht aus. Sie müssen auch an die Qualität der Energie, die zum Datencenter geliefert wird, denken. Sie sollten mehrere Faktoren in Betracht ziehen:
Die hereinkommende Spannung muss konstant sein und darf keine negativen Spannungsspitzen (auch Spannungsabfall genannt) oder positiven Spannungsspitzen (auch bekannt als Stromspitzen) aufweisen.
Es muss eine saubere Sinuswelle mit einer nur minimalen THD (Total Harmonic Distortion - Harmonische Verzerrung) sein.
Die Frequenz muss stabil sein (die meisten Länder verwenden eine Frequenz von 50Hz oder 60 Hz).
Es dürfen keine RFI (Radio Frequency Interference - Funkstörungen) oder EMÜ (Elektormagnetische Überlagerungen) vorkommen.
Es muss ein bestimmter Nennstrom, der für den Betrieb des Datencenters ausreicht, geliefert werden.
Der direkt vom Energieversorgunsgunternehmen gelieferte Strom entspricht normalerweise nicht dem für ein Datenzentrum nötigen Standard. Es wird daher ein gewisser Grad an Stromwandlung benötigt. Es gibt hierfür verschiedene Methoden:
Ein Überspannungsschutz tut genau das, was der Name bereits sagt — Überspannungen aus der Stromversorgung herausfiltern. Die meisten Überspannungsschutz-Einrichtungen tun nichts anderes und die Ausrüstung bleibt anfällig für andere Energie-bezogene Probleme.
Power-Conditioner folgen einem eher ganzheitlicheren Ansatz. Abhängig von der technischen Raffinesse der Einheit können Stromanlagen die meisten oben beschriebenen Probleme lösen.
Ein Motor-Generator-Satz ist im wesentlichen ein großer Elektromotor, der von Ihrer normalen Stromversorgung angetrieben wird. Der Motor ist mit einem Schwungrad verbunden, das wiederum mit einem Generator verbunden ist. Der Motor treibt das Schwungrad und den Generator an, der dann genügend Strom für das Datencenter erzeugt. Auf diese Weise ist das Datencenter elektrisch gesehen vom externen Strom isoliert, was wiederum die meisten Strom-bezogenen Probleme eliminiert. Das Schwungrad liefert auch eine Stromversorgung durch kurze Stromausfälle hinweg, da es mehrere Sekunden dauert, bis das Schwungrad so langsam wird, dass kein Strom mehr erzeugt werden kann.
Einige Typen unterbrechungsfreier Stromversorgung (allgemein auch als UPS bekannt) enthalten fast alle (wenn nicht alle) der Schutzeigenschaften eines Power Conditioners[2].
Mit den letzten beiden Technologien gehen wir zu einem Thema über, an das die meisten denken, wenn es um Strom geht — Backup-Strom. Im nächsten Abschnitt werden verschiedene Ansätze für Backup-Strom beschrieben.
Ein Begriff, den wohl die meisten schon gehört haben, ist Stromausfall. Ein Stromausfall oder Blackout ist der vollständige Verlust elektrischer Stromversorgung und kann von Sekundenbruchteilen bis hin zu Wochen dauern.
Dadurch, dass die Dauer von Stromausfällen so verschieden ist, ist es wichtig, Backup-Strom mittels verschiedender Technologien für verschieden lange Ausfälle bereitzustellen.
![]() | Tipp |
|---|---|
Die häufigsten Stromausfälle dauern im Durchschnitt nur wenige Sekunden. Längere Ausfälle sind wesentlich seltener. Konzentrieren Sie sich deshalb als erstes auf Stromausfälle mit einer Dauer von wenigen Minuten und arbeiten Sie danach Methoden für Ausfälle längere Dauer aus. |
Da die meisten Stromausfälle nur ein paar Sekunden dauern, muss Ihre Backup-Lösung zwei Hauptcharakteristika aufweisen:
Sehr kurze Umschaltzeit zum Backup-Strom (bekannt als Transferzeit)
Eine Laufzeit (die Zeit, für die Backup-Strom geliefert wird) gemessen in Sekunden bis Minuten
Die Backup-Strom Lösungen, die diesen Charakteristika entsprechen, sind Motor-Generator-Sätze und USVs. Das Schwungrad im Motor-Generator-Satz ermöglicht dem Generator, kontinuierlich Strom zu produzieren, um einen Stromausfall von etwa einer Sekunde zu überbrücken. Motor-Generator-Sätze sind relativ sperrig und kostspielig und stellen somit eher eine Lösung für mittelgroße und größere Datencenter dar.
Eine andere Technologie — USV genannt — kann jedoch in den Situationen einspringen, in denen ein Motor-Generator-Satz zu kostspielig wird. Es kann auch längere Ausfälle überbrücken.
USVs sind in verschiedenen Größen erhältlich — von kleinen für den Betrieb eines einzelnen PCs für fünf Minuten oder auch für die Stromversorgung eines gesamten Datencenters für eine Stunde oder länger.
USVs bestehen aus den folgenden Komponenten:
Ein Transfer-Schalter für das Umschalten der primären Stromversorgung zur Backup-Stromversorgung.
Eine Batterie für Backup-Energie
EinWechselrichter, der den Gleichstrom der Batterie in den Wechselstrom, der von der Datencenter-Hardware benötigt wird, umwandelt.
Abgesehen von der Größe und Batteriekapazität der Einheit werden USVs in zwei Grundausstattungen geliefert:
Eine Offline-USV verwendet Wechselrichter, um Strom nur dann zu erzeugen, wenn die Primär-Stromquelle ausfällt.
Eine Online-USV verwendet Wechselrichter, um ständig Strom zu erzeugen und speist nur dann den Wechselrichter durch ihre Batterie, wenn die Primär-Stromquelle ausfällt.
Jeder Typ hat seine Vor- und Nachteile. Eine Offline-USV ist generell etwas kostengünstiger, da der Wechselrichter nicht für Vollzeitbetrieb ausgelegt sein muss. Probleme mit dem Wechselrichter werden jedoch meistens nicht rechtzeitig erkannt (spätestens beim nächsten Stromausfall).
Online-USVs sind im allgemeinen besser bei der Bereitstellung von sauberem Strom, da eine Online-USV Vollzeit Strom für Sie erzeugt.
Egal welche Art USV Sie einsetzen, die USV muss auf die zu erwartende Last angepasst werden so dass die USV genügend Kapazität zur Elektrizitätserzeugung mit benötigtem Strom und Spannung hat), und es muss festgestellt werden, wie lange das Datencenter im Batteriebetrieb laufen soll.
Dazu müssen Sie als erstes die Lasten festlegen, die von der USV gespeist werden sollen. Bestimmen Sie für jede Hardwarekomponente, wieviel Strom benötigt wird (steht meistens auf einem Schild in der Nähe des Stromkabels). Notieren Sie die Spannung (Volt), Leistung (Watt) und/oder Strom (Ampere). Sobald Sie alle diese Daten für die Hardware haben, müssen Sie diese in VA (Volt-Ampere) umwandeln. Haben Sie eine Zahl in Watt, können Sie diese als VA nehmen. Haben Sie Ampere, müssen Sie diese mit Volt multiplizieren, um die VA zu erhalten. Wenn Sie nun die VA-Werte addieren, erhalten Sie die VA-Leistung, die für das UVS benötigt wird.
![]() | Anmerkung |
|---|---|
Genaugenommen ist dieser Ansatz für die Berechnung des VA nicht richtig; für den echten VA-Wert müssten Sie den Leistungsfaktor für jede Einheit kennen, und diese Information wird selten wenn überhaupt bereitgestellt. Die auf dem hier beschriebenen Wege berechneten Werte reflektieren den schlimmsten anzunehmenden Wert und lässt somit etwas Luft für etwas erhöhte Sicherheit. |
Das Bestimmen der Laufzeit ist eher eine geschäftliche als eine technische Frage — gegen welche Art Ausfälle wollen Sie sich schützen und wieviel wollen Sie dafür ausgeben? Die meisten wählen Laufzeiten von weniger als einer Stunde oder maximal zwei Stunden, da danach Batterieenergie sehr kostspielig wird.
Sobald Stromausfälle in Tagen gemessen werden müssen, wird die Auswahl noch wesentlich teurer. Technologien, die langfristige Stromausfälle überbrücken können, sind auf Generatoren, die von einem Motor angetrieben werden, beschränkt — hauptsächlich Diesel- und Gasturbinen.
![]() | Anmerkung |
|---|---|
Bitte beachten Sie, dass motorgetriebene Generatoren regelmäßiges Auffüllen des Treibstoffs benötigen. Sie sollten die Verbrennungsrate Ihres Generators bei Maximalbelastung kennen und entsprechend Kraftstofffüllungen arrangieren. |
An dieser Stelle sind Ihre Optionen offen, vorausgesetzt, Ihr Unternehmen hat ausreichend finanzielle Ressourcen. Dies ist auch ein Bereich für den Experten die beste Lösung für Ihr Unternehmen festlegen können. Es haben nur ganz wenige Systemadministratoren das spezielle Wissen, das nötig ist, um die Beschaffung und den Einsatz dieser Art von Stromerzeugungssystemen zu planen.
![]() | Tipp |
|---|---|
Tragbare Generatoren aller Größen können gemietet werden und machen es so möglich, die Vorteile eines Generators zu genießen, ohne die Summen für eine Anschaffung dieser Aufbringen zu müssen. Behalten Sie jedoch im Hinterkopf, dass wenn eine Katastrophe in Ihrer allgemeinen Umgebung eintritt, gemietete Generatoren rar und teuer werden. |
Während ein 5-minütiger Stromausfall nicht mehr als unangenehm für das Personal in einem dunklen Büro ist, wie sieht es dagegen mit einem Ausfall über eine Stunde aus? 5 Stunden? Ein Tag? Eine Woche?
Tatsache ist, dass irgendwann, auch wenn das Datencenter normal funktioniert, ein längerdauernder Ausfall Ihr Unternehmen treffen wird. Betrachten Sie die folgenden Punkte:
Was passiert, wenn es keinen Strom gibt, um das Klima im Datencenter aufrecht zu erhalten?
Was passiert, wenn es keinen Strom gibt, um das Klima im gesamten Gebäude aufrecht zu erhalten?
Was passiert, wenn es keinen Strom gibt, um Workstations, die Telefonanlage oder das Licht zu betreiben?
Der Punkt hier ist, dass Ihr Unternehmen festlegen muss, zu welchem Zeitpunkt ein Stromausfall einfach hingenommen werden muss. Ist dies keine Option, sollte Ihr Unternehmen überlegen, wie es vollkommen unabhängig für längere Zeiträume funktionieren kann, was bedeutet, dass sehr große Generatoren zur Versorgung des gesamten Gebäudes benötigt werden.
Natürlich kann diese Planung nicht in einem totalen Vakuum stattfinden. Es ist ziemlich wahrscheinlich, dass was auch immer den längeren Stromausfall verursacht, auch die Welt um Sie herum betrifft und dieser Umstand auch Ihr Unternehmen beeinflusst; auch wenn unbegrenzter Ersatzstrom vorhanden ist.
Die Heizungs-, Lüftungs- und Klimatisierungssysteme (HLK), die in modernen Bürogebäuden eingesetzt werden, sind unwahrscheinlich weit entwickelt. Häufig durch Computer gesteuert sind HLK-Systeme wichtig für das Bereitstellen eines angenehmen Arbeitsklimas.
Datencenter haben häufig zusätzliche Lüftungsanlagen, hauptsächlich um die von vielen Computern und anderen Geräten erzeugte Wärme abzuleiten. Ausfälle in einem HLK-System können die Fortsetzung des Betriebs eines Datencenters verhindern. Durch die Komplexität und elektro-mechanische Natur sind die Möglichkeiten eines Ausfalls reichhaltig und divers. Hier ein paar Beispiele:
Die Lüftungsanlagen (im wesentlichen große Ventilatoren, angetrieben von großen Elektro-Motoren) können durch eine elektrische Überlastung, Lagerausfall, Keilriemenriss etc. ausfallen
Die Kühleinheiten (auch Chillers genannt) können ihr Kühlmittel durch Lecks verlieren oder die Motoren oder Kompressoren können klemmen.
HLK-Reparaturen und Wartung ist ein spezialisierter Bereich — ein Bereich, den der normale Systemadministrator Experten überlassen sollte. Ein Systemadministrator sollte zumindest jedoch sicherstellen, dass die HLK-Ausrüstung täglich (oder mehrmals täglich) auf normalen Betrieb geprüft und nach den Richtlinien des Herstellers gewartet wird.
Es gibt einige Arten von Wetter, die einem Systemadministrator Probleme bereiten können.
Schnee und Eis können Mitarbeiter des Datencenters davon abhalten, zur Arbeit zu kommen und Kondensatoren der Kimaanlagen verstopfen, was erhöhte Temperaturen im Datencenter zur Folge hat. Und dann womöglich niemand dort ist, der etwas dagegen unternehmen kann.
Stürme können Strom und Kommunikation unterbrechen, und sehr starke Stürme das Gebäude selbst beschädigen.
Andere Arten von Wetter können weitere Probleme verursachen, auch wenn diese nicht ganz so häufig sind. Sehr hohe Temperaturen zum Beispiel können zu überlasteten Kühlsystemen führen und im Zuge dessen zu Stromausfällen, wenn das örtliche Stromnetz überlastet wird.
Auch wenn man nicht viel am Wetter ändern kann, ist jedoch das Wissen, inwiefern dies den Betrieb Ihres Datencenters beeinflussen kann, wichtig für das Aufrechterhalten des Betriebes, auch bei schlechtem Wetter.
Man sagt, dass Computer wirklich perfekt sind. Der Grund für diese Aussage ist, dass wenn man nur lange genug sucht, hinter jedem Computerfehler einen menschlichen Fehler findet, der diesen verursacht. In diesem Abschnitt werden die allgemeineren Typen menschlichen Versagens und deren Auswirkungen untersucht.
Die Benutzer eines Computers können Fehler machen, die bedeutende Auswirkungen haben. Durch ein allgemein unprivilegiertes Betriebssystem sind Benutzerfehler meistens beschränkt. Da die meisten Benutzer mit einem Computer über eine oder mehrere Applikationen kommunizieren, treten die meisten Fehler innerhalb dieser Applikationen auf.
Wenn Applikationen nicht ordnungsgemäß verwendet werden, können verschiedene Probleme auftreten:
Dateien, die unbeabsichtigt überschrieben wurden
Falsche Daten, die als Eingabe für eine Applikation verwendet wurden
Dateien, die nicht eindeutig benannt und organisiert wurden
Daten, die versehentlich gelöscht wurden
Die Liste könnte noch weiter gehen, reicht an diesem Punkt jedoch völlig für Anschauungszwecke aus. Dadurch, dass Benutzer keine Superuser-Privilegien haben, beschränken sich die Fehler meistens auf deren eigene Dateien. Aus diesem Grund ist der beste Ansatz zweigleisig:
Lehren Sie Benutzern den richtigen Umgang mit Applikationen und richtige Dateimanagement-Techniken
Stellen Sie sicher, dass regelmäßig Backups der Benutzerdaten durchgeführt werden und dass der Wiederherstellungsprozess so gestrafft und schnell wie möglich vonstatten geht.
Darüberhinaus kann nur wenig getan werden, um Benutzerfehler auf ein Minimum zu beschränken.
Bediener haben eine engere Beziehung mit den Rechnern in einem Unternehmen als Endbenutzer. Endbenutzer-Fehler sind eher auf Applikationen bezogen, während Bediener eine weitere Bandbreite von Aufgaben durchführen. Auch wenn die Art der Aufgabe von anderen vorgegeben wurde, können einige dieser Aufgaben die Verwendung von Utilities auf Systemebene miteinschließen. Die Arten von Fehlern, die ein Bediener machen kann, konzentrieren sich auf die Fähigkeit des Bedieners, bestimmte Verfahrensweisen einzuhalten.
Bediener sollten einen dokumentierten und verfügbaren Satz an Verfahrensweisen für beinahe alle durchzuführenden Aktionen haben [3]. Es kann vorkommen, dass ein Bediener den Richtlinien nicht 100prozentig folgt. Hierfür kann es verschiedene Gründe geben:
Die Umgebung wurde irgendwann geändert, die Prozeduren jedoch nicht aktualisiert. Nun ändert sich die Umgebung wieder, was die Verfahrensweise im Kopf des Bedieners ungültig werden lässt. Auch wenn jetzt die Verfahrensweisen aktualisiert werden (was relativ unwahrscheinlich ist, da diese auch vorher nicht aktualisiert wurden), ist dies dem Bediener höchstwahrscheinlich nicht bewusst.
Die Umgebung wurde geändert und es gibt keine bestimmten Verfahrensweisen. Dies ist so gesehen nur eine noch unkontrollierbarere Version der vorher beschriebenen Situation.
Es gibt Vorgehensweisen, der Bediener will oder kann jedoch diesen nicht folgen.
Abhängig von der Managementstruktur in Ihrem Unternehmen können Sie unter Umständen nicht mehr dazu beitragen, als Ihre Bedenken dem zuständigen Manager mitzuteilen. In jedem Fall können Sie Ihre Hilfe bei der Lösung des Problems anbieten
Auch wenn der Bediener sich genauestens an die Verfahrensweise hält und diese Prozeduren korrekt sind, können trotzdem Fehler auftreten. Ist dies der Fall, kann es sein, dass der Bediener nicht sorgfältig genug arbeitet (dann sollte das Management eingeschaltet werden).
Es kann auch ein einmaliger Fehler sein. In diesem Fall bemerkt ein geübter Bediener, dass irgendetwas nicht stimmt und sucht Hilfe. Ermutigen Sie die Bediener, die jeweilig Zuständigen zu kontaktieren, sollte etwas nicht richtig erscheinen. Auch wenn viele Bediener hoch-qualifiziert und in der Lage sind, viele Probleme selbst zu lösen, ist es jedoch eine Tatsache, dass dies nicht in deren Aufgabenbereich fällt. Und ein Problem, das durch einen gutgemeinten Versuch eines Bedieners lediglich schlimmer gemacht wurde, wirk sich nicht nur negativ auf den Bediener selbst aus, sondern auch auf Ihre Fähigkeit, ein eventuell anfänglich kleines Problem rasch zu lösen.
Im Gegensatz zu Bedienern erfüllen Systemadministratoren eine große Reihe von Aufgaben mittels Computern. Desweiteren basieren die Aufgaben, die von Systemadministratoren durchgeführt werden, meistens nicht auf dokumentierten Vorgehensweisen.
Aus diesem Grund schaffen sich Systemadministratoren manchmal zusätzliche Arbeit, wenn diese nicht sorgfältig genug arbeiten. Im Laufe der täglichen Arbeit haben Systemadministratoren genügend Zugang zu Systemen (und nicht zu vergessen Super-User Berechtigungen), um diese aus Versehen zum Absturz zu bringen.
Systemadministratoren unterlaufen dabei entweder Konfigurationsfehler oder Fehler während der Wartung.
Systemadministratoren müssen häufig verschiedene Aspekte eines Computersystems konfigurieren. Dies umfasst:
Benutzer-Accounts
Netzwerk
Applikationen
Die Liste kann so noch eine Weile weitergehen. Die eigentliche Aufgabe beim Konfigurieren variiert. Für einige Aufgaben müssen große Textdateien bearbeitet werden (mit einer von hunderten verschiedener Konfigurationsdatei-Syntaxen) während für andere eine Konfigurations-Utility benötigt wird.
Die Tatsache, dass alle diese Aufgaben unterschiedlich gehandhabt werden, ist nur noch eine zusätzliche Herausforderung zur eigentlichen Tatsache, dass jede Konfigurationsaufgabe eine andere Art von Wissen voraussetzt. So unterscheidet sich z.B. das Wissen, das zur Konfiguration eines Mail-Transport-Agents erforderlich ist, wesentlich vom Wissen, das zum Konfigurieren einer neuen Netzwerkverbindung notwendig ist.
So gesehen ist es nahezu verwunderlich, dass im Grunde gesehen nur so wenige Fehler gemacht werden. Auf jeden Fall ist die Konfiguration eine Herausforderung für Systemadministratoren und wird es wohl auch immer bleiben. Gibt es irgendetwas, was man tun kann, um den gesamten Prozess weniger fehleranfällig zu machen?
Der Grundgedanke bei jeder Konfigurationsänderung ist, dass eine gewisse Art von Änderung durchgeführt wird. Diese Änderung kann groß oder auch klein sein, ist aber in jeden Fall eine Änderung und sollte auf bestimmte Art und Weise behandelt werden.
Viele Unternehmen haben eine bestimmte Art von Änderungsüberwachung implementiert. Der Hintergedanke dabei ist, Systemadministratoren (und allen, die von der Änderung betroffenen sind) bei der Durchführung der Änderungen zu helfen und somit das Fehlerrisiko zu minimieren.
Eine Änderungsüberwachung teilt die Änderungen in verschiedene Schritte auf. Hier ein Beispiel:
Eine vorausgehende Recherche versucht Folgendes klar zu definieren:
Die Art der Änderung, die durchgeführt werden soll
Die Auswirkungen, falls die Änderung erfolgreich ist
Einen Plan B, falls die Änderung nicht erfolgreich ist
Eine Einschätzung, welche Arten von Ausfällen vorkommen könnten
Vorausgehende Forschung kann das Testen der vorgeschlagenen Änderungen in einer geplanten Ausfallzeit sein oder sogar das Implementieren der Änderungen in einer besonderen Test-Umgebung auf dazu bestimmter Test-Hardware.
Die Änderungen werden in Hinblick auf die eigentliche Implementierung untersucht. Die Planung umfasst die Abfolge und den Zeitpunkt der Änderungen (zusammen mit der Abfolge und dem Zeitpunkt jeglicher Schritte, die nötig werden, sollte ein Problem auftreten) sowie das Sicherstellen, dass die zugewiesene Zeit für die Änderung ausreichend ist und nicht mit anderen Aktivitäten auf Systemebene in Konflikt gerät.
Das Ergebnis dieses Prozesses ist häufig eine Schritt-für-Schritt gegliederte Checkliste für den Systemadministrator. Zusammen mit jedem Schritt werden Anweisungen gegeben, die ausgeführt werden müssen, sollte dieser Schritt fehlschlagen. Es werden auch geschätzte Zeiten angegeben, die einem Systemadministrator das Prüfen erleichtern, ob alles nach Plan läuft.
Zu diesem Zeitpunkt ist die eigentliche Ausführung der Schritte für die Implementierung der Änderungen klar und unmissverständlich. Die Änderungen werden entweder implementiert oder (falls Probleme auftreten) auch nicht implementiert.
Unabhängig davon ob die Änderungen implementiert werden oder nicht, wird die Umgebung überwacht, um sicherzustellen, dass alles richtig funktioniert.
Wurden die Änderungen implementiert, so wird die bestehende Dokumentation aktualisiert, um die Konfigurationsänderungen zu reflektieren.
Offensichtlich erfordern nicht alle Konfigurationsänderungen diese Detailgenauigkeit. Das Erstellen eines neuen Benutzeraccounts sollte keine vorausgehende Recherche benötigen und das Planen beschränkt sich auf das Festlegen, wann der Systemadministrator einen Moment Zeit hat, um den Account einzurichten. Die Ausführungsdauer ist dementsprechend kurz. Die Überwachung besteht lediglich aus dem Sicherstellen, dass der Account verwendbar ist und die Dokumentation beschränkt sich wahrscheinlich auf das Versenden einer E-Mail an der Manager des neuen Benutzers.
Mit immer komplexer werdenden Konfigurationsänderungen, entsteht auch der Bedarf nach formelleren Änderungsüberwachungs-Prozessen.
Diese Art von Fehlern können heimtückisch sein, da die tägliche Wartung selten geplant oder dokumentiert wird.
Systemadministratoren sehen die Ergebnisse dieser Art Fehler jeden Tag, insbesondere von Benutzern, die schwören, nichts geändert zu haben — der Computer ist von ganz alleine kaputtgegangen. Der Benutzer kann sich zumeist nicht daran erinnern, was dieser zuletzt durchgeführt hat. Und wenn Ihnen das gleiche passieren würde, dann könnten Sie sich wahrscheinlich auch nicht mehr daran erinnern.
Wenn Sie in der Lage sein wollen, Probleme schnell zu lösen, so müssen Sie sich immer daran erinnern können, welche Änderungen Sie während der Wartung gemacht haben. Ein "ausgewachsener" Änderungsüberwachungs-Prozess ist eher unrealistisch für die zahllosen kleinen Dinge, die im Laufe des Tages anfallen. Was können Sie nun tun, um die 101 kleinen Dinge, die ein Systemadministrator tagtäglich zu erledigen hat, im Auge zu behalten?
Die Antwort ist einfach — machen Sie Notizen. Machen Sie Notizen, egal ob auf Papier, in einem PDA oder in Form von Kommentaren in den betroffenen Dateien. Indem Sie sich aufschreiben, was Sie getan haben, haben Sie eine bessere Chance, einen Fehler auf eine zum Beispiel kürzlich durchgeführte Änderung zurückzuführen.
Manchmal machen genau diejenigen, die Ihnen beim zuverlässigen Betrieb Ihrer Systeme helfen sollen, alles noch viel schlimmer. Dies ist keine Verschwörung, sondern liegt im allgemeinen daran, dass irgendjemand, der an irgendeiner Technologie arbeitet, diese auch lahmlegen kann. Bei der Arbeit hat es den selben Effekt, wenn ein Programmierer zum Beispiel durch das Reparieren eines Bugs einen neuen Bug kreiert.
In diesem Fall konnte ein Techniker entweder das Problem nicht richtig diagnostizieren und hat daraufhin eine unnötige (und unnütze) Reparatur durchgeführt oder die Diagnose war zwar korrekt, die Reparatur wurde jedoch nicht richtig ausgeführt. Es kann zum Beispiel sein, dass das Teil selbst kaputt war oder nicht die richtige Prozedur bei der Reparatur eingehalten wurde.
Aus diesem Grund ist es wichtig, zu jeder Zeit den Überblick zu haben, was der Techniker gerade macht. Dadurch können Sie auf Ausfälle achten, die den Anschein erwecken auf irgendeine Weise mit dem eigentlichen Problem in Verbindung zu stehen. Dies hält auch den Techniker auf dem Laufenden, falls ein Problem auftreten sollte. Ansonsten besteht die Chance, dass der Techniker dieses Problem als neu betrachtet und nicht in Zusammenhang mit dem angeblich bereits reparierten Problem sieht. Auf diese Weise wird keine Zeit mit dem Suchen nach dem falschen Problem verschwendet.
Es kann manchmal vorkommen, dass auch wenn ein Problem diagnostiziert und erfolgreich gelöst wurde, ein anderes Problem an dessen Stelle auftaucht. Ein CPU-Modul wurde ersetzt, die Plastikverpackung dessen wurde jedoch im Schrank gelassen, blockiert nun den Lüfter und verursacht einen Ausfall durch Überhitzung. Oder die fehlerhafte Festplatte im RAID-Array wurde ersetzt, da aber versehentlich ein Stecker auf einer anderen Festplatte getrennt wurde, ist das Array weiterhin betriebsunfähig.
Diese Dinge können das Ergebnis chronischer Schlampigkeit oder eines unbeabsichtigten, einmaligen Fehlers sein. Schlussendlich macht es keinen Unterschied. Sie sollten grundsätzlich die Reparaturen eines Technikers sorgfältig prüfen und sicherstellen, dass das System ordnungsgemäß funktioniert, bevor der Techniker Ihr Unternehmen verlässt.
| [1] | Und dies wäre die bestmögliche Reaktionszeit, da technisches Personal meistens für eine ganze Gegend verantwortlich ist, die sich in alle Richtungen um das Hauptquartier erstrecken kann. Wenn Sie sich an einem Ende des Bereichs befinden und der einzig verfügbare Techniker am anderen Ende ist, dann ist die Reaktionszeit wesentlich länger |
| [2] | UPS Technologie wird eingehender behandelt in Abschnitt 8.1.3.2.3.2. |
| [3] | Bestehen keine gültigen Richtlinien zum Thema Verfahrensweisen in Ihrem Unternehmen, arbeiten Sie am besten mit den Bedienern selbst, dem Management und den Endbenutzern zusammen, um solche zu erstellen. Ohne gewisse Richtlinien ist ein Datencenter im wahrsten Sinne des Wortes außer Kontrolle. Früher oder später ist das Auftreten schwerwiegender Probleme höchstwahrscheinlich. |
| Zurück | Zum Anfang | Nach vorne |
| Zusätzlich Quellen | Backups |