Blackout mit Computerpannen
Versagende Informationstechnik mit Ursache des US-Desasters
(22. Dezember 2003) - War das Leitstellenpersonal von First
Energy (FE) beim großen Blackout im Nordosten der USA und
Teilen Kanadas am 14. August blind für das, was da geschah? Es
scheint tatsächlich so. Grund: Wesentliche Teile der FE-Leit-
und Informationstechnik funktionierten offenbar nicht. Einen
erheblichen Anteil an dem großräumigen Stromdesaster
hatten also offenbar Computerprobleme.
Überschreiten Messwerte zulässige Grenzen, sackt die
Netzfrequenz bedrohlich ab oder ist sonst Gefahr im Verzug,
schlagen moderne Leitsysteme gewöhnlich unübersehbar und
unüberhörbar Alarm. Alle anderen Anzeigen auf den
Monitoren werden in den Hintergrund gefahren, die Alarmmeldung
kommt sofort nach vorn - das Personal kann also unverzüglich
handeln.
Defektes Alarmsystem
Ganz anders ging es im Lastverteiler von First Energy an jenem
verhängnisvollen Augusttag zu. Wie die U.S.-Canada Power
System Outage Task Force ermittelte, war die Alarmfunktion des
FE-Energiemanagement-Systems seit 14.14 Uhr am 14. August
defekt.
"Über eine Stunde lang erkannten die Diensthabenden im
Kontrollraum nicht, dass ihr Computersystem nicht
ordnungegmäß lief. Auch das IT-Personal wusste nichts
davon und unternahm auch nichts zur Störungsbehebung",
schildert die Task Force in ihrem Zwischenbericht.
Ohne ein voll funktionierendes Energiemanagement-System hätten
die FE-Systemoperatoren nicht bemerkt, dass ihr Netz
zusammenzubrechen drohte. Wären die Computer-Probleme erkannt
worden, hätte man versuchen können, durch genaues
Beobachten bestimmter Messwerte und Anzeigen gefährliche
Betriebszustände auch ohne Alarmfunktion zu erkennen. Wobei
die Task Force durchaus anerkennt, dass dies nicht gerade einfach
ist.
Noch mehr IT-Probleme
Es kam noch dicker: Mehrere Fernwirk-Unterstationen fielen aus.
Und dann stieg auch noch der Primärserver des
Überwachungssystems aus. Der zweite, der Back-up-Server,
sprang ein - und stürzte ebenfalls ab. Das alarmierte
IT-Fachpersonal von FE entschied sich für einen Warmstart. Die
Techniker meinten danach, dass alles wieder in Ordnung wäre.
Weit gefehlt - das Alarmsystem blieb "eingefroren".
Durch die Pannen ging auch noch die automatische
Erzeugungs-Überwachung "in die Knie". Außerdem
erschienen aktuell erfasste Werte und Anzeigen mit erheblicher
Verspätung auf den Monitoren: "Normalerweise geschieht
die Anzeige in 1-3 Sekunden", schrieb die
Ermittlungskommission, "doch sie verlangsamte sich je
Bildschirm auf mehr als 59 Sekunden." Und das ist bei
kritischen Netzzuständen eine kleine Ewigkeit.
Die IT-Probleme von FE führten letztlich zu grotesken
Situationen: Das Personal war anscheinend bass erstaunt über
Anrufe anderer Lastverteiler und Leitstellen, die FE über den
kritischen Zustand ihres Netzes informieren wollten. Man verstand
die Anrufer möglicherweise gar nicht richtig. Die Folgen sind
bekannt.