Niezawodność i ciągłość działania systemów w obliczu konfliktu – co da się zrobić?

Obserwowana od kilku tygodni większa częstotliwość ataków hakerskich sprawia, że coraz częściej zwracamy uwagę na kwestię niezawodności systemów w obliczu różnego rodzaju zagrożeń. Niedawna awaria lokalnych centrów sterowania w PKP, choć pozbawiona hakerskiego charakteru, również uwidoczniła konieczność ciągłych analiz i przygotowywania się na scenariusze związane z utratą funkcji systemów IT. Czy jest to możliwe?

O odpowiedź poprosiliśmy Jacka Kalowskiego – certyfikowanego inżyniera niezawodności z ponad 10-letnim doświadczeniem w pracy projektowej w najważniejszych dziedzinach przemysłu w Polsce.

Niezawodność systemu – czym jest?


Rozważania na ten temat warto rozpocząć od odpowiedzenia sobie na pytanie czym, tak naprawdę, jest niezawodność systemu (ang. system reliability). W skrócie to prawdopodobieństwo, że nie utracimy funkcji, jaką pełni dany system. Prawdopodobieństwo przyjmujemy dla określonego czasu oraz warunków środowiskowych – np. temperatury otoczenia lub określonych obciążeń eksploatacyjnych. Przykładowo, korzystając z danych historycznych o awariach, możemy wskazać prawdopodobieństwo, że przez rok pracy dany system się nie zepsuje. I jest to niewątpliwie wiele mówiący wskaźnik. Natomiast gdy dojdzie do awarii to istotne stają się innego rodzaju miary: gotowość techniczna i obsługiwalność. Gotowość techniczna pozwala określić jak szybko możemy urządzenia naprawić. Mierzy nie tylko sprawność techników dokonujących napraw ale także dostępność części zamiennych, opóźnienia logistyczne (dojazd, dostawy z magazynów, przygotowanie stanowiska, izolacja od źródeł napięć). Gotowość techniczna to wskaźnik, który łączy w sobie niezawodność i obsługiwalność i mierzy w pewnym sensie zdolność produkcyjną. Przyjmując jeden rok gotowość techniczna określa jaki procent z tych 12 miesięcy możemy „produkować” a ile tracimy z powodu awarii – jeśli nie jesteśmy na nią przygotowani. Przykładowo: sprowadzenie części zamiennych i naprawa może potrwać miesiąc. Jeśli jesteśmy przygotowani i dysponujemy częściami, to stracimy tylko kilka godzin, bo tyle czasu zajmie naprawa. Otwiera się tu pole do pracy analitycznej, która nie bez przyczyny została zapoczątkowana w wojskowości już w trakcie II wojny światowej.

Prawdopodobieństwo utraty ciągłości działania systemów – jak się przygotować?


Jak uchronić system przed awarią i przestojem w pracy? Najprostszym rozwiązaniem jest ulokowanie danych w chmurze. Popularnym rozwiązaniem chmurowym jest Azure, w którym nasza maszyna może być replikowana w różne rejony świata. Kolejne rozwiązanie, niekoniecznie droższe w długiej perspektywie, to inna lokalizacja danych, w drugiej serwerowni na terenie Polski lub innego kraju. Ważny czynnik w wyborze lokalizacji to inny dostawca energii elektrycznej.
Jak bardzo jest to istotne pokazał ostatni black out z 2008 roku, który miał miejsce w Szczecinie. Była to największa awaria energetyczna w Polsce od czasu II wojny światowej. Miasto zostało kompletnie odcięte od energii od północy do godziny 18-tej następnego dnia. Nie podano przyczyny tego zdarzenia. Oczywiście w innych rejonach kraju dostawy energii były zachowane.

Ostatnia, trzecia metoda na zachowanie ciągłości usług IT to po prostu plan działania . Bardzo kosztowne jest pełne zabezpieczenie na najrzadsze zdarzenia o najpoważniejszych konsekwencjach tj. powodzie, wojny, huragany. Nieracjonalne ekonomicznie może być utrzymywanie zapasowej infrastruktury, ale koniecznie trzeba mieć PLAN na takie zdarzenie, W jaki sposób szybko i sprawnie przenieść infrastrukturę. Kto jest za to odpowiedzialny. Jakich narzędzi ma użyć. Takie plany posiadają zazwyczaj operatorzy usług krytycznych, którzy dysponują w tym celu odpowiednim sprzętem i mają przeszkolony personel.

Do tej pory mówiliśmy o miarach dotyczących fizycznych urządzeń. W arenie oprogramowania zastosowanie takich samych miar nie przynosi zauważalnych korzyści. Są jednak strategie postępowania, które mogą poprawić bezpieczeństwo danych.

Zgodnie z Zasadą Pareto, mała grupa, mały zbiór technik, tj. ataki, takie jak phishing czy DDOS, powodują łącznie najpoważniejsze konsekwencje dla użytkowników infrastruktury IT…