„Yandex”: niedawna awaria na dużą skalę w działaniu usług miała miejsce z powodu sprzętu sieciowego

Redaktor NetMaster
Redaktor NetMaster
1 min. czytania

Zespół inżynierów Yandex podzielił się wynikami dochodzenia w sprawie incydentu sprzed tygodnia, który zakłócił funkcjonowanie wielu serwisów internetowych firmy.

Przypomnijmy, że awaria na dużą skalę w działaniu platform chmurowych Yandex miała miejsce 6 lutego. „Poczta”, „Dysk”, „Market”, „Mapy”, „Muzyka” i inne usługi okazały się niedostępne. Główny szczyt przypadł na okres od 17:03 do 17:50 czasu moskiewskiego, podczas gdy problemy zostały całkowicie wyeliminowane, a funkcjonowanie wszystkich zasobów zostało przywrócone dopiero o 21:30.

Okazało się, że główną przyczyną niedostępności usług była kaskadowa awaria w działaniu urządzeń sieciowych, wywołana awarią jednego z urządzeń sieciowych – routera granicznego. Specjaliści Yandex odtworzyli awarię w warunkach laboratoryjnych i zidentyfikowali błąd w systemie operacyjnym routera, który miał kluczowy wpływ na rozwój wydarzeń. Firma podjęła kroki, aby zapobiec podobnym incydentom w przyszłości i zgłosiła problem w oprogramowaniu do producenta sprzętu sieciowego.

„Podjęliśmy szereg działań, aby zapobiec powtórzeniu się takiego incydentu. Wymiana uszkodzonego routera na w pełni sprawny. W naszym laboratorium nauczyliśmy się odtwarzać sytuację awaryjną. W przyszłości zostanie to naprawione na poziomie systemu operacyjnego producenta sprzętu sieciowego” – powiedział Yandex w oświadczeniu. Firma nie reklamowała dostawcy problematycznego sprzętu sieciowego.

Źródła:

Habr Yandex

Udostępnij ten artykuł
Dodaj komentarz