Vyjádření k výpadku 31.1.2019

2.2.2019

Dobrý den, vážení zákazníci.

Včerejšího dne nás postihl nejdelší výpadek v naší historii. Nechceme se nijak schovávat a rádi bychom vám tedy celou situaci vysvětlili.

Ve 12:36 jsme zaznamenali problém na minoritní části námi provozované infrastruktury. Po první analýze problému jsme zjistili, že neodpovídá jedno z diskových polí. V důsledku toho začalo docházet k timeoutu na všech serverech, které toto diskové pole využívají. Následný výpadek služeb se dotkl cca 24 % našich zákazníků. Tímto výpadkem ale nebyly postiženy e-mailové služby.

Na řešení problému začali okamžitě pracovat všichni naši administrátoři. Diskové pole nebylo, kvůli chybě HW, možné nastartovat. Z toho důvodu bylo rozhodnuto o přesunu na záložní HW, abychom minimalizovali riziko opakování problému. Náročnost migrace byla ještě umocněna několika obtížemi, ale díky nasazení maximálního počtu našich administrátorů se dařilo vše okamžitě řešit.
V 16:35 jsme zprovoznili záložní pole s kompletními daty z pole havarovaného. K žádné ztrátě dat na straně zákazníka nedošlo. Během několika následujících minut pak došlo k nastartování všech postižených serverů.

Vzhledem k povaze problému nebylo možno v počáteční fázi odhadnout délku výpadku. Jakmile jsme, po prvních fázích migrace, odhad času kompletní obnovy získali, informovali jsme o něm na všech dostupných kanálech. Díky usilovné práci se nám podařilo dokončit migraci a obnovu služeb dříve, než tento odhad původně říkal.

Aktuálně řešíme s dodavatelem diskového pole příčinu problému. Součástí řešení bude samozřejmě i návrh, jak podobné situaci předejít nebo úplně minimalizovat následky. Jedná se o opravdu ojedinělý problém.

Během odstávky byla k dispozici naše telefonická podpora. Snažili jsme podávat aktuální informace. Vzhledem k zvýšenému počtu volajících v jeden moment je možné, že se nedalo na první pokus dovolat. Nasazeni byli opravdu všichni naši dostupní zaměstnanci, aby naši administrátoři mohli v té chvíli řešit nápravu situace.
O nastalé situaci jsme informovali online na www.stable.cz, našem facebooku a twitteru, kde jsme také reagovali na zaslané zprávy. Výpadkem byl bohužel postižen i náš interní ticket systém a tak nebylo možno v tu chvíli odpovídat na vaše e-maily. Vzhledem k tomu, že jsme nepřišli o žádná data, byly zprávy doručeny dodatečně a se zpožděním jsme na ně odpověděli. Omlouváme se tedy za případné prodlevy.

Velice nás mrzí, že k této situaci došlo a po důkladné analýze se budeme snažit přenastavit vnitřní procesy tak, abychom snížili riziko opakování incidentu a doby nápravy.

Děkujeme všem z vás, kteří chápali naši situaci a podporovali nás při řešení problému. Naším společným cílem bylo celou situaci co nejdříve napravit.

Za tým Stable.cz jednatelé a majitelé společnosti

Tadeáš Mengler
Tomáš Fiala