Som många av våra kunder märkte så hade vi natten mellan torsdag och fredag en stor driftstörning som drabbade samtliga våra tjänster som var hostade i vår serverhall i Liljeholmen. Detta var faktiskt den enskilt största driftstörningen i Crystones 12åriga historia.
Det som hände var att vattnet som går till vår kylanläggning som driftas av Global Crossing började läcka vid 23 tiden på torsdagsnatten vilket gjorde att kylaggregatet slutade fungera. Detta ledde också till att vår backup kyla inte gick igång som den skulle med resultatet att serverhallen blev otroligt varm. I hallen hostar vi över 1200 servrar som utan kyla blir väldigt varma så när tekniker fick larmet så hade vi inget annat val än att stänga ner servrarna i väntan på att kylan skulle lagas för att inte mer hårdvara skulle ta skada.
Kylan var sedan lagat klockan vid ca 05 på fredagsmorgonen och start av samtliga servrar skedde då. Tyvärr uppstod det då komplikationer med ett antal olika servrar, både Crystoneägda och kundägda servrar var drabbade. En del av dessa problem berodde på hårdvara som blivit överhettad och därmed gått sönder. Våra teknikerna inledde då arbetet med att få igång de servrar som inte hade startat som de skulle, inläsning från backuper inleddes på dessa servrar efter att hårddiskar (eller annan hårdvara) hade bytts ut. Samtliga tjänster förutom en av våra webbservrar var sedan igång klockan 17.00 på kvällen.
Vid 05 på fredagsmorgonen började vår egen site att fungera och vi uppdaterade i samband med detta vår driftinformation. När växeln sedan öppnade klockan 08 las också ett meddelande in i denna om de problem vi hade. Sedan skedde kontinuerliga uppdateringar av driftinformationen på vår hemsida och vår kundtjänstpersonal hölls även dom uppdaterade om vad som hände. Detta informationsflöde visade sig fungera utmärkt och man kanske skulle kunna tro att vår telefonkö till supporten skulle bestå av hundratals samtal då tjänster för över 60.000 kunder slutade fungera, men så var faktiskt inte fallet.
Så vilka åtgärder vidtas nu för att en driftstörning av denna omfattning under inga omständigheter får uppstå igen?
Framförallt handlar det nu om att driftsäkra hela kylsystemet och detta görs genom en diskussion med vår leverantör Global Crossing. Även om vårt datacenter idag är extremt säkert med redundanta internetleverantörer, avancerat skalskydd, UPS:er och dieselaggregat så kommer vi inte nöja oss med enbart detta. En rejäl studie över tänkbara katastrofscenarion kommer att genomföras för att också undvika alla tänkbara övriga scenarion.
Det finns också två grupper av människor som förtjänar en enorm eloge efter det som hände. Den första gruppen är lojala, uppoffrande och begåvade kollegor som trots omfattningen av denna driftstörning med stora portioner ansvar, uppslutning och stolthet lyckades lösa problemet relativt snabbt. Våra tekniker visade nästan övermänskliga talanger när det gällde att få upp vissa av servrarna, i mina ögon var det nästan magi hur vissa av servrarna efter ett tag kunde gå igång.
Den andra gruppen av människor som uppvisat en enorm portion förståelse, tålamod och tillit är våra fantastiska kunder. Trots att affärskritiska tjänster som e-post och webb slutade fungera var det många som efter ett samtal med vår kundtjänst förstod omfattningen av problemen. Det var inte ovanligt att vår kundtjänst möttes av uttryck som "Oj, då förstår jag varför det inte fungerar, det är bäst jag lägger på så att ni får koncentrera er på att lösa problemen.", eller "Då förstår jag att det ringer mycket så det är bäst jag lägger på så ni får informera övriga kunder som väntar på ett besked." Vi får heller inte glömma alla de kunder som helt enkelt la på telefonluren efter att ha hört meddelandet i telefonen och stilla väntade på att vi skulle lösa deras problem. Helt fantastiskt och ett enormt tack för er förståelse!