Vraag Beschadiging van apparatuurschade na een blikseminslag - Zou ik meer gepland hebben?


Een van de sites van mijn klanten ontving vorige week een directe blikseminslag (toevallig op Vrijdag de 13e!).

Ik stond op afstand van de site, maar toen ik met iemand ter plaatse werkte, ontdekte ik een vreemd patroon van schade. Beide internetlinks waren verbroken, de meeste servers waren ontoegankelijk. Veel van de schade deed zich voor in de MDF, maar een glasvezelverbinding IDF verloor ook 90% van de poorten op een switchstack-element. Er waren voldoende reserve-switchpoorten beschikbaar om de bekabeling elders te herverdelen en te herprogrammeren, maar er was downtime terwijl we de getroffen apparaten aanhielden.

Dit was een nieuw gebouw / warehousing-faciliteit en veel planning ging naar het ontwerp van de serverruimte. De hoofdserverruimte is weggelopen van een APC SmartUPS RT 8000VA online UPS met dubbele conversie, ondersteund door een generator. Er was een juiste stroomverdeling naar alle aangesloten apparatuur. Offsite gegevensreplicatie en systeemback-ups waren aanwezig.

In totaal was de schade (die ik me bewust ben):

  • Mislukte 48-poorts lijnkaart op a Schakelaar Cisco 4507R-E chassis.
  • Failed Cisco 2960 switch in een 4-ledige stack. (oeps ... losse stapelkabel)
  • Verschillende schilferige poorten op een Cisco 2960-switch.
  • HP ProLiant DL360 G7 moederbord en voeding.
  • Elfiq WAN-linkbalancer.
  • Eén Multitech-faxmodem.
  • WiMax / Vaste draadloze internetantenne en power-injector.
  • Talrijke met PoE verbonden apparaten (VoIP-telefoons, Cisco Aironet-toegangspunten, IP-beveiligingscamera's)

De meeste problemen hielden verband met het kwijtraken van een volledig wisselblad in de Cisco 4507R-E. Dit bevatte een deel van het VMware NFS-netwerk en de uplink naar de firewall van de site. Een VMWare-host is mislukt, maar HA zorgde voor de VM's zodra de connectiviteit voor opslagnetwerken was hersteld. Ik werd gedwongen om een ​​aantal apparaten opnieuw op te starten / aan te zetten om funky energietoestanden te verwijderen. Dus de tijd tot herstel was kort, maar ik ben nieuwsgierig naar welke lessen moeten worden geleerd ...

  • Welke aanvullende beveiligingen moeten worden geïmplementeerd om apparatuur in de toekomst te beschermen?
  • Hoe moet ik garantie en vervanging benaderen? Cisco en HP vervangen producten onder contract. De dure Elfiq WAN-link-balancer heeft een blurb op hun website dat zei eigenlijk "jammer, gebruik een netwerk overspanningsbeveiliging". (het lijkt erop dat ze dit type fout verwachten)
  • Ik ben lang genoeg in IT geweest om in het verleden elektrische stormschade te hebben ondervonden, maar met een zeer beperkte impact; bijv. een goedkope pc-netwerkinterface of de vernietiging van minischakelaars.
  • Kan ik nog iets anders doen om mogelijk schilferige apparatuur te detecteren, of moet ik gewoon wachten tot vreemd gedrag naar de oppervlakte komt?
  • Was dit allemaal gewoon pech, of iets dat echt moet worden verantwoord in geval van noodherstel?

Met genoeg $$$ is het mogelijk om allerlei overtolligheden in een omgeving te bouwen, maar wat is een redelijk evenwicht tussen preventief / doordacht ontwerp en effectief gebruik van middelen hier?


55
2017-07-16 13:11


oorsprong


Enkele goede technische antwoorden hieronder, maar naar mijn ervaring is er niets beter dan een goede verzekeringspolis. Letterlijk een verzekeringspolis. Natuurlijk helpt het niet om het probleem te voorkomen, en het voorkomt niet dat klanten tegen je schreeuwen, maar het helpt wel met het vervangen van de defecte apparatuur die de leverancier niet zal aanraken. - Mark Henderson♦
@MarkHenderson Verzekering komt door ... maar het is 6 weken geweest, en enkele kleine problemen komen nu opduiken. - ewwhite


antwoorden:


Een paar banen geleden was een van de datacenters voor de plek waar ik werkte een verdieping onder een zeer grote antenne. Dit grote, dunne metalen voorwerp was het hoogste in de buurt en werd ongeveer elke 18 maanden door bliksem getroffen. Het datacenter zelf werd gebouwd rond 1980, dus ik zou het niet het modernste ding om zich heen noemen, maar ze hadden een lange ervaring met het oplossen van bliksemschade (de seriële communicatieborden moesten worden vervangen elke keer, wat een proef is als de comms-boards zich in een systeem bevinden dat al 10 jaar lang geen nieuwe onderdelen heeft gemaakt).

Eén ding dat door de oude handen werd opgevoed, is dat al die valse stroming overal een weg kan vinden en zich in een gemeenschappelijke grond kan verspreiden als deze eenmaal overbrugt. En kan binnendringen in luchtruimtes. Blikseminsluiting is een uitzonderlijk geval, waarbij normale veiligheidsnormen niet goed genoeg zijn om bogen te voorkomen en zo ver gaan als het gaat om energie. En het heeft veel. Als er voldoende energie is, kan deze uit een rooster met verlaagd plafond (misschien een van de ophangdraden wordt aan een lus met verbinding met een bouwligger in het cement) aan de bovenkant van een rek met 2 stijlen en van daaruit in de netwerken goodies.

Net als hackers kun je alleen zoveel doen. Je power-feeds hebben allemaal een onderbreker die valse spanningen opklemt, maar je lage-spanningsnetwerkuitrusting doet dat bijna nooit en vertegenwoordigt een gemeenschappelijk pad voor een extreem energetische stroom die je moet afleggen.


Het detecteren van mogelijk een schilferige kit is iets dat ik in theorie wel weet te doen, maar niet in de realiteit. Waarschijnlijk is je beste kans om de verdachte uitrusting in een gebied te plaatsen en bewust de temperatuur in de kamer omhoog te brengen in het hoge bereik van het bedrijfsbereik en te kijken wat er gebeurt. Voer een paar testen uit, haal het er helemaal uit. Laat het daar een paar dagen liggen. De toegevoegde thermische stress over eventuele reeds bestaande elektrische schade kan enige tijdbommen overbruggen.

Het heeft zeker de levensduur van sommige van je apparaten verkort, maar erachter komen welke moeilijk is. Stroomconditioneringsschakelingen in voedingen kunnen componenten bevatten die niet goed werken en leveren vuile stroom aan de server, iets dat je alleen kon detecteren door het gebruik van gespecialiseerde apparaten ontworpen om voedingen te testen.


Blikseminslag is niet iets dat ik heb overwogen voor DR buiten het hebben van een DC in een faciliteit met een gigantische bliksemafleider op het dak. In het algemeen is een staking een van die dingen die zo zelden gebeurt dat het geschud wordt onder 'act of god' en mee beweegt.

Maar ... je hebt er nu een gehad. Het laat zien dat uw instelling minstens één keer de juiste omstandigheden had. Het is tijd om een ​​beoordeling te krijgen van hoe kwetsbaar uw faciliteit de juiste voorwaarden krijgt en dienovereenkomstig te plannen. Als je nu alleen denkt aan de DR-effecten van bliksem, denk ik dat dat gepast is.


22
2017-07-18 12:38



Ik ben gisteren ter plaatse geweest om te beoordelen. Rommelig. Ik heb de chassisschakelaar gerepareerd en de schade van sommige servers gecontroleerd. Is er een kans dat de WiMax / Fixed-Wireless antenne op het dak het beginpunt was? Alles op zijn pad werd beïnvloed: Antenna->PoE injector->WAN link balancer->Firewall->Dead Cisco 4507 linecard - ewwhite
Dat klinkt ... vrij waarschijnlijk. - mfinni
@ewwhite Dat klinkt zeer waarschijnlijk. De schade toen die oude DC werd geraakt, leek erg op elkaar. - sysadmin1138♦
Ik wil graag wat wijsheid toevoegen aan het bericht van sysadmin1138 (sorry dat ik nog geen commentaar mag geven, ik wil niet dat dit een antwoord is) ... Ground Pins op netsnoeren zijn voor MENSELIJKE veiligheid, niet je apparaten .. In kleine kantoren; Ik bewaar belangrijke machines van de grond (houten kist, rubberen mat) en niet-geaarde connectors / adapters UPS-> Wall. Ik weet zeker dat OSHA er een hekel aan heeft, maar de computers zijn er dol op. Het helpt ook wanneer de gordel spanningsloos wordt en opnieuw wordt geactiveerd, omdat die schommelingen alles kunnen doden. Ik ben in een gebouw geweest toen een zeer, zeer grote Libert UPS / omvormer blies en moest uitleggen aan hun technici hoe inductieve spikes ( - sirmonkey


Ik heb over deze vraag nagedacht, aangezien deze onlangs is bijgewerkt naar de bovenkant van de voorpagina.

Ik wil vrijelijk bepalen dat voor mensen zoals sysadmin1138 die te maken hebben met installaties die zeer aantrekkelijk zijn voor grote blikseminslagen op het DC-dak, een specifieke noodplanning voor een grote staking zinvol is. Maar voor de meesten van ons is dit een eenmalige omstandigheid en ik dacht dat een antwoord dat meer in het algemeen geschikt is voor de rest van ons, enige waarde kan hebben.

Je kunt je allerlei soorten voorstellen bedreigingen voor filmplekken; scenario's die zeker zouden kunnen gebeuren, zouden ongetwijfeld uw bedrijfsactiviteiten tenietdoen als ze dat doen, maar er is geen reden om te denken dat er een verhoogde kans bestaat dat dit gebeurt. Je weet het soort dingen; vliegtuigaanval / bliksemschicht / oliedepot in de buurt ontploft / elk ander scenario dat aannemelijk is voor de risico's maar alleen voor de achtergrond.

Elk van deze heeft een specifiek mitigatieplan dat kan worden ingevoerd, maar ik stel voor dat - modulo mijn bepaling hierboven - het heeft geen zin om dit te doen. Zoals Schneier probeert te benadrukken in de bovengenoemde competitie, alleen omdat je je kunt voorstellen dat iets vreselijks gebeurt, maakt het niet een bedreiging waartegen specifieke planning de moeite waard is, of zelfs wenselijk. Wat doet zakelijk zin geven is een algemeen gedocumenteerd, getest bedrijfscontinuïteitsplan met algemene doeleinden.

U moet zich afvragen wat de bedrijfskosten zijn van een volledig siteverlies gedurende verschillende perioden (bijv. 24 uur, 96 uur, een week, een maand) en proberen de waarschijnlijkheid van elke gebeurtenis te kwantificeren. Het moet een eerlijke analyse van de bedrijfskosten zijn, aangekocht door alle niveaus van het bedrijf. Ik heb gewerkt op een site waar het algemeen geaccepteerde cijfer voor downtime £ 5.5 miljoen per uur was (en dat was 20 jaar geleden, toen vijf miljoen pond veel geld was); het hebben van dat cijfer dat over het algemeen is overeengekomen zo veel beslissingen zo veel gemakkelijker, omdat ze gewoon een kwestie van eenvoudige wiskunde zijn geworden.

Uw budget is het verwachte verlies vermenigvuldigd met de jaarlijkse kans op dat verlies; zie nu wat u kunt doen om die dreiging voor de begroting te verminderen.

In sommige gevallen loopt dit naar een volledig standby-datacenter met koude apparatuur, klaar om 24x7 te gaan. Het kan een klein standby-datacenter betekenen, zodat de interactie met de klant kan worden voortgezet met een zeer beperkt aantal telefonische medewerkers en een tijdelijke aanduiding van een website voor een storing. Het kan een tweede, redundant gerouteerde internetverbinding op uw hoofdsite betekenen, die koud ligt totdat deze nodig is. Het kan betekenen, zoals Mark Henderson hierboven opmerkt, verzekeringen (maar een verzekering die de zakelijke verliezen dekt, evenals de werkelijke kosten van herstel); als u uw BC-budget op één stuk papier kunt uitgeven dat alle te verwachten kosten dekt in geval van een ramp, is het misschien verstandig om dat stuk papier te kopen - maar vergeet niet factor te nemen falen van een underwriter in uw bedrijfsrisicoplan. Dit kan betekenen dat de onderhoudscontracten voor bepaalde core-apparatuur moeten worden opgewaardeerd tot extreem dure vier-uur-tot-reparatie-apparaten. Alleen u kunt weten wat logisch is voor uw bedrijf.

En als je eenmaal dit plan hebt, je moet het echt testen (met de mogelijke uitzondering van op verzekeringen gebaseerde). Ik heb gewerkt op een site waar we een complete kleinschalige koelsite hadden, klaar om in te korten op, 45 minuten rijden van ons hoofdgebouw. Toen we een probleem hadden waardoor het kernnetwerk werd afgesloten, probeerden we het live te repareren in plaats van over te hakken naar de koude site en dan de kern bevestigen en inkorten. Een van de redenen achter falen om te bezuinigen was dat we geen echt idee hadden van hoe lang het zou duren om in te korten en in te korten. Daarom wist niemand echt hoe lang dingen zonder cutover mogen lopen voordat ze de beslissing nemen om te bezuinigen, dus - heel begrijpelijk - was er terughoudendheid om te besluiten om te stoppen. Hoofden rolden nadat we 14 uur later weer online waren; niet vanwege de storing per se, maar omdat er veel geld was uitgegeven aan een faciliteit om een ​​stroomonderbreking van een dag te beperken die tijdens een dergelijke storing ongebruikt was gebleven.

Als laatste punt, merk op dat uitbestede componenten van uw businessplan zijn niet gegarandeerd werken. Uw senior management zit daar mogelijk te denken "als we de servers in de cloud plaatsen, zullen ze er gewoon altijd zijn en kunnen we de sysadmins ontslaan". Niet zo. Wolken kunnen falen als iets anders; Als u essentiële componenten hebt uitbesteed aan een provider, hoeft u alleen maar uw mogelijkheid te verwijderen om de faalkansen van die componenten in te schatten. SLA's zijn allemaal erg goed, maar tenzij ze worden ondersteund door substantiële niet-presterende boetes, zijn ze zinloos - waarom zou je provider extra geld uitgeven aan het beschikbaar blijven als ze het geld gewoon konden uitlenen en je servicekosten voor de periode van onbeschikbaarheid? Om betrouwbaar te zijn, moeten uw SLA's worden voorzien van boetes die de kosten van de storing voor uw bedrijf benaderen. Ja, dat zal de kosten van outsourcing aanzienlijk verhogen; en ja, dat is volledig te verwachten.


7
2017-12-22 09:49



Ik zou moeten toevoegen ... deze site werd getroffen door bliksem drie keer sinds de oorspronkelijke posting. De reden was terug te voeren op onvoldoende / niet-bestaande elektrische aarding in verschillende delen van de faciliteit. We hebben de contractanten vervolgd en de verzekering heeft het grootste deel van de vervangingen verzorgd. - ewwhite
Sorry, ewwhite, mijn openingsbepaling had ook duidelijker op jou moeten zijn toegepast; op locaties waar ieder risico is boven de achtergrond, het is logisch om op zijn minst rekening te houden met mitigatie die specifiek op dat risico is gericht. Mijn antwoord was meer voor iedereen, die jouw vraag kan lezen en beginnen na te denken "nou, ik heb ook geen bliksemplan; misschien zou ik dat moeten doen". - MadHatter


Het komt altijd neer op hoeveel u wilt uitgeven. Ik heb niet diep genoeg kennis om hier uitvoerig over te praten, maar ik ben in een groot datacenter van een farmaceutische industrie geweest dat een blikseminslag maakte en iets overspoelde dat een multiply-redundante spanningsafleider moest zijn (en correct was ontworpen) , maar is verkeerd geïmplementeerd zodat er iets is opgelost.)

Wat was de maximale piek die uw UPS had kunnen voorkomen? Het moet een beoordeling hebben. Blijkbaar was de aanval direct genoeg om dat te overschrijden, of iets lekte rond de UPS-feed, als een slechte grond. Dus, misschien bekijk je je powerontwerp, bepaal je hoe groot de kans is dat een andere aanval plaatsvindt, vergelijk je de kosten van downtime X-kans versus sanering, en laat een elektricien de faciliteit misschien een goede enquête geven om ervoor te zorgen dat alles goed is geaard - en sommige snel lezen laat zien dat aarding voor veiligheid / code niet zo intensief is als aarding voor het voorkomen van schade door bliksem.


6
2017-07-16 13:38



De UPS lijkt in orde te zijn. Er waren problemen in meerdere delen van het gebouw, maar de belangrijkste UPS technische specificaties state "Full-time multi-pole ruisfiltering: 0,3% IEEE-piekdoorlaat: nul-klemreactietijd: voldoet aan UL 1449" - ewwhite
Oke klinkt goed. Dan is het waarschijnlijk door andere middelen naar binnen geslopen, als je hoofdvoeding solide is. - mfinni