Vraag Er brandt iets in de serverruimte; hoe kan ik snel identificeren wat het is?


Onlangs merkten we een vreselijke brandende geur uit de serverruimte. Om een ​​lang verhaal kort te maken, het werd uiteindelijk een van de batterijmodules die in de UPS-eenheid aan het branden was, maar het duurde een paar uur voordat we het konden uitzoeken. De belangrijkste reden dat we dit konden achterhalen, is dat het UPS-display eindelijk liet zien dat de module moest worden vervangen.

Dit was het probleem: de hele kamer was gevuld met de geur. Een snuifproef doen was heel moeilijk omdat de geur alles had geïnfiltreerd (om nog maar te zwijgen van het feit dat het ons een licht gevoel gaf). We hebben onze productiedatabaseserver bijna per ongeluk naar beneden gehaald omdat daar de geur het sterkst was. De vitals leken goed te zijn (CPU-temps vertoonden 60 graden C en ventilatorsnelheden goed), maar we waren niet zeker. Het gebeurde zo dat de batterijmodule die opbrandde ongeveer dezelfde hoogte had als de server op het rek en slechts 3 ft verwijderd was. Als dit een echt noodgeval was geweest, zouden we jammerlijk gefaald hebben.

Realistisch gezien is de kans dat echte serverhardware wordt verbranden, vrij zeldzaam en meestal zullen we de boosdoener naar de UPS kijken. Maar met meerdere rekken met verschillende apparaten kan het snel een raadspel worden. Hoe bepaal je snel en nauwkeurig welk apparaat eigenlijk aan het verbranden is? Ik realiseer me dat deze vraag sterk afhankelijk is van de omgevingsvariabelen zoals kamergrootte, ventilatie, locatie, enz., Maar elke input wordt op prijs gesteld.


448
2018-04-04 14:22


oorsprong


@DeerHunter Nou, godzijdank was het einde van de dag en waren er maar heel weinig mensen in het gebouw. Bedankt voor je opbouwende kritiek, en ik zal er zeker van zijn dat mijn supervisor weet welke levens ze riskeerde om het systeem te houden. - Chad Harrison
@hydroparadise - iemand moet het lef hebben om te zeggen "HOU OP We doen dit ding niet goed. "Als uw supervisor de veiligheidsregels niet begrijpt, is er niet veel dat kan worden gedaan, behalve een ruggengraat laten groeien en niet buigen voor de drang om te snijden. - Deer Hunter
@DeerHunter: wat is de juiste reactie als u iets ruikt dat brandt? Er is geen zichtbare rook, alleen een verbrande geur. Zet je het hele datacenter uit, ontlucht je het voor een paar uur en zet je servers een voor een aan totdat de geur terugkeert? Een klein datacenter van 25 racks zou 1.000 servers kunnen hebben om te controleren, dat is veel downtime voor een "geur" ​​- het OP rapporteerde geen zichtbare rook of vuur. - Johnny
@Johnny - Het OP citeren: "de hele kamer was gevuld met de geur." Een snuifproef doen was heel moeilijk omdat de geur alles had geïnfiltreerd (om nog maar te zwijgen van het feit dat het ons een licht gevoel gaf) "Beantwoord uw vraag - ja, u moet ontlucht de kamer en los problemen op systematisch. Al het andere is onverantwoordelijk. - Deer Hunter
Dus, zijn degenen die kritisch staan ​​tegenover het hanteren van de geur van het OP dat suggereert dat er geen verschil is in urgentie tussen een geur en een vuur / rook? Als je iets ruikt dat brandt in je huis, maar geen rook ziet en geen alarm hoort, rende jij dan met je familie het huis uit en bel je 911? - trpt4him


antwoorden:


De algemene consensus lijkt te zijn dat het antwoord op uw vraag uit twee delen bestaat:

Hoe vinden we de bron van de grappige brandende geur?

Je hebt het "Hoe" redelijk goed vastgelegd:

  • De "snuifproef"
  • Let op zichtbare rook / waas
  • Loop door de kamer met een thermische (IR) camera om hotspots te vinden
  • Controleer monitoring en apparaatpanelen voor waarschuwingen

U kunt uw kansen om het probleem snel te vinden op verschillende manieren verbeteren: betere monitoring is vaak het gemakkelijkst. Enkele vragen om te stellen:

  • Krijgt u temperatuur- en andere gezondheidswaarschuwingen van uw apparatuur?
  • Communiceren uw UPS-systemen met fouten met uw bewakingssysteem?
  • Krijgt u stroomtrekkingsalarmen van uw stroomverdeelapparatuur?
  • Zijn de rookmelders in de ruimte rapportage aan het bewakingssysteem? (en kunnen ze?)

Wanneer moeten we problemen oplossen of de Big Red Switch raken?

Dit is een interessantere vraag.
Als u de grote rode schakelaar aanraakt, kan uw bedrijf haast hebben met een enorme hoeveelheid geld: releases van Clean Agent kunnen in de tienduizenden dollars zitten en de uitval- / herstelkosten na een noodstop (EPO, "dropping the room") ) kan verwoestend zijn.
Je wilt een datacenter niet laten vallen omdat er een condensator in een stroomtoevoer kwam en de kamer ruiste.

Omgekeerd kan een brand in een serverruimte uw bedrijf zijn gegevens / apparatuur en, nog belangrijker, het leven van uw personeel kosten.
Problemen oplossen "die grappige brandgeur" ​​zou nooit voorrang moeten hebben boven veiligheid, dus het is belangrijk om een ​​aantal duidelijke regels te hebben voor het oplossen van problemen met 'pre-fire'.

De richtlijnen die volgen zijn mijn persoonlijke beperkingen dat ik solliciteer in afwezigheid van (of in aanvulling op) een andere duidelijk gedefinieerde procedure / regels - ze hebben me goed gediend en ze kunnen je misschien helpen, maar ze kunnen me net zo gemakkelijk morgen laten doden of ontslaan, dus pas ze toe op jouw eigen risico.

  1. Als je rook of vuur ziet, laat je de kamer vallen
    Dit zou vanzelf moeten gaan, maar laten we het toch zeggen: als er een actief vuur is (of rook die aangeeft dat er binnenkort zal zijn), evacueer je de kamer, snij je de stroom uit en ontlaad je het brandblussysteem.
    Er kunnen uitzonderingen bestaan ​​(oefen wat gezond verstand), maar dit is bijna altijd de juiste actie.

  2. Als u problemen gaat oplossen, moet u altijd ten minste één andere persoon hebben
    Dit is om twee redenen. Ten eerste wil je niet ronddwalen in een datacenter en ineens een rek omhoog gaan in de rij waar je naar toe loopt en niemand weet dat je daar bent. Ten tweede, de andere persoon is je gezond verstand check op probleemoplossing versus het laten vallen van de kamer, en als je de oproep doet om de Big Red Switch te raken, heb je het voordeel dat een tweede persoon instemt met de beslissing (helpt de carrièrebeperkende aspecten te voorkomen van een dergelijke beslissing als iemand het later vraagt).

  3. Oefen voorzichtige veiligheidsmaatregelen tijdens het oplossen van problemen
    Zorg ervoor dat je altijd een ontsnappingspad hebt (een open einde van een rij en een duidelijk pad naar een uitgang).
    Houd iemand gestationeerd bij de EPO / fire suppression release.
    Draag een brandblusser mee (hallo of een andere clean-agent, alstublieft).
    Onthoud regel # 1 hierboven.
    Bij twijfel, verlaat de kamer. Zorg goed voor je ademhaling: gebruik een gasmasker of een zuurstofmasker. Dit kan uw gezondheid redden in geval van een chemisch vuur.

  4. Stel een limiet in en hou je eraan
    Meer nauwkeurig ingesteld twee limieten:

    • Staat ("Hoeveel slechter laat ik dit komen?"), En
    • Tijd ("Hoe lang zal ik blijven proberen om het probleem te vinden voordat het te riskant is?").

    De limieten die u instelt, kunnen ook worden gebruikt om uw team te laten beginnen met een ordelijke shutdown van het getroffen gebied, dus wanneer u DO Trek aan power, je crasht niet een aantal actieve machines, en je hersteltijd zal veel korter zijn, maar onthoud dat als de ordelijke shutdown te lang duurt, je misschien een paar systemen moet laten crashen in naam van de veiligheid.

  5. Op je gevoel vertrouwen
    Als u zich op enig moment zorgen maakt over de veiligheid, moet u de probleemoplossing uitschakelen en de ruimte leegmaken.
    Je kunt de kamer wel of niet laten vallen op basis van een buikgevoel, maar hergroeperen buiten de kamer in (relatieve) veiligheid is verstandig.

Als er geen direct gevaar is, kunt u ervoor kiezen de plaatselijke brandweer in te schakelen voordat u drastische maatregelen neemt zoals een EPO of een release van een schone agent. (Ze kunnen je vertellen hoe dan ook te doen: hun mandaat is om mensen te beschermen, dan eigendom, maar ze zijn duidelijk de experts in het omgaan met bosbranden, dus je moet doen wat ze zeggen!)

We hebben dit in opmerkingen behandeld, maar het kan net zo goed in een antwoord samengevat worden - @DeerHunter, @Chris, @Sirex en vele anderen hebben bijgedragen aan de discussie


380
2018-04-04 14:29



University Ik ben naar een nieuw datacenter gegaan. Ze implementeerden een zeer geavanceerd EPO / Fire Suppression-systeem. De apparatuur die werd beschermd was in miljoenen dollars en werd ook gebruikt voor miljoenen dollars aan onderzoek voor het medische deel van de school. Het is duidelijk dat als het nodig was de rode knop zou worden geraakt, maar dat gezegd zijnde als de rode knop was hit, het opnieuw instellen was bijna $ 200.000 Amerikaanse dollars. Belastingbetalers Dollars je kunt er vast en zeker op wedden dat als de schakelaar werd geraakt toen het niet nodig was, de persoon die hem had geraakt, geen baan meer had. - Ryan
+1 voor het buddy-systeem. Ik denk dat het een beetje gek is dat er DC's zijn die de EPO gebruiken om ook vuuronderdrukking te dumpen. Er zijn tal van situaties waarin je EPO wilt zonder halotron te dumpen over de hele man die geëlektrocuteerd wordt. Een EPO is een serieuze deal, maar is niet "vernietig alles in de DC deal" of zou het in ieder geval niet moeten zijn. De jongens in de DC moeten hopelijk de grote rode knop en het brandblussysteem goed genoeg begrijpen om het effect van het raken van de knop te wegen. Een EPO kan dat eigenlijk wel zijn hou op een brand en bijvoorbeeld de DC redden. - chris
Een belangrijke opmerking die ik niet heb genoemd, is dat het merendeel van de keren dat iets faalt om een ​​brandende geur af te geven, wat dan ook brandt, doof zichzelf voordat de geur wordt gedetecteerd en zonder iets te verbranden buiten de defecte apparatuur. Soms zal een apparaat blijven smeulen zolang het stroom heeft, maar als iemand rook ziet, moet het mogelijk zijn om het apparaat te identificeren, alleen stroom te sparen en te zien of de rook snel verdwijnt of voortdurend verergert. - supercat
@ryan: als het raken van de grote rode knop zoveel belastingbetalers dollars kost, heeft de verantwoordelijke persoon hopelijk een plan uitgewerkt om kleine incidenten met de plaatselijke brandweer op te lossen die geen gevaar voor werknemers inhouden. - Christoph
@ryan Dat doet me denken aan een tv-verslag over CERN dat ik onlangs zag: het camerateam en de verslaggever werden echt tot het uiterste gedreven door het systeem en op een moment een van de camerajongens bijna ramde een rode noodknop met zijn rugzak - hij gaf bijna een hartaanval aan de personeelsman die dacht aan de rebootkosten ... - Hagen von Eitzen


Een Thermal Imaging Camera kan het werk doen, en laat u identificeren waar de oververhitting is. Met een dergelijk apparaat kunt u ook de oorsprong van een brand of een brand in een met rook gevulde ruimte identificeren.


182
2018-04-05 04:59



Thermische camera's gaan tegenwoordig onder een grote door en als je een grote serverruimte hebt, zijn ze een tool die het waard is om te hebben. - rackandboneman
A T.I.C. is niet zo duur en is erg handig in een datacenter of grote serverruimte. Niet alleen in het geval van problemen zoals oververhitte kabels of apparatuur, maar ook als een preventieve of vroege detectie van problemen, koelingoptimalisatie, luchtstroming, enz. - ddalcero
Een laser temperatuur pistool, zoals deze, is een goedkoop alternatief - MichaelHouse
@mfinni Elektriciens hebben ook vaak thermische camera's. (Een thermische beeldcontrole van onze stroomverdeelpanelen elk jaar, of na een groot bekabelingswerk, was standaard toen ik bij een hostingbedrijf werkte). - voretaq7
Een thermische camera heeft zeer grote beperkingen: 1. Het gezichtsveld kan het gebruik voorkomen 2. Uw omgeving kan erg dicht zijn. [Er zullen grote vuren worden waargenomen, maar geen kleine branden) 3. Er is een gemiddelde temperatuur nodig om een ​​drempel te bepalen - monksy


Je doet geen van deze dingen dat is gezegd. Je verlaat de gevaarlijke omgeving omdat alles wat door de hele kamer wordt gepompt gevaarlijk is voor je gezondheid en je longen echt kan verpesten. Als er een zure geur van iets brandends in de kamer is dat je niet kunt vinden, bel dan (911 | 112 | 999 | welk noodnummer past bij jouw jurisdictie) en laat het vuur (bedrijfs | afdeling | brigade) het uitzoeken terwijl ze zitten in de flessenlucht.

Computeronderdelen bevatten allerlei interessante chemicaliën, waaronder kwik, cadmium, looden veel plastics in casings. Merk op dat alle links die ik heb gemaakt, verklaren hoe laagbelichte opnamen blijvende schade of zelfs een snelle dood kunnen veroorzaken. Dit is een omgeving die dat kan zijn onmiddellijk gevaarlijk voor het leven en de gezondheid.

... dus echt, als er iets brandt, besteed dan niet uren aan het snuiven van de dampen. Als je het niet kunt identificeren en meteen actie ondernemen om het te beheersen, ga weg.


137
2018-04-04 14:27



Hieraan moet worden toegevoegd dat als dit zou gebeuren in een "echt" datacenter met rookmelders geïntegreerd met de airconditioning en een blussysteem zou zijn geïnstalleerd, de brandmeldingen zouden zijn afgegaan en de ruimte zou worden afgesloten en automatisch met Argon of CO2 zou worden overstroomd, er kon zelfs geen gedachte zijn om rond te rennen en apparatuur te snuiven. - the-wabbit
@ syneticon-dj Dit is afhankelijk van de type van geïnstalleerde detectors. Ionisatiedetectoren hebben de brandonderdrukking mogelijk uitgeschakeld, maar ik heb gewerkt in (en momenteel hostapparatuur op) plaatsen met optische rookmelders - die vereisen zichtbare rook (of op zijn minst een goede waas) voordat ze struikelen. - voretaq7
Ik wou dat ik dit meer kon opwaarderen. op het risico om controversieel te zijn, is 'krijg een professionele' brandweerman de enige manier om vooruit te komen. - Iain
Ja, als voormalig brandweerman zou ik daar niet blijven zonder mijn uitrusting. Zelfs wanneer er een vuur is, worden we getraind om door de giftige gassen op te laden. Als ik de profs zou bellen, zou jij dat ook moeten doen! - Jeff Ferland
@Michael de ontwerpen die ik heb gezien vertrouwden niet op plafondmelders maar hadden foto-elektrische detectoren in de retourluchtstroom. De enige keer dat ik het heb gezien, was tijdens een testroutine waarbij het argonietsysteem is losgemaakt en een rookbron in een van de kasten is geplaatst. Het werkte zoals ik zou verwachten dat het werkt. Gelukkig had ik nooit te maken met echte branden. - the-wabbit


Als u de juiste bewaking op de UPS had (meestal via SNMP), had het apparaat zelf de klokken moeten luiden op uw bewakingssysteem. Als dit niet het geval is, praat daarover met uw leverancier. Het werkt niet goed of uw bewakingssysteem is niet correct geconfigureerd.

Als iets actiefs daadwerkelijk aan het branden is, zou het er op de een of andere manier over moeten klagen, of gewoon van het netwerk af zijn, wat ook een alarm zou moeten veroorzaken.

Als het zoiets is als een echte stroomrail die brandt door isolatie, en het is niet op een slimme PDU, dan zijn we terug bij uw oorspronkelijke vraag, namelijk "hoe vind ik een brandend ding?" En ik denk dat het juiste antwoord is: "Raak de EPO en zoek het uit. Je productieservers zijn waarschijnlijk niet belangrijk genoeg om levens te riskeren."


76
2018-04-05 10:49



Wat betekent EPO? - Midhat
Emergency Power Off ... de grote rode knop die alle stroom naar de kamer afsnijdt. Meestal voor als het in brand staat. - Grant
Een nadrukkelijke +1, zou hebben gestemd +1.000. Druk op de knop, evacueer, wacht, sorteer dingen later. Zakelijk doen zoals gewoonlijk met vuur en rook aanwezig (en alles proberen op te lossen) is een van de ergste fouten die een technicus kan maken. - Deer Hunter
@chris Ik moet respectvol van mening verschillen over "EPO, Leave, Wait" - Het activeren van de EPO en / of het vrijgeven van agenten voor een kamer vol productietoestellen kan heel vaak zijn wat we graag een Carrièrebeperkende verhuizing. Als er geen is actief, zichtbaar Vuur of rooksliert dat afkomstig is van apparatuur die een eerste onderzoek uitvoert, is meestal het juiste ding. Natuurlijk moet je absoluut bereid zijn om op elk punt van je onderzoek uit de kamer te schieten terwijl je de juiste rode knoppen aanraakt. - voretaq7
Het is waarschijnlijk dat zelfs een perfect controlesysteem dit niet zou hebben bereikt tot het moment dat het UPS-paneel zei: "Vervang Module" - dat gezegd hebbende, u wilt zeker dat uw bewakingssysteem dergelijke zaken onder uw aandacht brengt. De volgende keer dat een module om 19:30 faalt op een vrijdag wanneer er niemand in de buurt is, en de monitoring-waarschuwing zorgt ervoor dat je terugkomt en het probleem aanpakt voordat het zich ontwikkelt tot een volwaardige noodsituatie. Als u de bewaking in uw FACP kunt koppelen, kunnen uw rook- en / of warmtesensoren u zelfs waarschuwen voor isolatie van vermogensrails en dergelijke. - voretaq7


Dit is een van die situaties waarin

XKCD Die Hard sysadmin

is niet van toepassing, moet u een professional bellen

Firefighter in protective gear

Al het andere is gewoon dom.


43
2018-04-05 12:50



dit is duidelijk het beste antwoord. :) - Citizen
@Navin Nee u doen de jongens van de brandweer dat niet. - Iain


Als iemand wiens vroegere carrière een elektronische technologie was, heb ik ervaring met "brandende geuren" die geen vuren waren. Dit is niet ongewoon.

Ik zou een datacenter niet afsluiten voor een geur. Rook is een andere zaak, iets is echt aan het verbranden (meestal, maar een kanalige tantaalcondensator kan ook een kamer vullen met rook). Het is verbazingwekkend hoeveel geur een gefrituurd component in een voeding kan maken.

Een TIC- of IR-thermometer (een handig hulpmiddel en een stuk goedkoper dan een TIC) zou dit niet noodzakelijk weergeven, omdat het onderdeel helemaal geen warmte genereert en het in een behuizing zit. Maar controleer of apparaten niet werken, gebruik uw monitoringtools. Voor een geur als die is het 95% van de tijd een stroomvoorziening die de prestaties van het hele apparaat beïnvloedt.


40



+1, geblazen voedingen zijn gebruikelijk. In de meeste datacenters met hoge luchtstroomsnelheden wordt de rook snel weggeblazen en is het moeilijk om de bron van de geur te vinden. In een kleine kamer kan de geur echter behoorlijk slecht zijn en zich snel door de hele kamer verspreiden. - Stefan Lasiewski


Ik hou van de IR-afbeelding of thermometer antwoorden, maar misschien wat ook zou helpen is een echte "geurdetector". Wat tenslotte je voorzichtigheid betekende, was de geur. Rook, hitte, IR etc. zijn allemaal surrogaten.

Iets als dit: from Shinyei . Ik heb ze nooit persoonlijk gebruikt of zelfs maar in een datacenter gebruikt. Maar op zijn minst theoretisch gezien zou het een mooi hulpmiddel moeten zijn. Als je het geld hebt dat je aan deze Gizmo kunt besteden.

http://www.sca-shinyei.com/odormeter of http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

Het geeft je een geursterkte en classificatie. Dus naar de geur gaan moet mogelijk zijn. Devil zit natuurlijk in de details. Hoe gevoelig het is, maskering van oneigenlijke achtergrondgeur enz.

Een voordeel ten opzichte van zuiver op temperatuur gebaseerde metingen is dat geur vaak optreedt op een veel vroeger punt of drempel. Of als het oververhitte onderdeel wordt verborgen door een behuizing / verborgen bedrading, enz., Is het gemakkelijker om moleculen te detecteren die ontsnappen dan een gezichtslijn in een gezichtslijn.

Een andere situatie is een niet-hittegerelateerde geur. We hebben eerder een lek in een koelcircuit gehad en de geuren van de koelvloeistof waren ook bijzonder. Ik zal niet eens ingaan op het nu oude geval van een knaagdier dat in de kokers dood is. :)

Ik was verrast hoe gevoelig deze sensoren zijn. Blijkbaar zijn H2S / mercaptanen enz. (Gebruikelijke boosdoeners) detecteerbaar op sub-ppm-niveaus.

enter image description here


19