Vraag Waarschijnlijkheid van defecte bladenchassis


In mijn organisatie denken we erover om bladeservers te kopen - in plaats van rackservers. Natuurlijk maken technologieleveranciers ze ook erg leuk. Een punt van zorg, dat ik vaak in verschillende forums lees, is dat er een theoretische mogelijkheid is dat het serverchassis naar beneden gaat - wat dan ook alle bladen neer zou halen. Dat komt door gedeelde infrastructuur.

Mijn reactie op deze kans zou zijn om overtolligheid te hebben en door twee chassis in plaats van één (zeer duur natuurlijk).

Sommige mensen (inclusief bijvoorbeeld HP Vendors) proberen ons ervan te overtuigen dat het chassis zeer waarschijnlijk niet zal falen vanwege veel redundanties (redundante voeding, enz.).

Een andere zorg aan mijn kant is dat als er iets misgaat, er reserveonderdelen nodig zijn - wat moeilijk is op onze locatie (Ethiopië).

Dus ik zou het aan ervaren beheerders willen vragen die de bladeserver hebben beheerd: wat is uw ervaring? Gaan ze als een geheel omlaag - en wat is de verstandige gedeelde infrastructuur, die kan falen?

Die vraag kan worden uitgebreid tot gedeelde opslag. Nogmaals, ik zou zeggen dat we twee opslageenheden nodig hebben in plaats van slechts één - en opnieuw zeggen de verkopers dat deze dingen zo solide zijn dat er geen fouten worden verwacht.

Nou - ik kan nauwelijks geloven dat een dergelijke kritieke infrastructuur zeer betrouwbaar kan zijn zonder redundantie - maar misschien kun je me vertellen of je succesvolle blade-gebaseerde projecten hebt die zonder redundantie werken in de kernonderdelen (chassis, opslag ... )

Op dit moment kijken we naar HP - IBM lijkt veel te duur.


47
2017-12-02 16:41


oorsprong


Geweldige vraag. Ik zal later vandaag mijn antwoord en een aantal scenario's voor het falen van het echte leven posten. - ewwhite
Heb je gekeken naar wat Dell op hun C-servers heeft? bijv. de C6100 heeft 4 knooppunten in een 2U-doos, een equivalent van een 4-gatsmeschassis. In plaats van één blade-chassis van 10U zou je vijf 2U-rackservers kunnen krijgen. Niet langer één faalpunt, maar u verliest de voordelen van het backplane. Mogelijk hebben HP / IBM een gelijkwaardig product. - jqa


antwoorden:


Er is een kleine kans dat het chassis volledig kapot gaat ...

U zult waarschijnlijk problemen tegenkomen in uw faciliteit voordat u een a. Onderhoudt vol falen van een mesbehuizing.

Mijn ervaring is voornamelijk met HP C7000 en HP C3000 bladbehuizingen. Ik heb ook blade-oplossingen van Dell en Supermicro beheerd. Leverancier is een beetje belangrijk. Maar kort samengevat, de HP-uitrusting is fantastisch, Dell heeft het goed gedaan en Supermicro ontbrak aan kwaliteit, veerkracht en was gewoon slecht ontworpen. Ik heb nog nooit storingen aan de kant van HP en Dell ervaren. De Supermicro heeft ernstige uitval gehad en dwong ons het platform te verlaten. Op de HP's en Dells, ben ik nog nooit een volledige chassisfout tegengekomen.

  • Ik heb thermische gebeurtenissen gehad. De airconditioning faalde in een co-locatiefaciliteit die temperaturen gedurende 10 uur naar 115 ° F / 46 ° C zendt.
  • Stroomstoten en lijnstoringen: één kant van een A / B-feed verliezen. Individuele stroomstoringen. Er zijn gewoonlijk zes voedingen in mijn blade-setups, dus er is voldoende waarschuwing en redundantie.
  • Individuele bladeserverfouten. Problemen met de ene server hebben geen invloed op de anderen in de behuizing.
  • Een chassis brand...

Ik heb verschillende omgevingen gezien en het voordeel gehad van installatie in ideale datacenteromstandigheden, evenals enkele ruwere locaties. Aan de kant van de HP C7000 en C3000 is het belangrijkste om te overwegen dat het chassis is geheel modulaire. De componenten zijn ontworpen om de impact van een defect in een onderdeel dat het hele apparaat beïnvloedt tot een minimum te beperken.

Denk er zo over na ... Het hoofdonderstel van de C7000 bestaat uit front-, (passieve) middenvlak en backplane-assemblages. De structurele behuizing houdt eenvoudig de voor- en achtercomponenten bij elkaar en ondersteunt het gewicht van het systeem. Bijna elk onderdeel kan worden vervangen ... geloof me, ik heb er veel uitgehaald. De belangrijkste ontslagen zijn in fan / cooling, power en netwerken en management. De managementprocessors (HP's Onboard-beheerder) kunnen worden gekoppeld voor redundantie, maar de servers kunnen zonder deze werken.

enter image description here

Volledig bevolkte behuizing - vooraanzicht. De zes voedingen aan de onderkant lopen over de volledige diepte van het chassis en worden aangesloten op een modulaire voedingsbackplane aan de achterkant van de behuizing. Voedingsmodi kunnen worden geconfigureerd: b.v. 3 + 3 of n + 1. De behuizing heeft dus zeker powerredundantie. enter image description here

Volledig uitgeruste behuizing - achteraanzicht. De Virtual Connect-netwerkmodules aan de achterkant hebben een interne cross-connect, zodat ik de ene of de andere kant kan verliezen en toch een netwerkverbinding met de servers kan onderhouden. Er zijn zes hot-swappable voedingen en tien hot-swappable fans. enter image description here

Lege behuizing - vooraanzicht. Merk op dat er echt niets is aan dit deel van de behuizing. Alle verbindingen worden doorgegeven aan het modulaire middenvlak. enter image description here

Midplane assembly verwijderd. Let op de zes stroomtoevoeren voor de middenvlakmontage onderaan. enter image description here

Middenvlak montage. Dit is waar de magie gebeurt. Let op de 16 afzonderlijke downplane-verbindingen: één voor elk van de bladeservers. Ik heb individuele server-sockets / bays laten mislukken zonder de hele behuizing te doden of de andere servers te beïnvloeden. enter image description here

Backplane (s) van voeding. 3ø eenheid onder standaard eenfasemodule. Ik veranderde de stroomverdeling in mijn datacenter en ruilde gewoon de backplane van de voeding om de nieuwe methode van vermogensafgifte aan te pakken enter image description here

Chassisconnector schade. Deze specifieke behuizing is gevallen tijdens de montage, waarbij de pinnen van een lintconnector zijn gebroken. Dit ging dagenlang onopgemerkt voorbij, resulterend in een lopend chassis dat FIRE vangt ... enter image description here

Hier zijn de verkoolde overblijfselen van de midplane-lintkabel. Dit controleerde een deel van de temperatuur van het chassis en de monitoring van de omgeving. De bladeservers binnen bleven zonder incidenten draaien. De getroffen onderdelen werden op mijn gemak vervangen tijdens de geplande downtime en alles ging goed. enter image description here


49
2017-12-03 00:03



+1 voor C7000. We hebben er de afgelopen twee jaar een gehad, solide en nooit problemen, hardware of prestaties, op de behuizing of de bladen. - tombull89
We moeten het hiermee eens zijn - we hebben een verscheidenheid aan blade-chassis van Dell en ze zijn vrijwel kogelvrij. Ik denk dat we één controllermodule op één chassis hebben laten mislukken en het netto resultaat hiervan is dat we het chassis zelf niet op afstand konden beheren voor de dag die het kostte voor dell support om ons een andere controller en een engineer te sturen om in te passen. Geen daadwerkelijke uitval van het blad vanwege de storing of de handeling om de controller te vervangen. - Rob Moir
Ik ben het eens met @ewwhite. Ik heb c7000 gerund voor ongeveer 8 jaar non-stop zonder fouten in het chassis. We hebben ze zelfs een paar uur in 130'F laten lopen vanwege HVAC-storingen en hadden niets gefaald. Het grote ding om in gedachten te houden is om je stroombelastingen over meerdere powerpanels te verdelen en om je netwerk over meerdere switches te splitsen om een ​​single point of failure te elimineren. Het enige dat we ooit hebben gehad, is slecht voor sommige bladeserver-harde schijven, maar dit zie je ook op traditionele servers. - mrTomahawk


Ik beheer nu al acht jaar een klein aantal bladeservers en ik heb nog een systeembrede fout waardoor een aantal blades offline zijn gegaan. Ik ben heel dichtbij gekomen vanwege problemen met de stroomvoorziening, maar heb nog geen chassisbrede storing gehad die niet te wijten was aan externe bronnen.

Uw observatie dat het chassis een single-point-of-failure vertegenwoordigt, is correct, hoewel ze tegenwoordig een groot aantal redundanties in zich opnemen. Alle bladesystemen die ik heb gebruikt, hebben parallelle stroomtoevoer naar de blades en meerdere netwerkaansluitingen gaan via afzonderlijke paden en in het geval van Fibre Channel zijn er meerdere paden van de blade naar de optische poorten aan de achterkant van het rack. Zelfs het chassisinformatiesysteem had meerdere paden.

Met de juiste netwerktechniek (redundant NIC-gebruik, MPIO voor opslag) zijn enkelvoudige probleemgebeurtenissen volledig te overleven. In mijn tijd met deze systemen had ik de volgende problemen, waarvan er geen meer dan één blad beïnvloedde:

  • Twee voedingseenheden falen in de meshouder. Er was voldoende overtolligheid in de andere 4 om de belasting te ondersteunen.
  • Een fase verliezen voor een 3-fasen voeding. Deze benodigdheden zijn tegenwoordig zeldzaam, maar de andere twee fasen hadden voldoende capaciteit om de lading te ondersteunen.
  • Het verliezen van een inter-chassis management loop. Zo was het jaren voordat een vendor-technicus op een andere oproep het zag.
  • Het verliezen van de inter-chassis management loops volledig. We hebben de toegang tot de beheerconsole verloren, maar de servers bleven lopen alsof er niets aan de hand was.
  • Iemand heeft per ongeluk de backplane van het back-of-rack-netwerk opnieuw opgestart. Alles in dat chassis gebruikte overtollige NIC's, dus ondervond geen onderbreking van de service; al het verkeer verplaatst naar de andere backplane.

Het punt van TomTom over kosten is echter heel waar. Om volledige kostenpariteit te bereiken, moet uw bladechassis volledig zijn geladen en waarschijnlijk geen speciale dingen gebruiken zoals schakelaars achter het rack. Blade-racks zijn logisch in gebieden waar je de dichtheid echt nodig hebt omdat je een beperkte ruimte hebt


19
2017-12-02 17:16



Behalve dat SuperMicro Twin architectuur je twee computers per TU geeft met twee sockets per computer - dat is vergelijkbaar met wat je krijgt met MEESTE blades. het is absoluut zeer dicht;) De enige hogere dichtheid die ik ken zijn de Dell-bladen die klimopbrug gebruiken ... maar ze zijn beperkter in vergelijking. - TomTom
@tomtom maar biedt de supermicro-twin redundante psus? We hebben er net een gebouwd en ik heb die optie nergens gezien. We kochten een koude reserve-psu om bij de hand te hebben, voor het geval dat. - Jeff Atwood
@JeffAtwood, ik heb geen overtollige PSU's gezien in SuperMicro's 1U-tweeling, maar hun lijn van 2U-vierknoops tweeling-tweeling heeft ze wel. Voorbeeld. - Charles
En who cares. Zorg voor een reservevoeding in het rack. Vervanging duurt seconden. - TomTom


Die vraag kan worden uitgebreid tot gedeelde opslag. Nogmaals, ik zou zeggen dat we er twee nodig hebben   opslageenheden in plaats van slechts één - en opnieuw zeggen de verkopers dat deze dingen zo rock zijn   solide, dat geen falen verwacht wordt.

Eigenlijk niet. Je maakt je tot dusverre wijs, deze zin plaatst ze in "lees het spul voor je ogen". HA met volledige replicatie is een bekende bedrijfskenmerk voor opslageenheden. Het punt is dat een SAN (opslageenheid veel complexer is dan een blade-chassis dat aan het eind gewoon "stom metaal" is.) Alles in een blade-chassis behalve enkele backplanes is vervangbaar - alle modules enz. Zijn vervangbaar en individuele blades ZIJN toegestaan ​​om te falen. Niemand zegt dat het midden van het blad op zichzelf de bladen hoge beschikbaarheid geeft.

Dit is heel wat anders dan een SAN waarvan wordt verondersteld dat het 100% van de tijd is - in een consistente staat - dus daar heb je dingen als replicatie etc.

DAT ZEI: let op uw cijfers. Ik heb al geruime tijd overwogen om messen te kopen en ze hebben NOOIT FINANCIËLE ZIN GEMAAKT. Het chassis is gewoon te duur en de messen niet echt goedkoper in vergelijking met normale computers. Ik zou voorstellen om de SuperMicro Twin-architectuur als alternatief te beschouwen.


14
2017-12-02 16:51



Twins en twin-twins (2U 4-node) zijn Super goed alternatieven voor messen. Intel maakt ook een lijn van twin- en twin-twin servers. - Charles
@Charles Kent u de nieuwe dikke tweeling? 8 machines in 4 U;) - TomTom
Ik heb er een gezien, maar heb niet de kans gehad om ermee te spelen of te evalueren. - Charles


De bladeservers waar ik ervaring mee heb, zijn die van IBM. Die specifieke zijn volledig modulair en er is veel redundantie ingebouwd. Dus als iets gaat mislukken, zal het een van de componenten zijn zoals een PSU of een modulaire switch enz. Maar nogmaals, er is zelfs redundantie in die.

Sinds ik bij de IBM-blades betrokken ben, heb ik nog nooit een volledige storing gezien.

Bij de andere merken vermoed ik dat ze op een vergelijkbare manier zouden worden gebouwd.
Het zou een goed idee zijn om ook met een leverancier te praten en veel te lezen.
Het is een grote investering.


4
2017-12-02 20:23





Storingen die leiden tot serverstoringen met meerdere blades in dezelfde behuizing zijn vergelijkbaar (naar waarschijnlijkheid en oorzaak) tot storingen die leiden tot meerdere serverstoringen in hetzelfde rack.

Initiële set-up om single points of failure te minimaliseren (twee scheiden Wisselstroombronnen, die elk de volledige belasting aankunnen, lopen naar gescheiden gelijkstroomvoedingen, zodat de helft van de belasting de volledige lading kan dragen; twee scheiden netwerkbijlagen, die beide de volledige verwachte belasting aankunnen, enz.) en het verschil tussen iets dat alle blades in een chassis verwijdert of alle 2U-servers in een rack is erg klein.


1
2017-12-03 18:45





Een punt van zorg, dat ik vaak in verschillende fora lees, is dat daar   is een theoretische mogelijkheid dat het serverchassis naar beneden gaat - wat   zou bijgevolg alle bladen neerhalen. Dat komt door gedeeld   infrastructuur.

Inderdaad! Ongeveer 5 jaar geleden, tijdens het beheren van twee HP Proliant p-klasse bladbehuizingen, kwam ik meerdere keren problemen met het chassis tegen.

Ik had bladeservers niet kunnen inschakelen, als ze waren uitgeschakeld (servers worden niet vaak uitgeschakeld, maar worden voor ons toch een heel reëel probleem). Ik heb servers ineens uitgeschakeld en niet meer kunnen inschakelen. Ten slotte liet ik alle servers uitschakelen en niet meer kunnen komen.

Zoals ik het me herinner, werden vrijwel alle problemen toegeschreven aan slechte power backplanes of backplanes van de controller. We hadden die een aantal keer vervangen en de niet-specifieke, off-the-record-boodschap die ik van de techneuten kreeg, was dat ze hun deel van de problemen hadden met deze generatie blade-behuizingen.

Ik besloot toen dat het voordeel van bladeservers gewoon niet het risico waard was, als ik iets te zeggen had in toekomstige aankopen.

Snel vooruit naar mijn volgende werkgever, en mijn huidige werkgever trouwens. Ze hadden al HP Proliant c-Class behuizingen draaiende, dus mijn luke gevoel voor bladen deed er niet echt toe. In de 5 jaar dat ik met de c-Class-behuizingen heb gewerkt, heb ik nog nooit zoiets meegemaakt als met de p-Klasse, waar een hele behuizing op mij faalde. Ze hebben zonder grote problemen gerend.

(Met uitzondering van de tijd dat een regenbui regen door het dak liet stromen, 4 verhalen, een klein gat in het zegel van de computerruimte, een kabel naar beneden in het chassis)


1
2017-12-06 23:46





Beide DELL & HP Blade-chassis missen een redundant middenvlak. Dit is waar IBM Bladecenter een winnaar blijkt te zijn. Voor zover ik weet is dit het enige bladchassis dat een overtollig middenvlak biedt. Hoewel HP een fantastische reeks managementsoftware voor de blades biedt, kochten we een Bladecenter E voor ons bedrijf om een ​​enkel storingspunt van het hele chassis te voorkomen.


-1
2017-10-11 19:04



Dit is inderdaad wat het marketingmateriaal van IBM mij vertelt; dat zij de enige leverancier zijn met een volledig redundante blade-oplossing. Na het lezen van de andere berichten in deze thread lijkt het echter ook op de HP-oplossingen. - Martijn