Vraag Is het veilig om consumenten-MLC SSD's op een server te gebruiken?


Wij (en wij bedoel ik Jeff) onderzoeken de mogelijkheid om Consumer MLC SSD-schijven te gebruiken in ons back-updatacenter.

We willen proberen de kosten laag te houden en de bruikbare ruimte te verhogen - dus zijn de Intel X25-E's ongeveer elk ongeveer 700 $ en 64 GB aan capaciteit.

We denken erover om een ​​aantal SSD's voor een lager niveau te kopen die meer capaciteit bieden tegen een lagere prijs. Mijn baas denkt niet dat het uitgeven van ongeveer 5k voor schijven op servers met een back-up datacenter de investering waard is.

Deze schijven worden gebruikt in een 6-schijfs RAID-array op een Lenovo RD120. De RAID-controller is een Adaptec 8k (gerebrand Lenovo).

Hoe gevaarlijk is een aanpak en wat kan worden gedaan om deze gevaren te verminderen?


44
2018-02-01 20:48


oorsprong


Wat is de reden voor het gebruik van SSD in plaats van spinners? De volkswijsheid over SSD-prestaties is "betalen of niet storen", maar er zijn zeker andere aspecten die een voordeel kunnen zijn. - peterchen
Ik ben nieuwsgierig naar het probleem dat je hier probeert op te lossen. Als het gewoon een van de kosten is, waarom worden dan SSD's overwogen in plaats van conventionele schijven? - John Gardeniers
@peterchen, u kunt een paar SSD's of vijftig 15K-spillen gebruiken. - Mircea Chirea
@iconiK - bedoel je "voor een server moet je toch veel geld uitgeven"? Als dat zo is - ja, dat is waarom ik me ook afvroeg. - peterchen


antwoorden:


Een paar gedachten;

  • SSD's hebben een 'overcommit'-geheugen. Dit is het geheugen dat wordt gebruikt in plaats van cellen die 'beschadigd' zijn door te schrijven. Low-end SSD's hebben mogelijk maar 7% van de overcommit space; gemiddeld rond de 28%; en enterpriseschijven maar liefst 400%. Overweeg deze factor.
  • Hoeveel schrijf je ze per dag? Zelfs middelgrote SSD's, zoals die op basis van de 1200 chips van Sandforce, waarderen zelden meer dan ongeveer 35 GB schrijfwerk per dag voordat ze serieus in het overbelaste geheugen snijden.
  • Meestal staat dag 1 van een nieuwe SSD vol met schrijven, of dat nu OS of gegevens zijn. Als u op de eerste dag aanzienlijk meer dan> 35 GB aan schrijfbewerkingen hebt, kunt u overwegen deze in batches te kopiëren om de SSD een zekere 'opruimtijd' tussen de batches te geven.
  • Zonder TRIM-ondersteuning kunnen willekeurige schrijfprestaties binnen enkele weken met 75% afnemen als er tijdens die periode veel wordt geschreven. Gebruik zo mogelijk een besturingssysteem dat TRIM ondersteunt.
  • De interne garbagecollectieprocessen die moderne SSD's uitvoeren, worden heel specifiek gedaan tijdens stille perioden en stoppen op activiteit. Dit is geen probleem voor een desktop-pc waar de schijf 60% van zijn gebruikelijke 8-uurs duty-cycle stil kan zijn, maar u voert een 24-uurs service uit ... wanneer krijgt dit proces de kans om uit te voeren?
  • Het is meestal diep begraven in specificaties, maar net als goedkope 'gewone' schijven, wordt van goedkope SSD's ook verwacht dat ze slechts een duty cycle hebben van ongeveer 30%. Je zult ze bijna 100% van de tijd gebruiken - dit heeft invloed op je MTBF-snelheid.
  • Hoewel SSD's niet dezelfde mechanische problemen hebben als reguliere schijven, hebben ze wel enkele en meervoudige bitsfouten - dus overweeg hen RAIDEN, ook al is het instinct niet de bedoeling. Het zal duidelijk van invloed zijn op al die mooie willekeurige schrijfsnelheid die je net hebt gekocht, maar denk er toch over na.
  • Het is nog steeds SATA, niet SAS, dus je wachtrijbeheer zal niet zo goed zijn in een serveromgeving, maar aan de andere kant is de extra prestatieverbetering behoorlijk dramatisch.

Veel succes - gewoon 'frituren' ze niet met schrijven :)


61
2018-02-01 21:09



Bedoel je 400% voor de extra ruimte, oftewel 40%? Ik ging je antwoord bewerken maar kon geen citaat vinden, dus ik denk dat het 400% zou kunnen zijn. (Het is overigens een heel goed punt) - ChrisInEdmonton
Het is ook niet altijd duidelijk of TRIM wordt ondersteund op een RAID-configuratie. Onthoud dat de SSD's met RAID van het besturingssysteem zijn geabstraheerd. Zorg ervoor dat u contact opneemt met de RAID-leverancier. - Matt Sherman
Ik bedoelde 400 Chris, met name degenen die worden gebruikt in FC SAN's, erg duur echter. - Chopper3
Een truc om meer reserveruimte uit een schijf te krijgen, is door het veilig wissen te doen en het vervolgens te partitioneren met een groot deel ongebruikt. Deze vrije ruimte zal bijdragen aan de prestaties en levensduur van de SSD. - Zan Lynx
Ik wil +1 met @ZanLynx. Gewoonlijk partitioneer ik ongeveer 80% van de schijf wanneer ik SSD + Raid gebruik. - Tracker1


Ik vond deze link, die een interessante en grondige analyse van MLC vs SLC SSD's in servers

Naar mijn mening is het gebruik van een MLC flash SSD-array voor een bedrijfsapplicatie zonder ten minste de (geclaimde) versleten verzachtende effecten van een technologie als Easyco's MFT te gebruiken, vergelijkbaar met het uit een vliegtuig springen zonder parachute.

Merk op dat sommige MLC SSD-leveranciers beweren dat hun schijven voldoende "enterprisey" zijn om de geschriften te overleven:

SandForce wil het eerste bedrijf zijn met een controller die multi-level cel-flashchips ondersteunt voor solid-state drives die worden gebruikt in servers. Door gebruik te maken van MLC-chips, maakt de SF-1500 de weg vrij voor lagere kosten en hogere dichtheidsdrives die servers-makers willen.   Tot nu toe hebben flashdrives voor servers gebruik gemaakt van single-level celflash-chips. Dat komt omdat het uithoudingsvermogen en de betrouwbaarheid voor MLC-chips over het algemeen niet voldoen aan de vereisten van servers.

Er is een verdere analyse van deze claims bij AnandTech.

Bovendien is Intel nu op de hoogte en zegt dat SLC kan 90% van de tijd servers overbelasten:

"We dachten dat SLC [single-level cell] nodig was, maar wat we vonden door studies met Microsoft en zelfs Seagate, is dat deze high-compute-intensieve applicaties echt niet zoveel schrijven als ze dachten," zei Winslow. "Negentig procent van de datacentertoepassingen kan deze MLC [multilevel cell] -drive gebruiken."

.. het afgelopen jaar of zo zijn leveranciers gaan erkennen dat ze door speciale software te gebruiken in de drive controllers de betrouwbaarheid en veerkracht van hun MLC SSD's van consumentenklasse kunnen verhogen tot het punt dat bedrijven ze hebben omarmd voor krachtige datacenterservers en opslagarrays. SSD-leveranciers zijn begonnen met het gebruik van de term eMLC (enterprise MLC) NAND-flash om die SSD's te beschrijven.

"Vanuit een volumeperspectief zien we dat er echt high-write-intensieve, high-performance computeromgevingen zijn die mogelijk nog steeds SLC nodig hebben, maar dat behoort tot de top 10% van zelfs de vereisten voor enterprise datacenter," zei Winslow.

Intel voedt die hogere 10% van de enterprise datacenter-markt via haar joint venture met Hitachi Global Storage Technologies. Hitachi produceert de SSD400S-lijn van Serial Attached SCSI SSD's, die 6 Gbit / sec heeft. doorvoersnelheid - tweemaal die van zijn MLC-gebaseerde SATA SSD's.

Intel, zelfs voor hun op de server georiënteerde SSD-schijven, heeft gemigreerd van SLC naar MLC met een zeer hoge "overprovisioning" -ruimte met de nieuwe Intel SSD 710-serie. Deze schijven wijzen intern maximaal 20% van de totale opslag voor redundantie toe:

Prestaties hebben geen topprioriteit voor de SSD 710. Integendeel, Intel streeft naar een uithoudingsvermogen op SLC-niveau tegen een redelijke prijs door het gebruik van goedkopere eMLC HET NAND. De SSD 710 ondersteunt ook door de gebruiker te configureren overprovisioning (20%), waardoor het uithoudingsvermogen van de aandrijving aanzienlijk toeneemt. De garantie van de SSD 710 is 3 jaar of totdat een slijtage-indicator een bepaald niveau bereikt, afhankelijk van wat zich het eerst voordoet. Dit is de eerste keer dat we SSD-garantie op deze manier hebben beperkt.


12
2018-02-01 22:07





Baseer dit soort dingen altijd op feiten in plaats van op veronderstellingen. In dit geval is het gemakkelijk om feiten te verzamelen: noteer long-time lees / schrijf IOPS-profielen van uw productiesystemen en zoek vervolgens uit met wat u kunt meemaken in een noodherstelscenario. Je zou iets als het 99e percentiel moeten gebruiken als je meting. Do niet gebruik gemiddelden bij het meten van IOPS-cpacity - de pieken doen er allemaal toe! Dan moet je de benodigde capaciteit en IOPS kopen voor je DR-site. SSD's zijn misschien de beste manier om dat te doen, of misschien niet.

Dus als uw productieapplicaties bijvoorbeeld 7500 IOPS vereisen bij het 99e percentiel, kunt u besluiten dat u bij 5000 ramps met 5000 IOPS kunt leven. Maar dat is op zijn minst 25 15K-schijven nodig op uw DR-site, dus SSD is misschien een betere keuze als uw capaciteitsbehoeften klein zijn (klinkt alsof ze zijn). Maar als je alleen meet dat je 400 IOPS in productie hebt, koop dan gewoon 6 SATA-schijven, bespaar jezelf wat geld en gebruik de extra ruimte voor het opslaan van meer backup-snapshots op de DR-site. U kunt ook lees- en schrijfbewerkingen in uw gegevensverzameling scheiden om erachter te komen hoe lang niet-zakelijke SSD's zullen duren voor uw werklast op basis van hun specificaties.

Onthoud ook dat DR-systemen mogelijk minder geheugen hebben dan productie, wat betekent dat er meer IOPS nodig zijn (meer swapping en minder cache voor bestandssysteem).


7
2018-02-02 05:05





Zelfs als de MLS SSD slechts één jaar heeft geduurd, zullen de vervangingen in een jaar tijd een stuk goedkoper zijn. Kun je het hoofd bieden aan de vervanging van de MLS SSD als ze uitkomen?


5
2018-02-02 13:04



een goed punt, vooral omdat ze zich in een RAID-array bevinden. Zolang 'te veel' ervan niet meteen falen, is dit eigenlijk aannemelijk. - Jeff Atwood
@Jeff, als je wat in en uit kunt wisselen met je desktop pc's, zodat niet iedereen de een of andere gebruikspatroon krijgt, zal dit het minder fel maken, ze zullen allemaal tegelijkertijd falen. - Ian Ringrose
@Jeff, ik denk voor een groot deel, Fail == "begin zeer trage rechten te doen" in plaats van "dan" geen gegevens " - Ian Ringrose
hou je niet van automatische correctie :-) - Jeroen Wiert Pluimers


Als we het probleem met de schrijfhoeveelheid terzijde schuiven (of bewijzen dat SSD's op consumentenniveau dit aankunnen), denk ik dat SSD's een goede zaak zijn om toe te voegen aan omgevingen op bedrijfsniveau. Waarschijnlijk gebruikt u de SSD's in een RAID-array. RAID5 of RAID6. En het probleem hiermee is dat na een storing in de drive de array steeds kwetsbaarder wordt voor fouten. En de tijd om het opnieuw te bouwen is sterk afhankelijk van het volume van de array. Een aantal TB-arrays kan dagen nodig hebben om opnieuw opgebouwd te worden, terwijl ze constant toegankelijk zijn. In het geval van SSD's zullen de RAID-arrays a) onvermijdelijk kleiner zijn b) de herbouwtijd neemt drastisch af.


3
2018-02-01 22:20





Een whitepaper over de verschillen tussen SLC en MLC van SuperTalent zet het uithoudingsvermogen van MLC en een 10e van het uithoudingsvermogen van een SLC SSD, maar de kans is groot dat de MLS SSD's overleven de hardware waarin je ze in hoe dan ook plaatst. Ik weet niet zeker hoe betrouwbaar die statistieken / feiten zijn van SuperTalent.

Ervan uitgaande dat u een vergelijkbaar niveau van ondersteuning krijgt van de leverancier van de MLC SSD's, maakt de lagere prijs het een poging waard.


3
2018-02-01 21:05



Er is melding gemaakt van een levensduur van 5 jaar voor typisch desktopgebruik. Als dat een juiste schatting is, zullen ze de server niet overleven in een datacenteromgeving! - JamesRyan
@JamesRyan: Hoewel niet weergegeven in de meeste berekeningen, is de levensduur erg afhankelijk van de fractie vrije ruimte. - Ben Voigt
In de organisaties waar ik voor heb gewerkt, hebben we de serverhardware altijd na drie jaar vernieuwd. Ik had de indruk dat dit de algemeen gangbare praktijk was, maar corrigeer me als ik het mis heb. - chunkyb2002


Je moet gewoon de hoeveelheid dagelijkse schrijfacties berekenen die je hebt met je huidige set-up en dat vergelijken met wat de fabrikant garandeert dat zijn SSD-schijven kunnen werken. Intel lijkt hier het meest van op de hoogte te zijn - kijk bijvoorbeeld naar hun mainstream SSD-gegevensbladen: http://www.intel.com/design/flash/nand/mainstream/technicaldocuments.htm

Sectie 3.5 (3.5.4, specifiek) van het specs document zegt dat je gegarandeerd je schijf minstens 5 jaar laat hebben met 20 GB schrijfwerk per dag. Ik ga ervan uit dat dit wordt berekend als je de volledige schijfcapaciteit gebruikt en geen vrije ruimte biedt voor het schrijven van jezelf.

Ook interessant is de datasheet over het gebruik van standaard SSD's in een bedrijfsomgeving.


3
2018-02-02 12:15



Helaas is het helemaal niet zo eenvoudig, omdat slijtage-nivellering het schrijven versterkt (onthoud dat het is ontwikkeld om het schrijven te verspreiden en niet te verminderen) op een manier die eigen is en enorm kan variëren in de effectiviteit ervan op basis van het gebruikspatroon. - JamesRyan
Hm, heel goed punt. Als u de opdracht TRIM verliest bij gebruik van de schijfeenheden in een RAID-opstelling, moet ook de schrijfversterking toenemen. Ik vermoed dat het allemaal neerkomt op het idee van elke fabrikant van het typische gebruikspatroon. - cearny


Ik heb een paar jaar geleden een paar 32-Gb SLC-schijven ingezet als buffer voor een of andere vreselijk slecht ontworpen app die we gebruikten.

De applicatie bestond voor 90% uit kleine schrijfbewerkingen (<4k) en liep consequent (24/7) met 14 k w / s eenmaal op de SSD-schijven. Ze waren geconfigureerd als RAID 1, alles was rooskleurig, de latentie was laag!

Maar ongeveer een maand later en de eerste rit volgepakt, letterlijk binnen 3 uur, was de tweede rit ook gestorven. RAID 1 is toch niet zo'n goed plan :)

Ik zou het eens zijn met de andere posters op een soort RAID 6 als niets anders het verspreidt naar meer schijven.

Houd er nu rekening mee dat dit een paar jaar geleden was en deze dingen zijn nu veel betrouwbaarder en u hebt mogelijk geen vergelijkbaar I / O-profiel.

De app is opnieuw ontworpen, maar als een stopkloof die je wel of niet kan helpen, hebben we een grote ramschijf gemaakt, een aantal scripts gemaakt om de ramschijf opnieuw te maken / te back-uppen en de hit van een uur verlies te nemen aan gegevens /hersteltijd.

Nogmaals, uw levenscyclus van uw gegevens kan anders zijn.


2
2017-08-03 19:33