Vraag Is het op een dubbele CPU-server normaal dat de ene CPU heter is dan de andere?


Ik heb een dubbele Opteron-server met Linux met libvirt om meerdere VM's te hosten. De VM's werken goed en de server verwerkt OK, maar ik merk dat één CPU altijd ongeveer 69C draait (throttles bij 70C) en de andere ongeveer 15C.

Dit lijkt mij niet normaal? Zouden ze niet allebei een beetje dichter bij de temperatuur moeten zijn?

Ik weet niet zeker hoe ik verder moet gaan met dianose. Misschien is er niet genoeg thermische pasta op een van de CPU's?

Bewerken: het moederbord is ASUS KGPE-D16 en afgekoeld door dubbel Noctua NH-U9DO fans.

Merk op dat ik denk dat de temperaturen misschien boven de omgevingscondities liggen in plaats van absolute waarden? Wanneer de server stationair draait, dalen de CPU-temperaturen tot 2C en 13C. Ik gebruik de lmsensors-configuratie van hier


47
2017-11-27 12:28


oorsprong


Wat is het merk / model van de server? - ewwhite
Hoe is de distributie van CPU-belasting? mpstat -P ALL 1 op Linux zal helpen - Christopher Perrin
klinkt als gebroken temperatuursensor - matcheek
15C is zeer waarschijnlijk een gebroken censor .... - Reaces
Het lijkt een gebroken of slecht gekalibreerde sensor, als u de server opnieuw kunt opstarten, bekijkt u de BIOS die de juiste waarden moet weergeven.


antwoorden:


Het probleem was uiteindelijk een slecht passend koellichaam. Misschien is slecht passen niet de juiste beschrijving. Blijkt dat je thermische pasta op de heatsink moet doen, niet de plastic hoes die over de heatsink gaat.

enter image description here

Na het verwijderen van de plastic hoes is de CPU lekker koel, bedankt iedereen!


106
2017-11-28 00:18



+1 gewoon omdat het grappig is - HBruijn
Bedoel je dat iemand de plastic hoes op zijn plaats heeft gelaten en er dan pasta op heeft gedaan en de koellichaam daarop heeft gezet? Epic. - TomTom
Baaaaaahaaahaaahahahaa !! - Craig
Ik hou ervan hoe je de algemene voorwaarden, het beperkte garantie- en retourbeleid op de achtergrond kunt bekijken. :) - Lightness Races in Orbit
Als je je minder dommer voelt (en dat zal niet gebeuren), deed ik iets soortgelijks met mijn nieuwe koffiezetapparaat op kantoor. De koffie was te koud om te drinken en ik was hem weer inpakken voor terugkeer naar de winkel voordat een schijfje beschermend karton van het verwarmingselement viel :) - Martin James


In mijn ervaring is het normaal dat gepaarde componenten in een behuizing op verschillende temperaturen draaien, omdat de luchtstroom niet overal hetzelfde is. Hier is een grafiek van de HDD-temperatuur uit mijn colo-box. De schijven worden gespiegeld, dus de werkbelasting is vrijwel identiek.

munin graph of HDD temps over past year

Zoals je kunt zien, volgen ze elkaar op, maar ze zijn niet hetzelfde; ze zijn ook gemiddeld slechts 6C uit elkaar. Of uw sensoren nu een absolute temperatuur of oververhitting rapporteren, een verschil van 55C onder belasting lijkt heel erg verkeerd. Als je vertrouwen hebt, hebben de gegevens gelijk, en als het rustdeverschil tot 10C daalt, wat het verschil is dat ik zie als gevolg van luchtstroming, zou ik een slecht passend koellichaam verwachten.


23
2017-11-27 12:53



Met behulp van mpstat (van Christopher Perrin, bedankt!) Heb ik bevestigd dat de belasting redelijk gelijkmatig is verdeeld. De dingen zijn nu inactief op + 3C en + 20C. Ik ga proberen met het heatsink te spelen om te zien of het los zit. Denk je dat het een kwestie van koelpasta kan zijn? - samoz
Dat is heel goed mogelijk (en nog meer nadat je ermee begint te wiebelen). - MadHatter


Het is niet. Tenzij je ernstige problemen hebt met de luchtstroom. Of een van de koelers is slecht. Temperatuur ZAL variëren - maar niet zo veel (70 versus 15 graden Celsius).

Gegeven hoe laag 15 graden is, zou ik aannemen (a) dat je sensor uit staat (bewaar je de server echt in een die koele kamer?).

Ik zou ook aannemen dat een van de CPU helemaal geen werk heeft, om welke reden dan ook.

Kleine verschillen zijn normaal. Sommige kleine grotere kunnen zijn (luchtstroom komt in mijn gedachten). maar hier hebben we het over één die KOUD is.


7
2017-11-27 12:31





Dit kan zowel koelen als ongelijkmatig laden zijn (gezien het tijdelijke verschil is uw situatie waarschijnlijk ongelijkmatig geladen). Je moet iets als prime95 gebruiken om alle kernen gelijkmatig te laden en te kijken of de temps nog steeds variëren. Als dat niet het geval is, moet u de VM's in evenwicht brengen, controleren of uw apps multithreaded en bezet zijn. Hoe dat te doen hangt af van je software en individuele werkbelasting, dus dat valt echt buiten het bestek van de vraag. Houd in gedachten dat er geen echt voordeel is om dit te doen als je niet genoeg belasting hebt om een ​​enkele cpu / kern te overtreffen, in feite kan je VM opzettelijk vermijden om een ​​tweede CPU te gebruiken, zodat het in energiebesparende modi op multi kan gaan -cpu-systemen.

Als je het hebt versmald tot koeling. Een klein verschil van maximaal 10C kan te weinig (of te veel!) Koelpasta zijn. Een groter verschil duidt op een aanzienlijk probleem of verschil tussen cpu-koelers. Het kan zijn dat iemand de luchtstroom heeft geblokkeerd, een heatsink is losgeraakt, enz.


2
2017-11-27 12:38





Ik zou moeten instemmen met, defecte temp. sensor, omdat 15C slechts 59F is !!! Tenzij de computer zich in een extreem ijskoud datacenter bevindt, zou ik me voorstellen dat de omgevingstemperatuur hoger zou zijn dan 59F! U probeert de VM's toe te wijzen aan de kern van lage temperatuur en te zien of er enige verandering is; zo niet, dan zou ik zeer vermoed hebben dat de sensor defect is.

Misschien wilt u ook kijken naar de uitvoer van dmesg (boot berichten) en kijk of daar iets ongewoons is.


0
2017-12-01 11:42