So. Pro 21st, 2024

Popis závady:

nenadálý hard reset počítače s Linuxem, po rebootu první výpis errorové hlášky:

20:27 mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1671218864 SOCKET 0 APIC 8 microcode 8001138 kernel
20:27 mce: [Hardware Error]: TSC 0 ADDR 1ffffa72b6ff8 MISC d012000100000000 SYND 4d000000 IPID 500b000000000 kernel
20:27 mce: [Hardware Error]: CPU 2: Machine Check: 0 Bank 5: bea0000000000108

Stroj se záhadně resetuje z ničeho nic, v logu jsem velmi těžko a dlouho nebyl schopen nic nalézt, co by mě vedlo k řešení, až jsem našel řádky uvedené výše. Přičemž stejný stroj na Windows 10 prošel 48 hodinovým stress testem v OCCT, AIDA 64 stress test, memtestu naprosto bez problémů a stabilně. Problém se nachází skutečně pouze v Linuxu.

Procesory, na kterých se totéž stalo:

Ryzen 3 1200
Ryzen 5 5600x
Základní desky, na kterých se totéž odehrálo:
Asrock B450 PRO 4 (bios z konce roku 2019)
Gigabyte AB350 Gaming 3 (F52H nejnovější bios toho času)

Operační systém a Kernel, ve kterém se mi tohle stávalo:
Debian 10 Buster
Linux 4.19.0-22-amd64 #1 SMP Debian 4.19.260-1 (2022-09-29) x86_64 GNU/Linux

Dovedlo mě to k těmto diskusím, kde jsem se dozvěděl, že mám v biosu zakázat C-states:

https://forums.unraid.net/topic/46802-faq-for-unraid-v6/page/2/#comment-819173

Další uživatelé v Linuxové komunitě radili nejnovější BIOS, (ten již mám v době resetování stroje a nemělo to vliv na řešení).

Nemá na to vůbec žádný vliv povolování/zakazování IOMMU.

Ale to nejdůležitější, co mi pomohlo, je tato diskuse na Fedora projektu:

https://ask.fedoraproject.org/t/fedora-is-very-unstable-on-my-computer-help/9230/5

Cituji v této pasáži uživatele Sergio Correia (kterého tímto zdravím a děkuji):

random-reboots-while-idle is a known issue with 1st gen Ryzen.

Look in your BIOS for an option called Power Supply Idle Control or something similar and set it to Typical current idle. My mobo is an ASRock as well, but a different model; this option for me is under Advanced->AMD CBS->Zen Common Options. Hope it helps.“

zdroj

Ukázka nastavení v biosu (Gigabyte AB350 Gaming 3 rev 1.0 bios F52H):

Snad tento článek pomůže ostatním z Vás, komu se z ničeho nic restartuje počítač a v logu po rebootu velmi těžko nacházíte jakékoliv errory. Budu situaci dál sledovat a kdyby to nepomohlo a zabralo nakonec něco jiného, tak se článek pokusím doplnit. Pokud k tomuto článku již nikdy nic nedoplním, tak vězte, že uvedené řešení platí a funguje.

Avatar

By mirra

Hardwaru a počítačům se věnuji již od roku 2003. Za tu dobu jsem poskládal stovky počítačů, opravil tisíce počítačů a vyřešil nespočetně problémů, vad a chyb, se kterými se setkávali uživatelé. Od roku 2005 se zabývám servery, zejména těmi herními, v roce 2007 jsem se začal věnovat Valve Source SDK level designu, který šel od roku 2009 k ledu kvůli studiu Informatiky na univerzitě. Podílel jsem se chvíli i na provozu síťové laboratoře MENDELU, dnes spravuji v jedné osobě cca 100 serverů/diskových polí na univerzitě, řeším IT v malých a středních firmách tak, aby firmy ušetřily nemalé částky při zlepšení kvality a soustředím se na snižování nákladů na IT od licencí až po hardware, software, provádím konsolidace a audity platnosti licencí, které firmám šetří rovněž nemalé peníze. Z velkých firem jsem měl příležitost s dalšími kolegy řešit správu 8000 serverů po celé západní Evropě s vysokou mírou automatizace a poznávání nejrůznějších evropských pracovních mentalit. Dále jsem řešil hybridní cloud ve velké firmě, orientované na trhy střední a východní Evropy. Posledních několik let se věnuji Devops pro velké zákazníky v Azure cloudu, spravuji kubernetes (AKS), Gitlab.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *