Pá. Dub 4th, 2025
zaseknutý terminál proxmoxu, který nejde rebootovat, příkaz reboot hlásí chybu a server se odmítá rebootovat

Přátelé, tohle byl kvalitní fail. Pochlubím se s autentickým screenshotem plným zoufalosti. Pouštím ansible skript na infrastruktuře a jedna mašina nenatáhla instalaci SIEM wazuh-agenta pro propojení s Wazuh serverem. Lognu na mašinu a tam vidím tohle:

Totálně zaseknutý Proxmox VE 8.x, který nejde ani restartovat, call to Reboot failed: Access denied.

Vyzkoušel jsem vše, co mě napadlo. Příkaz reboot, příkaz systemctl reboot, evidentně volá totéž, loginctl reboot byla blbost, co mi poradilo ChatGPT a pak jsem zavolal tento příkaz, který vidíte na konci.

A výsledek? Víc než příznivý, sestřelilo to celou mašinu téměř instantně.

Řešení, které funguje

Ale pokud vám tam jela nějaká VMka, tak se s jejich během rozlučte, nebo se je pokuste ještě přemigrovat, dokud máte šanci pomocí qm příkazů v terminálu. Já měl štěstí, na této mašině nic nejelo.

echo 1 > /proc/sys/kernel/sysrq
echo b > /proc/sysrq-trigger

Rada na závěr

Kdykoliv máte nějaké servery, nechte je pár týdnů, nebo měsíců běžet, ať vám povypadávají disky, „než si to sedne“, než se objeví problémy, než tam přemigrujete produkční provoz, poděkujete mi později, protože tohle je milionová rada, která vám možná zachrání produkci.
Není nic horšího, než když nakoupíte nové, či servery z druhé ruky a těsně po rozběhu na to začnete stěhovat služby a za pár týdnů vám taková produkce zdechne, pokud nemáte dostatečně dobře pořešenou redundanci.

Proč servery z ničeho nic umřou?

Je to dáno několika faktory. Servery se při stěhování lehce prohýbají, prohyb může být pouze o zlomky milimetrů, ale ve finále může způsobit okem neviditelné problémy, které se projeví až při dlouhodobějším provozu. Totéž se týká pevných disků. Víte, jak se z disky zacházelo, než je vám doručili? Nespadla při překládání někomu paleta se všemi disky, které jste koupili? Kde máte jistotu, že se s disky při přepravě nezacházelo způsobem, kvůli kterému byste je odmítli do serverů vložit, natož používat?
Nemáte a proto s tím musíte počítat a nechat servery, stejně jako kvalitní víno, či whiskey tzv. vydechnout. Takže zapojit, nakonfigurovat, spustit, mít pár dní, nebo aspoň pár týdnů nějaký nekritický provoz a teprve potom, když víte, že žádný ze serverů nemá potíže, teprve pak je zařadit do produkce a používat je jako produkční mašiny, na které se můžete spolehnout.

Avatar

By mirra

Hardwaru a počítačům se věnuji již od roku 2003. Za tu dobu jsem poskládal stovky počítačů, opravil tisíce počítačů a vyřešil nespočetně problémů, vad a chyb, se kterými se setkávali uživatelé. Od roku 2005 se zabývám servery, zejména těmi herními, v roce 2007 jsem se začal věnovat Valve Source SDK level designu, který šel od roku 2009 k ledu kvůli studiu Informatiky na univerzitě. Podílel jsem se chvíli i na provozu síťové laboratoře MENDELU, dnes spravuji v jedné osobě cca 100 serverů/diskových polí na univerzitě, řeším IT v malých a středních firmách tak, aby firmy ušetřily nemalé částky při zlepšení kvality a soustředím se na snižování nákladů na IT od licencí až po hardware, software, provádím konsolidace a audity platnosti licencí, které firmám šetří rovněž nemalé peníze. Z velkých firem jsem měl příležitost s dalšími kolegy řešit správu 8000 serverů po celé západní Evropě s vysokou mírou automatizace a poznávání nejrůznějších evropských pracovních mentalit. Dále jsem řešil hybridní cloud ve velké firmě, orientované na trhy střední a východní Evropy. Posledních několik let se věnuji Devops pro velké zákazníky v Azure cloudu, spravuji kubernetes (AKS), Gitlab.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *