Odebrání a přidání proxmox node zpět do clusteru při debugování potíží

Bymirra

Lis 29, 2023 #proxmox

Komu se nestalo, že nějaká noda zdechla, nebo se „odhlásila“ z clusteru, byla samostatně přístupná, ale zbytku clusteru se hlásila jako červená, tedy nedostupná, tak nepoužíval proxmox.
Tady na obrázku ukazuji nodu 206, ale stejný problém se odehrával u nody 202, která vypadla potom, co jsem updatoval všechny ostatní nody a tuto nodu jsem chtěl updatovat poslední a už se mi ji po updatu nepodařilo dostat zpět do clusteru.

Mě to zdechalo na této hlášce:

permission denied - invalid PVE ticket (401)

Ještě jedna rada, buďte připravení, že jste o nodu i její data mohli přijít, proto se věnujte zálohování a pečlivé záloze obsahu celé nody.

Dle tohoto návodu se přihlašte na terminál „poškozené nody“ v mém případě pve202:

https://pve.proxmox.com/pve-docs-6/chapter-pvecm.html

systemctl stop pve-cluster ; systemctl stop corosync ; mv /etc/pve/corosync.conf   root/  ; mkdir /root/corosync/ ;  mv /etc/corosync/* /root/corosync/ ; killall pmxcfs ; systemctl start pve-cluster

Pak se logněte zpět na první nodu (v našem případě pve201) na terminál, kde zadáte příkaz:

pvecm delnode pve202

Pak se přihlašte na web nody pve201 / klikněte nahoře na cluster / klikněte na join information / copy information

Logněte klidně na web na poškozenou nodu (pve 202) / klikněte nahoře na cluster / join cluster a vložte join information z nody a nodu byste měli mít zpátky v clusteru.

Opravme nodu 206

Logněme na terminál pro node pve201 a zadejme na ni příkaz:
pvecm delnode pve206
vypíše:
Could not kill node (error = CS_ERR_NOT_EXIST)
Killing node 6

Opakovaný kill už potvrdí, že je noda pryč z clusteru:

pvecm delnode pve206
Node/IP: pve206 is not a known host of the cluster.

Mašina je pryč:

A třeba na nodě 206 je úplně nějaká divná konfigurace, že nejde dát join cluster.
Na webu možná nejde dát join cluster, ale příkazem ano.

Na poškozené nodě dejme

pvecm add pve201

Což nám vypíše detected the following error(s):

cluster config ‚/etc/pve/corosync.conf‘ already exists // <- systemctl stop corosync ; rm -rf /etc/pve/corosync.conf
this host already contains virtual guests //musíme najít konfiguráky a přesunout je pryč
Check if node may join a cluster failed!

řešení na nodě, kterou jsme odebrali z clusteru:

pvecm status
Error: Corosync config ‚/etc/pve/corosync.conf‘ does not exist – is this node part of a cluster?

Teď je čas na zálohu virtuálky:

ls /etc/pve/qemu-server
100.conf
přesuňme soubor třeba do /root/

Z tohoto zdroje rada:

– stop all the VMs on the joining node
– move the VMs descriptors within /etc/pve/nodes/[NODENAME]/qemu-server to /home/_cluster_bck
– join the cluster
– copy the backup VMs descriptors back to /etc/pve/nodes/[NODENAME]/qemu-server

např:
mv /etc/pve/nodes/pve*/qemu-server /root/

Připojte nodu zpět do clusteru (klidně už i přes web) a máte hotovo:

V čem byl háček u mě? v /etc/pve/nodes/pve20*/qemu-server/ se nacházely .conf soubory, já je přesunul pryč. A pak už to šlo.

Zde ukázka hezkého videonávodu pro vás ostatní

zdroj1 zdroj2 zdroj3

By mirra

Hardwaru a počítačům se věnuji již od roku 2003. Za tu dobu jsem poskládal stovky počítačů, opravil tisíce počítačů a vyřešil nespočetně problémů, vad a chyb, se kterými se setkávali uživatelé. Od roku 2005 se zabývám servery, zejména těmi herními, v roce 2007 jsem se začal věnovat Valve Source SDK level designu, který šel od roku 2009 k ledu kvůli studiu Informatiky na univerzitě. Podílel jsem se chvíli i na provozu síťové laboratoře MENDELU, dnes spravuji v jedné osobě cca 100 serverů/diskových polí na univerzitě, řeším IT v malých a středních firmách tak, aby firmy ušetřily nemalé částky při zlepšení kvality a soustředím se na snižování nákladů na IT od licencí až po hardware, software, provádím konsolidace a audity platnosti licencí, které firmám šetří rovněž nemalé peníze. Z velkých firem jsem měl příležitost s dalšími kolegy řešit správu 8000 serverů po celé západní Evropě s vysokou mírou automatizace a poznávání nejrůznějších evropských pracovních mentalit. Dále jsem řešil hybridní cloud ve velké firmě, orientované na trhy střední a východní Evropy. Posledních několik let se věnuji Devops pro velké zákazníky v Azure cloudu, spravuji kubernetes (AKS), Gitlab.

Virtualizace

kvalitninavody.cz

Odebrání a přidání proxmox node zpět do clusteru při debugování potíží

Bymirra

Opravme nodu 206

By mirra

Related Post

Epicky zaseknutý Proxmox VE – jak ho restartovat, když nejde restartovat

Zvětšili jste KVM image víc, než jste chtěli a teď to před zapnutím chcete napravit? Ukážeme si jak na to

Závěr z používání Ceph na proxmox: odolný, ale bez SSD disků a 10Gbps sítě to ani nezkoušejte

Napsat komentář Zrušit odpověď na komentář

You missed

Azure: This cluster is in a failed state. If you didn’t do an operation, AKS may resolve the provisioning status automatically if your cluster applicatins continue to run.

Úvod do umělé inteligence (AI): Díl 3. Ladíme rychlost LLM na vašem počítači QWEN-2.5 32B

mount(2) system call failed: No route to host.dmesg(1) may have more information after failed mount system call.

Epicky zaseknutý Proxmox VE – jak ho restartovat, když nejde restartovat