Questa pagina spiega come eseguire il debug dei problemi relativi ai nodi su Google Distributed Cloud (solo software) per VMware utilizzando una suite di strumenti di debug preinstallati.
Se hai bisogno di ulteriore assistenza, contatta Assistenza clienti Google Cloud.Panoramica
Ogni cluster Google Distributed Cloud che crei è composto da diversi
nodi. Ogni nodo include una distribuzione
CoreOS toolbox
, una shell
script che decomprime ed esegue un container di debug, debug-toolbox
.
debug-toolbox
è un'immagine container che include diversi utili funzioni di debug
strumenti.
Se riscontri problemi con un nodo specifico, puoi provare a eseguire il debug
connettendoti al nodo interessato, esegui lo script toolbox
per decomprimere ed eseguire
debug-toolbox
ed esegui gli strumenti inclusi nel container.
Strumenti inclusi in debug-toolbox
contenitore
Il container debug-toolbox
esegue un'immagine di base Debian che include
i seguenti pacchetti:
- bash
- curl
- dnsutils
- hping3
- iperf3
- lsof
- netcat
- mtr
- procp
- Strace
- tcpdump
- traceroute
- util-linux
Poiché questi strumenti sono inclusi nel container, non richiedono una connessione a internet
connessione. Se vuoi installare altri strumenti di debug, utilizza
apt-get
, che richiede una connessione a internet.
Uso: toolbox
Esegui il comando
toolbox
:sudo toolbox
Questo comando avvia un container
debug-toolbox
.Una volta all'interno del container, esegui uno degli strumenti. Ad esempio:
tcpdump
.Al termine, esci dal container e chiudi la connessione SSH nodo.
Rilevatore problemi nodo
Rilevamento problemi dei nodi,
che è abilitato per tutti i nodi in un cluster, aiuta a rilevare rapidamente
di alcuni problemi comuni relativi ai nodi. Il rilevatore di problemi con i nodi continua a verificare la presenza di possibili
risolvere problemi e generare report come gli eventi e le condizioni sul nodo. Se un nodo
si comporta in modo anomalo, puoi verificare se il rilevatore di problemi del nodo ha rilevato il problema
che esegue kubectl describe
sul nodo e cerca gli eventi corrispondenti
e condizioni ambientali.
I monitor del rilevatore di problemi del nodo generano diverse condizioni sul nodo. Se
la condizione segnalata è KubeletUnhealthy
o ContainerRuntimeUnhealthy
, un
del servizio systemd
corrispondente (kubelet o Docker) potrebbe essere utile
per ripristinare l'integrità del nodo.
A partire da Google Distributed Cloud versione 1.5, kubelet e docker
La riparazione automatica dei servizi di sistema è abilitata nel rilevatore di problemi dei nodi. Se
Il rilevatore di problemi con il nodo rileva un KubeletUnhealthy
o
ContainerRuntimeUnhealthy
sul nodo, prova a riavviare
automaticamente kubelet o docker se la durata dall'ultimo riavvio è
al di sopra di una determinata soglia.