管理人なにが起きたか説明は? (185)

←← 掲示板一覧に戻る ← スレッド一覧に戻る

111 エッヂの名無し 2025/11/19(水) 23:16:44.064 ID:kNjsAZA9e


5) 具体的な即効対処(死んでる時にやること)🩺

ノードをcordon + drainして不安定なノードからPodを逃がす:


kubectl cordon <node>
kubectl drain <node> --ignore-daemonsets --delete-emptydir-data

kube-system の CNI & kube-proxy デーモンセットを再起動:


kubectl rollout restart ds/calico-node -n kube-system
kubectl rollout restart ds/kube-proxy -n kube-system

etcd が一台で落ちているなら(最悪)etcdのバックアップから復旧。必ず etcdctl snapshot save の定期バックアップがあるか確認。

APIサーバが落ちてるなら、control-plane node の kube-apiserver プロセス再起動 or 前段 LB の確認。


注意:即効でやることと根本対策は別。応急処置で誤魔化すな。