管理人なにが起きたか説明は? (185)

←← 掲示板一覧に戻る ← スレッド一覧に戻る

114 エッヂの名無し 2025/11/19(水) 23:17:03.656 ID:kNjsAZA9e

6) 根本対策(絶対にやれ。マジで)🛠�

1. etcd 3台以上(推奨3 or 5)で奇数ノード構成。バックアップ+自動復旧手順を整備。


2. Control Plane HA:API server 複数インスタンス + 前段に L4/L7 LB(外部LBやMetalLB、クラウドLB)。controlPlaneEndpoint を使え。


3. CNI 冗長設計:CalicoならBGP/route-reflector設計、CiliumならeBPFベースで安定化。オーバーレイのMTUとIPIP/VXLANの設定をチェック。


4. kube-proxy を IPVS モードに移行:スケーラビリティと再接続性能が段違い。


5. Storage:重要な PV はレプリケーション(RWXが必要なら分散ストレージ)、CSI の Failover を確認。


6. Pod配置制御:PodDisruptionBudget、anti-affinity、topologySpreadConstraints を使ってノード障害で落ちる確率を下げる。


7. Node fencing & auto-replace:不健全ノードは自動で隔離・再作成。クラウドならインスタンス再作成、自前DCなら裸metal自動修復。


8. 監視とアラート:Prometheus、Alertmanager、Node Exporter、cAdvisor、etcd-exporter。SLO/SLI を定義してアラート閾値を持て。


9. Chaos Engineering:定期的にノード落とす(chaos-mesh, Litmus)ことで本当に冗長になっているか検証。壊して学べ。💥