ceph 集群异常导致K8S的pod异常
一 背景
收到测试环境集群告警,登陆 K8s 集群进行排查。
二 故障定位
2.1 查看 Pod
查看 kube-system node2 节点 calico pod 异常。
查看详细信息,查看node2节点没有存储空间,cgroup泄露。
2.2 查看存储
登陆 node2 查看服务器存储信息,目前空间还很充足。
集群使用到的分布式存储为ceph,因此查看ceph集群状态。
目前查看到 ceph 集群异常,可能导致 node2 节点 cgroup 泄露异常,进行手动修复ceph集群。
三 操作
3.1 ceph修复
数据的不一致性(inconsistent)指对象的大小不正确、恢复结束后某副本出现了对象丢失的情况。数据的不一致性会导致清理失败(scrub error)。