etcd 是一个高可用的分布式键值存储系统,在Kubernetes集群中用于存储和管理集群的所有关键信息,如配置数据、元数据、状态信息等。简而言之,etcd 存储了Kubernetes集群本身的所有数据,包括Pod、Service、Node、Namespace 等对象的元数据和状态。可以说,只要我们有了etcd的备份文件,就可以恢复Kubernetes集群的状态。
虽然etcd的数据是默认是存储在宿主机本地的,但在极端的情况下(比如机器异常断电等),正在工作的etcd被暴力中止,可能会导致数据无法恢复,所以etcd的定时备份和恢复是非常有意义的。
1、定时备份
以下是k8s集群中创建定时备份etcd任务的yaml文件:
apiVersion: batch/v1kind: CronJobmetadata: name: etcd-disaster-recovery # 定义 CronJob 的名称 namespace: cronjob # 指定 CronJob 所属的命名空间spec:: "0 2 * * *" # 设置定时任务的调度时间表达式,表示每天凌晨2点执行一次 jobTemplate: spec: template: metadata: # labels: # app: etcd-disaster-recovery # 为 Pod 添加标签,可根据需要注释或删除 spec: affinity: # 定义 Pod 的亲和性配置 nodeAffinity: requiredDuringSchedulingIgnoredDuringExecution: nodeSelectorTerms: matchExpressions: key: kubernetes.io/hostname operator: In values: master01 # 选择特定的节点(这里是选择 hostname 为 master01 的节点) containers: # 定义 Pod 中的容器 name: etcd # 容器名称 image: registry.k8s.io/etcd:3.5.10-0 # 使用的 etcd 镜像版本为 3.5.10-0 imagePullPolicy: "IfNotPresent" # 镜像拉取策略,如果本地已存在该镜像,则不重新拉取 command: # 容器启动命令 sh -c "export ETCDCTL_API=3; \ etcdctl --endpoints=$ENDPOINT \ --cert=/etc/kubernetes/pki/etcd/server.crt \ --key=/etc/kubernetes/pki/etcd/server.key \ --cacert=/etc/kubernetes/pki/etcd/ca.crt \ snapshot save /snapshot/snapshot.db; \ echo etcd backup success" env: # 环境变量配置,设置了一个名为 ENDPOINT 的环境变量,值为 "https://127.0.0.1:2379" name: ENDPOINT value: "https://127.0.0.1:2379" volumeMounts: # 挂载配置,指定了容器中需要挂载的卷和挂载路径 mountPath: "/etc/kubernetes/pki/etcd" # 将主机上的 /etc/kubernetes/pki/etcd 目录挂载到容器的 /etc/kubernetes/pki/etcd 路径 name: etcd-certs mountPath: "/var/lib/etcd" # 将主机上的 /var/lib/etcd 目录挂载到容器的 /var/lib/etcd 路径 name: etcd-data mountPath: "/snapshot" # 将主机上的 /root/etcd/snapshot 目录挂载到容器的 /snapshot 路径 name: snapshot subPath: data/etcd-snapshot # 在主机上的 /root/etcd/snapshot 目录下,将数据挂载到容器的 /snapshot/data/etcd-snapshot 路径下 mountPath: /etc/localtime # 将主机上的 /etc/localtime 文件挂载到容器的 /etc/localtime 路径 name: lt-config mountPath: /etc/timezone # 将主机上的 /etc/timezone 文件挂载到容器的 /etc/timezone 路径 name: tz-config restartPolicy: OnFailure # 定义容器重启策略,当容器失败时才会重启 volumes: # 卷配置,定义了 Pod 中使用的卷 name: etcd-certs hostPath: path: /etc/kubernetes/pki/etcd # 使用主机上的 /etc/kubernetes/pki/etcd 目录作为卷 name: etcd-data hostPath: path: /var/lib/etcd # 使用主机上的 /var/lib/etcd 目录作为卷 name: snapshot hostPath: path: /root/etcd/snapshot # 使用主机上的 /root/etcd/snapshot 目录作为卷 name: lt-config hostPath: path: /etc/localtime # 使用主机上的 /etc/localtime 文件作为卷 name: tz-config hostPath: path: /etc/timezone # 使用主机上的 /etc/timezone 文件作为卷 hostNetwork: true # 使用主机网络模式,Pod 将共享主机的网络命名空间
2、恢复
(1)查看备份文件所在位置

(2)移除本地etcd数据
mv /var/lib/etcd /var/lib/etcd.bak
(3)停止etcd以及apiserver服务
etcd以及apiserver默认是以静态容器的方式运行的,静态容器的配置文件存放目录是 /etc/kubernetes/manifests/,所以将两个文件暂时移出此目录,两个服务就终止了。

mv /etc/kubernetes/manifests/{kube-apiserver.yaml,etcd.yaml} /tmp/
(4)执行恢复命令
ETCDCTL_API=3 etcdctl snapshot restore /root/etcd/snapshot/data/etcd-snapshot/snapshot.db --data-dir=/var/lib/etcd
(5)恢复k8s的etcd以及apiserve
mv /tmp/{kube-apiserver.yaml,etcd.yaml} /etc/kubernetes/manifests
(6)恢复完成。
