Kubernetes 运维命令大全:日常管理必备技能
本文总结了Kubernetes运维的常用操作:1.镜像管理:包含containerd/ctr的镜像导入、查看和删除命令,适用于离线环境部署;2.资源部署:涵盖kubectl的基础操作(应用配置、查看资源、强制删除命名空间)和服务诊断(服务详情、Pod日志、进入调试);3.集群监控:提供节点资源检查、GPU使用、集群事件和Pod故障排查命令;4.Helm包管理:包括安装、版本验证、模板生成和应用列表
·
一、镜像管理(使用 containerd/ctr)
# 1. 导入本地镜像到 k8s 镜像库
ctr -n k8s.io images import ./myimage.tar
# 2. 查看已加载的镜像
ctr -n k8s.io images ls | grep -E "IMAGE|your-image-name"
# 3. 删除指定镜像
ctr -n k8s.io images remove docker.io/library/myimage:latest
适用场景:离线环境部署、镜像调试
注意:生产环境推荐使用 docker pull + kubectl create 组合
二、资源部署与查看
基础操作
# 1. 应用/更新配置
kubectl apply -f deployment.yaml
# 2. 查看命名空间下所有资源状态
kubectl get all -n <namespace>
# 3. 查看命名空间下所有Pod及其基本状态
kubectl get pods -n <namespace>
# 4. 强制删除命名空间(卡住时使用)
kubectl delete namespace <namespace> --force --grace-period=0
服务诊断
# 1. 查看 Service 详细信息(含 Endpoints)
kubectl describe svc/my-service -n <namespace>
# 2. 查看 Pod 实时日志
kubectl logs -f <pod-name> -n <namespace> -c <container-name>
# 3. 进入 Pod 调试
kubectl exec -it <pod-name> -n <namespace> -- /bin/sh
三、集群监控与排障
核心状态检查
# 1. 查看节点资源分配情况
kubectl describe node `hostname` | grep -A 10 "Allocated resources"
# 2. 查看 GPU 使用情况(需节点安装驱动)
nvidia-smi
# 3. 查看集群事件(按时间排序)
kubectl get events -n <namespace> --sort-by='.metadata.creationTimestamp'
# 4. 检查 Pod 启动失败原因
kubectl describe pod <pod-name> -n <namespace> | grep -A 20 "Events"
四、Helm 包管理
# 1. 安装 Helm(Linux)
curl -fsSL https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 | bash
# 验证helm安装
helm version
# 2. 生成 Chart 的渲染模板(预检查)
helm template my-release ./chart-dir/ > manifests.yaml
# 3. 列出命名空间下的Helm应用
helm list -n <namespace>
更多推荐

所有评论(0)