Kubernetes 运维命令大全：日常管理必备技能

本文总结了Kubernetes运维的常用操作：1.镜像管理：包含containerd/ctr的镜像导入、查看和删除命令，适用于离线环境部署；2.资源部署：涵盖kubectl的基础操作（应用配置、查看资源、强制删除命名空间）和服务诊断（服务详情、Pod日志、进入调试）；3.集群监控：提供节点资源检查、GPU使用、集群事件和Pod故障排查命令；4.Helm包管理：包括安装、版本验证、模板生成和应用列表

weixin_67144977

332人浏览 · 2025-05-21 16:20:42

weixin_67144977 · 2025-05-21 16:20:42 发布

一、镜像管理（使用 containerd/ctr）

# 1. 导入本地镜像到 k8s 镜像库
ctr -n k8s.io images import ./myimage.tar

# 2. 查看已加载的镜像
ctr -n k8s.io images ls | grep -E "IMAGE|your-image-name"

# 3. 删除指定镜像
ctr -n k8s.io images remove docker.io/library/myimage:latest

适用场景：离线环境部署、镜像调试

注意：生产环境推荐使用 docker pull + kubectl create 组合

二、资源部署与查看

基础操作

# 1. 应用/更新配置
kubectl apply -f deployment.yaml

# 2. 查看命名空间下所有资源状态
kubectl get all -n <namespace>

# 3. 查看命名空间下所有Pod及其基本状态
kubectl get pods -n <namespace>

# 4. 强制删除命名空间（卡住时使用）
kubectl delete namespace <namespace> --force --grace-period=0

服务诊断

# 1. 查看 Service 详细信息（含 Endpoints）
kubectl describe svc/my-service -n <namespace>

# 2. 查看 Pod 实时日志
kubectl logs -f <pod-name> -n <namespace> -c <container-name>

# 3. 进入 Pod 调试
kubectl exec -it <pod-name> -n <namespace> -- /bin/sh

三、集群监控与排障

核心状态检查

# 1. 查看节点资源分配情况
kubectl describe node `hostname` | grep -A 10 "Allocated resources"

# 2. 查看 GPU 使用情况（需节点安装驱动）
nvidia-smi

# 3. 查看集群事件（按时间排序）
kubectl get events -n <namespace> --sort-by='.metadata.creationTimestamp'

# 4. 检查 Pod 启动失败原因
kubectl describe pod <pod-name> -n <namespace> | grep -A 20 "Events"

四、Helm 包管理

# 1. 安装 Helm（Linux）
curl -fsSL https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 | bash

# 验证helm安装
helm version

# 2. 生成 Chart 的渲染模板（预检查）
helm template my-release ./chart-dir/ > manifests.yaml

# 3. 列出命名空间下的Helm应用
helm list -n <namespace>

开源鸿蒙跨平台开发者社区

开源鸿蒙跨平台开发社区汇聚开发者与厂商，共建“一次开发，多端部署”的开源生态，致力于降低跨端开发门槛，推动万物智联创新。

更多推荐

Flutter 三方库 file_manager 鸿蒙化文件管理器实战

本文基于 OpenHarmony TPC 仓库的 `file_manager` 项目适配版本，详细讲解在 OpenHarmony 设备上构建完整文件管理器应用的全流程。核心采用 **File Access Framework**（`@ohos.file.fileAccess`）访问设备真实文件系统，实现目录浏览、文件创建、删除、重命名等核心功能，并附真实设备运行截图验证。