kubespray可观测性案例：全栈可观测部署

在现代云原生环境中，Kubernetes集群的复杂性日益增加。一个生产级的Kubernetes集群包含数十个甚至数百个组件，每个组件都可能产生大量的日志、指标和追踪数据。如果没有完善的可观测性体系，运维团队将如同"盲人摸象"，无法全面掌握集群的健康状态和性能表现。kubespray作为业界领先的Kubernetes部署工具，不仅提供了集群部署能力，更内置了丰富的可观测性组件支持。本文将深入探讨..

段钰榕Hugo

936人浏览 · 2025-09-05 05:25:29

段钰榕Hugo · 2025-09-05 05:25:29 发布

kubespray可观测性案例：全栈可观测部署

【免费下载链接】kubespray 一个基于Ansible的Kubernetes集群部署工具，提供自动化部署、集群管理等功能。 - 功能：Kubernetes集群部署、节点管理、容器管理、存储管理、网络管理等。 - 特点：基于Ansible；支持多种Kubernetes版本；支持离线安装；易于上手。项目地址: https://gitcode.com/GitHub_Trending/ku/kubespray

引言：为什么需要全栈可观测性？

在现代云原生环境中，Kubernetes集群的复杂性日益增加。一个生产级的Kubernetes集群包含数十个甚至数百个组件，每个组件都可能产生大量的日志、指标和追踪数据。如果没有完善的可观测性体系，运维团队将如同"盲人摸象"，无法全面掌握集群的健康状态和性能表现。

kubespray作为业界领先的Kubernetes部署工具，不仅提供了集群部署能力，更内置了丰富的可观测性组件支持。本文将深入探讨如何利用kubespray构建完整的可观测性栈，实现从基础设施到应用层的全方位监控。

kubespray可观测性架构概览

kubespray的可观测性架构采用分层设计，涵盖了数据采集、存储、可视化和告警等关键环节：

mermaid

核心可观测性组件配置

1. Metrics Server - 基础指标收集

Metrics Server是Kubernetes集群的核心监控组件，负责收集资源使用指标。在kubespray中启用非常简单：

# inventory/sample/group_vars/k8s_cluster/addons.yml
metrics_server_enabled: true
metrics_server_metric_resolution: 15s
metrics_server_replicas: 2

配置参数说明：

参数	默认值	说明
`metrics_server_enabled`	`false`	是否启用Metrics Server
`metrics_server_metric_resolution`	`15s`	指标收集频率
`metrics_server_replicas`	`1`	副本数量，生产环境建议2+

2. Prometheus监控栈配置

虽然kubespray没有直接集成完整的Prometheus Stack，但可以通过自定义配置实现：

# 自定义prometheus配置示例
prometheus_operator_crds_enabled: true

# 节点指标暴露配置
kubelet_metrics_port: 10255
containerd_metrics_address: "0.0.0.0:1338"

# CNI组件指标配置
cilium_enable_prometheus: true
cilium_enable_hubble_metrics: true
cilium_hubble_metrics:
  - dns
  - drop
  - tcp
  - flow
  - icmp
  - http

3. 网络组件的可观测性

不同的CNI插件提供了丰富的监控指标：

Calico监控配置

calico_felix_prometheus_metrics_enabled: true
calico_typha_prometheus_metrics_enabled: true
calico_metrics_port: 9091

Cilium监控配置

cilium_enable_prometheus: true
cilium_prometheus_port: 9090
cilium_enable_hubble_metrics: true
cilium_hubble_metrics_port: 9091

实战：构建完整的可观测性栈

步骤1：基础监控部署

首先启用核心监控组件：

# 编辑集群配置
vim inventory/mycluster/group_vars/k8s_cluster/addons.yml

# 启用基础监控
metrics_server_enabled: true
node_feature_discovery_enabled: true

# 部署集群
ansible-playbook -i inventory/mycluster/hosts.ini cluster.yml

步骤2：配置组件指标暴露

为各个组件配置指标暴露：

# etcd指标配置
etcd_metrics_port: 2381
etcd_metrics_service_labels:
  app: etcd
  component: etcd-metrics

# CoreDNS指标配置
coredns_metrics_port: 9153

# kube-proxy指标配置
kube_proxy_metrics_port: 10249

步骤3：部署监控数据平面

创建监控命名空间和基础资源：

# monitoring-namespace.yaml
apiVersion: v1
kind: Namespace
metadata:
  name: monitoring
  labels:
    name: monitoring

# 应用监控命名空间
kubectl apply -f monitoring-namespace.yaml

# 创建监控所需的RBAC权限
kubectl apply -f https://raw.githubusercontent.com/prometheus-operator/prometheus-operator/main/bundle.yaml

高级可观测性场景

场景1：多集群监控

对于大规模部署，需要实现多集群监控：

mermaid

场景2：分布式追踪集成

集成分布式追踪系统：

# Jaeger或Tempo配置示例
tracing_enabled: true
tracing_backend: "tempo"
tempo_config:
  storage:
    backend: "s3"
    s3:
      bucket: "my-tempo-bucket"
      endpoint: "minio:9000"

监控指标分类与最佳实践

基础设施层监控指标

指标类别	关键指标	告警阈值
节点资源	node_memory_usage, node_cpu_usage	>85%持续5分钟
存储	node_filesystem_usage	>90%
网络	node_network_receive_bytes	异常波动

Kubernetes组件监控

# API Server监控
- alert: APIServerDown
  expr: up{job="apiserver"} == 0
  for: 5m

# etcd监控  
- alert: EtcdLeaderChanges
  expr: increase(etcd_server_leader_changes_seen_total[1h]) > 3
  for: 10m

应用层监控

# 应用健康检查
- alert: AppNotHealthy
  expr: kube_pod_status_ready{condition="false"} == 1
  for: 2m

# 资源配额监控
- alert: ResourceQuotaExceeded
  expr: kube_resourcequota{type="used"} / kube_resourcequota{type="hard"} > 0.9
  for: 5m

故障排查与性能优化

常见问题排查指南

Metrics Server无法启动

# 检查证书配置
kubectl get apiservice v1beta1.metrics.k8s.io -o yaml

# 查看日志
kubectl logs -n kube-system deployment/metrics-server

指标数据缺失

# 检查kubelet配置
kubectl get nodes -o wide
kubectl describe node <node-name>

监控组件资源不足

# 调整资源限制
resources:
  limits:
    cpu: "1"
    memory: "1Gi"
  requests:
    cpu: "500m"
    memory: "512Mi"

性能优化建议

指标采集频率优化

global:
  scrape_interval: 30s
  evaluation_interval: 30s

数据保留策略

storage:
  retention: 15d
  retention_size: "50GB"

查询优化

query:
  max_concurrent: 20
  timeout: "2m"

安全与合规性考虑

监控数据安全

# TLS配置
tls:
  enabled: true
  certFile: "/etc/prometheus/secrets/tls/tls.crt"
  keyFile: "/etc/prometheus/secrets/tls/tls.key"

# 网络策略
networkPolicy:
  enabled: true
  ingress:
    - from:
        - podSelector:
            matchLabels:
              app: grafana
      ports:
        - port: 9090
          protocol: TCP

合规性监控

# 安全策略监控
- alert: PrivilegedContainer
  expr: kube_pod_info{container=".*"} and on(pod) kube_pod_security_policy{privileged="true"}
  for: 0m

# 网络策略合规性
- alert: MissingNetworkPolicy
  expr: count(kube_pod_info) by (namespace) - count(kube_network_policy_info) by (namespace) > 0
  for: 1h