监控Kubernetes GPU调度策略效果可从以下方面入手:
nvidia-exporter或dcgm-exporter采集GPU使用率指标,结合Prometheus+Grafana展示实时数据,设置低利用率告警(如低于20%持续10分钟)。requests和limits中GPU资源声明是否与实际分配一致,可通过kubectl describe pod确认调度结果。nodeAffinity规则调度到指定GPU型号节点,通过kubectl get pod -o wide查看节点分布。PriorityClass并观察调度顺序。metrics接口获取调度耗时,识别长时间未调度的Pod。topologySpreadConstraints均匀分布在不同节点或可用区。