如何监控Kubernetes GPU调度状态 - GPU

要监控Kubernetes GPU调度状态，您可以使用以下几种方法和工具：

1. 使用NVIDIA DCGM Exporter

NVIDIA DCGM Exporter 是一个用于监控NVIDIA GPU设备的工具，它可以收集GPU的使用情况、性能指标等。您可以通过Docker拉取DCGM Exporter镜像，并在Kubernetes集群中部署它。具体步骤如下：

拉取镜像：

docker pull nvidia/dcgm:2.2.9-ubuntu20.04

部署容器：

docker run -d --rm --name=nvidia-dcgm-exporter --cap-add SYS_ADMIN localhost/nvidia/dcgm-exporter:2.2.9-2.4.0-ubi8

验证部署：

检查容器的日志以确保DCGM Exporter正常运行。

docker logs

2. 使用Prometheus和Grafana

Prometheus 是一个开源的监控和警报工具包，专为Kubernetes等动态云原生环境而设计。Grafana 是一个流行的数据可视化和监控工具，可与Prometheus无缝集成。您可以通过以下步骤部署它们：

部署Prometheus：

kubectl apply -f https://raw.githubusercontent.com/prometheus-operator/prometheus-operator/main/config/prometheus-config.yaml

部署Grafana：

helm repo add grafana https://grafana.github.io/helm-charts
helm repo update
helm install grafana grafana/grafana

配置Prometheus抓取目标：

配置Prometheus以抓取Kubernetes节点和Pod的指标。

scrape_configs:
- job_name: 'kubernetes-nodes'
kubernetes_sd_configs:
- role: node
relabel_configs:
- source_labels: [__meta_kubernetes_node_label_app]
action: keep
regex: kube-state-metrics
- job_name: 'kubernetes-pods'
kubernetes_sd_configs:
- role: pod
relabel_configs:
- source_labels: [__meta_kubernetes_pod_label_app]
action: keep
regex: your-app-label

在Grafana中创建仪表盘：

使用Grafana创建仪表盘以显示GPU利用率、Pod资源使用情况等。

3. 使用cAdvisor

cAdvisor 是Kubernetes内置的容器资源监控工具，能够采集容器的CPU、内存、网络等资源的使用情况。虽然cAdvisor主要关注CPU和内存，但它也可以提供一些与GPU相关的信息。

部署cAdvisor：

cAdvisor通常作为Kubernetes集群的一部分自动安装。您可以通过以下命令验证其状态：

kubectl get pods -n kube-system | grep cadvisor

4. 使用kube-state-metrics

kube-state-metrics 是一个Kubernetes的监控指标服务，用于暴露集群中的各种资源对象的状态指标。您可以通过以下步骤部署它：

部署kube-state-metrics：

kubectl apply -f https://github.com/kubernetes-sigs/kube-state-metrics/releases/latest/download/components.yaml

验证部署：

检查Pod的状态以确保kube-state-metrics正常运行。

kubectl get pods -n kube-system | grep kube-state-metrics

5. 使用火山引擎的mGPU技术

火山引擎的mGPU技术提供了一种新的GPU共享调度方案，支持更细粒度的GPU资源调度。您可以结合其提供的监控工具来监控GPU调度状态。
通过以上方法，您可以全面监控Kubernetes集群中的GPU调度状态和资源使用情况。选择合适的工具并结合使用，可以帮助您更好地管理和优化GPU资源。