如何配置Kubernetes GPU调度策略 - GPU

配置Kubernetes GPU调度策略需要以下几个步骤：

1. 确保节点支持GPU

首先，确保你的Kubernetes集群中的节点已经安装了GPU驱动和相关的Kubernetes设备插件。

安装NVIDIA设备插件

如果你使用的是NVIDIA GPU，可以按照以下步骤安装NVIDIA设备插件：

kubectl apply -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/master/nvidia-device-plugin.yml

2. 标记节点

为了让Kubernetes能够识别哪些节点有GPU资源，你需要给这些节点打上标签。例如：

kubectl label nodes  nvidia.com/gpu=true

3. 创建Pod规格

在你的Pod规格文件中，指定所需的GPU资源。例如：

apiVersion: v1
kind: Pod
metadata:
name: gpu-pod
spec:
containers:
- name: gpu-container
image: nvidia/cuda:11.0-base
resources:
limits:
nvidia.com/gpu: 1  # 请求1个GPU

4. 配置调度策略

Kubernetes支持多种调度策略来管理GPU资源。以下是一些常见的策略：

节点亲和性（Node Affinity）

你可以使用节点亲和性来确保Pod只调度到带有特定标签的节点上。例如：

apiVersion: v1
kind: Pod
metadata:
name: gpu-pod
spec:
affinity:
nodeAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
nodeSelectorTerms:
- matchExpressions:
- key: nvidia.com/gpu
operator: In
values:
- "true"
containers:
- name: gpu-container
image: nvidia/cuda:11.0-base
resources:
limits:
nvidia.com/gpu: 1

Pod亲和性和反亲和性（Pod Affinity/Anti-Affinity）

你可以使用Pod亲和性和反亲和性来控制Pod之间的调度关系。例如，确保两个需要GPU的Pod不会调度到同一个节点上：

apiVersion: v1
kind: Pod
metadata:
name: gpu-pod-1
spec:
affinity:
podAntiAffinity:
preferredDuringSchedulingIgnoredDuringExecution:
- weight: 100
podAffinityTerm:
labelSelector:
matchExpressions:
- key: app
operator: In
values:
- gpu-app
topologyKey: "kubernetes.io/hostname"
containers:
- name: gpu-container
image: nvidia/cuda:11.0-base
resources:
limits:
nvidia.com/gpu: 1
---
apiVersion: v1
kind: Pod
metadata:
name: gpu-pod-2
spec:
affinity:
podAntiAffinity:
preferredDuringSchedulingIgnoredDuringExecution:
- weight: 100
podAffinityTerm:
labelSelector:
matchExpressions:
- key: app
operator: In
values:
- gpu-app
topologyKey: "kubernetes.io/hostname"
containers:
- name: gpu-container
image: nvidia/cuda:11.0-base
resources:
limits:
nvidia.com/gpu: 1

5. 应用配置

最后，应用你的Pod规格文件：

kubectl apply -f your-pod-spec.yaml

通过以上步骤，你就可以配置Kubernetes的GPU调度策略，确保GPU资源得到有效利用。