调整Kubernetes GPU调度策略参数可从以下方面入手:
resources
字段中,通过requests
和limits
设置GPU资源需求,如nvidia.com/gpu: 1
,并确保二者一致以保证稳定分配。若需更精细控制,可使用MIG实例分配,如nvidia.com/gpu-mig-1g.5gb: 1
(需集群支持)。nodeAffinity
将Pod调度到特定GPU节点,如requiredDuringSchedulingIgnoredDuringExecution
设置硬约束,preferredDuringSchedulingIgnoredDuringExecution
设置软约束。也可使用nodeSelector
简化标签匹配。kubectl taint nodes gpu=true:NoSchedule
,并在Pod中添加对应容忍以独占资源。topologySpreadConstraints
分散Pod分布,提升跨可用区容灾能力,设置maxSkew
、topologyKey
等参数。