Kubernetes GPU调度策略有哪些 - GPU

Kubernetes中的GPU调度策略主要包括以下几种：

共享GPU调度：这是最常见的调度策略之一，允许多个实例运行在同一张GPU卡上，从而提升GPU的利用率。它主要应用于小模型推理服务、训推一体、GPU的在离线混部等场景。例如，NVIDIA的多实例GPU（Multi-Instance GPU，简称MIG）可以将一个GPU划分为多个大小不同的实例。
拓扑感知调度：这种策略涉及硬件和网络结构的优化，以提高计算资源（如GPU）间的通信效率。它适合于需要高速数据交换的大规模并行训练任务，例如训练大型深度学习模型时，通过优化GPU之间的NVLink连接，可以得到最优的训练速度。
过滤策略：用于筛选掉不适合运行Pod的节点，只有通过所有过滤策略的节点才会进入优选阶段。常见的过滤策略包括PodFitsResources、PodFitsHostPorts、PodFitsHost、PodFitsNodeSelector、PodToleratesNodeTaints、NoVolumeZoneConflict、MatchInterPodAffinity等。
优选策略：在过滤之后，多个节点可能符合条件，优选策略用于根据分数选择最优的节点。每个节点会根据这些策略被打分，分数最高的节点将被选择。常见的优选策略包括LeastRequestedPriority、BalancedResourceAllocation、NodePreferAvoidPodsPriority、NodeAffinityPriority、InterPodAffinityPriority、TaintTolerationPriority、SpreadConstraintsPriority等。
资源约束调度：根据Pod对资源的需求来调度Pod，将Pod调度到具有足够资源的节点上，适用于需要特定资源的应用。
亲和性和反亲和性调度：通过标签和选择器来识别节点，从而将Pod调度到带有指定标签的节点上，或者调度到没有特定标签的节点上，以实现负载均衡和高可用性。
互斥调度：在同一节点上同时只运行一个特定类型的Pod，适用于需要独占特定资源的应用，例如需要独占GPU的应用。
自定义调度器：用户可以根据自己的需求编写和部署自定义调度器，覆盖或补充默认的kube-scheduler行为。

这些策略可以单独使用，也可以组合使用，以满足不同应用场景下的需求。通过选择适当的调度策略，可以有效地管理和优化GPU资源的使用，提高集群的性能和效率。