ComfyUI优化时需要注意什么 - AI技术

ComfyUI优化要点
一显存与启动参数

按显存选择模式：VRAM < 8GB 用 --lowvram；< 4GB 用 --novram；> 16GB 用 --highvram；必要时加 --reserve-vram 1~2 为系统预留显存，减少 OOM。
注意力与加速库：NVIDIA 优先 --xformers；也可尝试 --use-flash-attention；AMD 可用 --use-pytorch-cross-attention；若出现异常再考虑 --disable-xformers。
精度与计算：优先 --fp16-unet；支持的硬件可试 --bf16-unet 或 --fp8_e4m3fn-unet（FP8 为实验性，注意数值稳定性）。
缓存与卸载：多工作流切换可加 --async-offload 与 --cache-lru 20 降低显存波动与重复加载。
驱动与依赖：保持 NVIDIA 驱动 530+、PyTorch 2.0+，确保 xFormers/Flash Attention 正常启用。

二工作流与采样策略

分辨率与策略：低显存设备控制在 512×512，高清图采用 低分辨率生成 + Hires.fix（缩放 1.5~2.0） 替代直接高分辨率生成，可显著降低算力。
步数与调度器：常规任务 20~30 步 已足够；快速预览用 UniPC，质量/速度均衡可用 DPM++ SDE，追求极致速度可用 LCM（质量略降）。
模型叠加控制：基础模型 + 1 个 LoRA（权重 ≤0.8） + 最多 1 个 ControlNet 更稳；每增加一个模块常见会额外占用 1~3GB 显存。
节点与缓存：精简冗余节点，避免重复计算；必要时用 Cache Manager 调整缓存；对独立节点启用并行执行提升吞吐。

三硬件加速与多GPU

设备与内核：NVIDIA 开启 CUDNN 自动调优（如设置 benchmark）；AMD ROCm 6.4+ 配合 PyTorch 原生优化；Intel XPU、Apple MPS 亦可在相应分支启用。
多GPU使用：当前无全自动负载均衡，可通过环境变量/命令行将不同模型或节点手动绑定到指定 CUDA 设备（如 device_id），按工作流拆分负载；多卡并行需自行规划模型切分与数据并行策略。

四监控与稳定性

五不同硬件的实用配置示例

硬件场景	启动与精度	工作流要点
< 8GB	--lowvram --xformers --fp16-unet	分辨率 512×512；Hires.fix 缩放 1.5~2.0；仅 1 个 LoRA + 最多 1 个 ControlNet；关闭实时预览
8–16GB	默认或 --xformers --fp16-unet	分辨率可至 768×768；主模型 20 步 + Hires.fix 15 步；控制模型叠加总量
> 16GB	--highvram --xformers --fp16-unet	模型常驻显存；复杂场景可用 Tiled Diffusion 处理 4K/8K；多卡按节点手动分配设备