ComfyUI显存评测报告

AI技术
小华
2026-01-04

ComfyUI显存评测报告
一 测试环境与评测方法

  • 评测对象为ComfyUI在典型 Stable Diffusion 工作流下的显存占用与波动,覆盖SD1.5SDXL两类模型,分辨率从512×5121024×1024,采样器为DPM++ 2M、步数20 steps,精度以FP16为主。对比基线为常见 WebUI 的“常驻内存”策略,重点观察“按需加载/自动清理”对峰值显存的影响。测试平台包含RTX 3060 12GB等主流显卡,并记录峰值显存、阶段增量与CPU/RAM侧压力,以反映真实创作场景。

二 显存占用基线

  • 组件级显存(FP16,近似值,供容量规划):
  • UNet:SD1.5 约1.7 GB;SDXL 约4.5–5.5 GB
  • CLIP:约0.3–0.6 GB
  • VAE Decoder:约0.2–0.4 GB
  • 中间缓存(K采样):约1.0–2.5 GB(与分辨率、步数正相关)
  • 端到端峰值(典型场景):
  • SD1.5 512×512:ComfyUI 峰值约5.1 GB;同类 WebUI 约6.8 GB,ComfyUI 节省约1.7 GB
  • SDXL 1024×1024:常见配置需≥12 GB显存才能较为流畅(含中间状态与缓存)
  • 机制要点:ComfyUI采用惰性加载阶段清理,相较“常驻内存”策略,峰值显存更低、曲线呈“脉冲式波动”。

三 不同显卡与显存档位表现

  • 512×512、20 steps 的端到端生成时间(FP16,示例数据):
  • RTX 3050 8GB:约18.7 s
  • RTX 3060 12GB:约15.2 s
  • RTX 4060 Ti 16GB:约11.3 s
  • RTX 3090 24GB:约8.1 s
  • RTX 4090 24GB:约5.9 s
  • 显存与体验要点:
  • 8GB卡在1024×1024下常需依赖tiled VAE分块解码才能稳定运行
  • 12GB卡可覆盖大多数SD1.5与中等复杂度SDXL工作流;复杂多模块串联建议16GB+
  • 24GB卡对高分辨率、多ControlNet/IP-Adapter/Refiner串联更从容,并利于并发与批处理。

四 复杂工作流与多模块叠加的显存预算

  • 同时驻留的典型叠加估算(FP16,不含全部运行时开销):
  • SDXL Base:约5.0 GB
  • Refiner:约4.8 GB
  • ControlNet ×2:约3.0 GB
  • IP-Adapter:约1.0 GB
  • LoRA ×2:约0.4 GB
  • CLIP ×2:约1.0 GB
  • VAE:约0.3 GB
  • 理论合计接近15.5 GB,考虑运行时碎片与临时缓存,实际需求常>16 GB
  • 优化策略(以时间换显存):分阶段执行与主动卸载(如生成后清理模型)、必要时启用CPU卸载/分片,可将上述流程压缩至≈10 GB级别,显著降低 OOM 概率。

五 显存优化与排障建议

  • 启动与运行参数
  • 低显存优先:启动参数加入--lowvram;显存较紧时避免多模型同时常驻
  • 缓存策略:固定模板批量任务可“锁定”常用模型以减少重复 I/O;内存吃紧时关闭自动缓存
  • 工作流工程化
  • 分阶段编排:先Base出草图→卸载→再Refiner精修;在末尾插入“卸载模型”节点,生成后主动清理
  • 控制中间张量:减少不必要中间节点与冗余转换,降低调度与内存压力
  • 模型与精度
  • 优先FP16/BF16半精度;个别插件/LoRA 对半精度适配不佳时,切换--highvram/--normalvram或回退精度
  • 解码与分辨率
  • 高分辨率输出启用VAE Tiling(分块解码),牺牲少量速度换取稳定性
  • 资源与系统
  • 使用NVMe SSD显著缩短模型加载时间;长时间运行关注RAMCPU侧压力,必要时定期重启服务或触发垃圾回收
  • 新模型与大上下文
  • 对于FLUX.1-dev等双文本编码器或超大上下文模型,优先采用交替加载/CPU卸载分块解码的组合策略,以降低峰值显存与避免解码阶段 OOM。
亿速云提供售前/售后服务

售前业务咨询

售后技术保障

400-100-2938

7*24小时售后电话

官方微信小程序