ComfyUI训练超参数策略
一 训练目标与数据策略
- 明确目标类型:
- 具象类 LoRA(单一角色/服装/物体)优先追求细节还原与身份一致性。
- 泛化类 LoRA(风格/场景/摄影)强调跨样本的一致风格与多样性。
- 数据规模与重复次数:
- 具象类建议≥20张素材;泛化类建议≥100张素材,且风格、主体需高度一致。
- 通过文件夹命名控制每张图的训练重复次数,常用10–15次/张;实践中常见做法为动漫类10次、真人20–30次以平衡过拟合风险。
- 图像尺寸与一致性:
- 训练分辨率需与模型匹配:SD1.5 常用 512×768;SDXL/Flux 常用 1024×1536。
- 统一尺寸、清理杂项、避免强无关背景,有助于稳定收敛与泛化。
- 标注与正则:
- 使用标签器(如WD 标签器)生成描述,保证标签与内容强相关;必要时引入正则化或增加数据多样性以抑制过拟合。
二 关键超参数与推荐区间
- 学习率与批量
- 学习率与批量需联动;批量较小时适当降低学习率以稳收敛。
- 优先使用单张或小批量起步,逐步放大;显存受限时宁可减小批量而非强行放大。
- 训练轮数与保存
- 建议先小轮次试跑,如10轮观察损失与预览,再决定是否加深;常见做法在10–30轮区间内调整。
- 采用“每N轮自动保存”策略,便于回溯与挑选最优权重。
- 网络维度与 Alpha
- 网络维度(rank)控制容量:具象类常用32,泛化类常用64;Alpha 取与维度相同或一半较稳。
- 训练范围与模块选择
- 优先仅微调UNet以降低过拟合与漂移风险;必要时再考虑文本编码器或其他模块。
- 分辨率与正则化
- 分辨率过高会放大显存与过拟合压力;与数据一致性冲突时,优先保证数据质量与标签一致性,其次再调维度/轮次。
- 推理时 LoRA 权重
- 生成阶段 LoRA 权重常用0.6–0.8,在保真与泛化间折中;不同项目可据效果微调。
三 分阶段调参流程
- 阶段0 基线跑通
- 具象类:20–30张、每张10–15次、rank 32、epoch 10、batch 1、UNet-only;记录训练损失与样本预览。
- 泛化类:≥100张、每张10–15次、rank 64、epoch 10、batch 1;观察风格一致性与多样性。
- 阶段1 欠拟合对策
- 增加每张图的重复次数(如15→20)、适度提升 rank(如32→48/64)、延长训练至15–20轮;必要时扩充同风格数据。
- 阶段2 过拟合对策
- 降低 rank(如64→32)、减少重复次数、提前停止(如10–12轮)、增强数据多样性与正则;生成时适当降低 LoRA 权重(如0.8→0.6)。
- 阶段3 稳定性与显存优化
- 维持小批量与合理学习率;若显存吃紧,优先降分辨率或 batch,其次再考虑梯度累积(若训练脚本支持)。
四 常见症状与快速修正
- 训练损失不下降或震荡
- 学习率过高或批量过小;先降学习率、增大批量(或累积步数),并观察预览质量是否改善。
- 生成结果过拟合(细节黏在训练样本)
- 降低 rank、减少每张图重复次数、缩短训练轮次;生成时 LoRA 权重下调至0.5–0.7区间尝试。
- 生成结果欠拟合(学不到主体特征)
- 增加重复次数、适度提升 rank、延长训练轮次;确保分辨率与数据一致性。
- 泛化差(风格/主体跨样本不稳定)
- 扩充数据量与多样性、保持风格一致;必要时引入正则化或更强的数据清洗。
- 显存不足或采样器报错(环境层面)
- 降低分辨率与批量、启用显存优化(如 FP16/BF16、TF32)、更新驱动与依赖、必要时更换采样器或分步调试。
五 不同模型的快速参考
| 模型 | 推荐分辨率 | 数据量建议 | 重复次数/张 | 网络维度(rank) | 训练轮次(epoch) | 批量(batch) |
|---|
| SD1.5 LoRA | 512×768 | 具象类≥20张;泛化类≥100张 | 10–15 | 具象32;泛化64 | 10–30(常用10起) | 1(小显存优先) |
| SDXL LoRA | 1024×1536 | 具象类≥20张;泛化类≥100张 | 10–15 | 具象32;泛化64 | 10–30(常用10起) | 1(小显存优先) |
| Flux LoRA | 1024×1536 | 具象类≥20张;泛化类≥100张 | 10–15 | 具象32;泛化64 | ≈10 | 1(小显存优先) |
以上区间用于起步与迭代,具体项目应在相同数据与预算下做小范围网格搜索,以验证最优组合。