评估Stable Diffusion数据合成性能可从以下方面入手:
- 定量指标
- FID(Fréchet Inception Distance):衡量生成图像与真实图像分布的相似性,值越小质量越高。
- CLIP Score:评估生成图像与文本提示的语义一致性,值越高匹配度越好。
- SSIM(结构相似性):衡量图像结构保真度,值越接近1表示图像质量越高。
- 定性评估
- 人类视觉评估:通过问卷或人工标注判断图像真实性、细节丰富度等。
- 多样性分析:检查生成样本的差异性,避免重复(如计算样本间特征距离)。
- 任务适配性
- 分类任务:用合成数据训练模型,测试其在ImageNet等基准上的准确率、泛化能力。
- 分布外泛化:评估模型对未见过数据的适应能力,如使用OOD数据集测试。
- 效率指标
- 生成速度:单张图像生成时间,受采样步数、模型优化影响。
- 资源占用:计算资源(如GPU显存)和能耗,影响实际部署成本。
参考来源: