评估目标与总体框架
1) 逼真度(图像是否真实、无伪影);2) 文本-图像对齐(是否忠实于提示);3) 分布覆盖与代表性(是否覆盖真实数据的关键模式与长尾);4) 新颖性与实用性(是否引入新样本、能否提升下游任务)。
- 建议采用“自动指标 + 下游任务验证 + 人工检查”的闭环,既避免单一指标的偏差,又能反映真实使用效果。
自动指标与计算方法
| 指标 | 含义 | 方向 | 要点与工具 |
|---|
| FID | 真实与生成图像在特征空间的分布距离 | 越低越好 | 使用 Inception-V3 特征(常用 2048 维);需足够样本(建议≥1000)与相同分辨率;Stable Diffusion v1 官方卡片注明“Not optimized for FID”,需谨慎解读 |
| CLIP Score | 图文嵌入余弦相似度 | 越高越好 | 使用 CLIP ViT-L/14;对提示工程敏感,过高可能牺牲真实感 |
| FCN Score | 用真实数据上预训练的分类器对合成图分类的准确率 | 越高越好 | 反映“可识别性/语义正确性”,与任务相关 |
| PSNR / SSIM / LPIPS | 像素/结构/感知层面的相似度 | PSNR/SSIM 越高越好;LPIPS 越低越好 | 适合与参考图对比或风格迁移等任务,非生成质量通用指标 |
- 实现与工具要点:
- FID 可用 pytorch-fid 计算;CLIP 相似度可直接用 CLIP 模型计算余弦相似度;FCN 评分使用在真实数据上训练的分类器在合成图上推理。
- 采样稳定性:固定随机种子、控制变量;样本量过小会导致指标波动大。
数据集级质量与下游任务验证
- 合成数据质量四个关键问题(Cleanlab Studio 框架):
- 不真实 Unrealistic:合成样本看起来“假”;
- 不具代表性 Unrepresentative:遗漏真实分布的尾部/关键模式;
- 变化太少 Unvaried:样本高度重复、缺乏多样性;
- 非原创 Unoriginal:过度记忆训练集、与真实样本近似重复。
- 该框架输出四个定量分数(值越高表示问题越严重),可用于比较不同提示模板、采样参数或生成器的优劣。
- 下游任务验证(以分类为例):
- 用生成数据训练/增强,观察在目标数据集上的性能。研究显示,通过分布匹配改进的合成数据可显著提升效果:仅用合成数据在 ImageNet-1K 上达到 71%(ResNet-50),合成数据扩充到真实数据的 10× 时达 76%,逼近 79.6% 的真实数据水平;同时具备较好的 OOD 泛化 与 隐私保护 特性。
- 类别级可识别性检查:
- 以 ImageNet 预训练 ViT 作为“探针”,统计每个类别的正确识别数量与分布,可直观看到合成数据在不同语义簇上的强弱项(如动物类识别率偏低等),指导提示与类平衡策略。
评估流程与可复现实验设计
- 数据与提示:
- 真实数据应与目标任务同域;提示集建议≥100 条且覆盖长尾与关键属性;为每次评测固定随机种子与采样器,减少偶然性。
- 生成设置:
- 统一分辨率(如 512×512)、步数与采样器;报告 CFG scale 等关键超参;同一批次生成用于对比的多组样本。
- 指标计算:
- 计算 FID(真实 vs 合成)、CLIP Score(逐图或均值)、FCN Score(任务相关);若需参考图对比,补充 PSNR/SSIM/LPIPS。
- 下游验证:
- 按固定比例划分训练/验证;对比“仅真实”“真实+合成”“仅合成”的验证性能与 OOD 表现;记录样本量与训练曲线。
- 人工检查:
- 抽样进行 1–5 分 主观评分(视觉保真度、文本一致性、细节丰富度、创意新颖性、整体美感),用于解释自动指标无法覆盖的缺陷。
结果解读与常见陷阱
- 指标权衡与诊断:
- FID 高但 CLIP 高:图文匹配但风格/分布单一 → 增加采样多样性、调整 CFG scale;
- FID 低但 CLIP 低:图像质量尚可但与文本无关 → 优化提示、增强文本编码或指导权重;
- 评估结果波动大 → 增加样本量(>100)、固定随机种子与数据顺序。
- 指标局限与模型声明:
- FID 对样本量、特征层、分辨率敏感;Stable Diffusion v1 官方明确其并非针对 FID 优化,跨模型/跨设置对比需谨慎;必要时补充下游任务与人工评估。
- 记忆与版权风险:
- 使用“Real-Fake”等分布匹配方法可提升合成数据的分布一致性与隐私性,降低对真实数据的记忆风险;对敏感场景建议结合 MIA 等隐私评估。