方法论｜Prompt测试方法框架

type

status

date

slug

summary

一、测试集

通过基础测试集，大概掌握该模型的出图特征、风格、效果盲区（如某些模型在绘制手部、配饰等等效果不佳），帮助下一步进行精细化+结构化的划分和筛选专业的测试集。

选取一组 多样化的头像图（比如 10 张），这些图尽量覆盖常见情况：

这样能观察出 prompt 在各种原始条件下的表现。

结合前期的基础测试的经验，把可能影响效果的因素列出来，然后确保每种类型都被覆盖到。换句话说，不是“随便挑10张图”，而是把可能影响效果的因素列出来，然后确保每种类型都被覆盖到。

可量化的变量维度：

👉 每个维度挑1～2种代表图像，构成一个高覆盖率的小型测试集（比如控制在20张以内，便于高效迭代）。

“基础测试集”虽然是一个起点，但它不能完全覆盖所有变量和情况，特别是要做的是换发型这种“强依赖底图”的任务。

用相同的 prompt 在这组图上做测试

比如测试 "bleached buzzcut" 这个 prompt，就拿这 10 张图全都跑一遍，观察：

比如发现：

最终就能得到：

不同图匹配不同 prompt 模板（可手动，也可半自动）

比如：

这样在工程上就能提升整体稳定性。

经济的解决方案就是加再多的判断条件，但是根本的解决方案还是要提高基础模型的生图实力和逻辑，通过半监督学习的机制用badcase来不断优化模型，使其适配性和泛化能力更强。

测试集只是模拟，最终还是要根据真实用户上传的图片类型做反向建模，例如：

先用 log 或人工标注统计一下用户上传图的分布类型，再反向优化 prompt 的适配范围和主力方向。