GeneFace++提升数据处理速度的核心策略
GeneFace++采用音高编码器(Pitch Encoder)与HuBERT模型结合的方式,高效捕捉语音中的关键声学特征。音高编码器将连续音高值离散化为标记,确保音高信息的临时平滑性,同时简化训练过程;HuBERT作为自监督学习模型,能从语音中提取语速、重音、节奏等丰富特征,与音高信息互补,提升后续面部动作预测的准确性。这种特征提取方式避免了冗余信息处理,加快了音频数据的处理速度。
GeneFace++设计了音高感知音频到动作模型(Pitch-Aware Audio2Motion),将音高轮廓作为辅助特征融入音频到动作的映射过程。相较于传统仅依赖语音后验图(PPGs)的方法,音高信息能更精准地指导面部关键点(如眼角、嘴角)的运动预测,减少不必要的迭代计算,提高模型对任意语音输入的处理效率。
该模块是提升数据处理速度的关键创新之一。它采用可学习的3D特征网格编码3D空间信息,替代传统逐帧渲染的方式,大幅缩短了从面部动作到视频帧的生成时间。这种设计实现了高效的实时推理,使得虚拟人视频的生成能在短时间内完成,满足实时应用(如直播、实时互动)的需求。
Landmark LLE基于流形学习思想,通过对预测的面部关键点进行局部线性投影,改善其时间一致性和自然度。该后处理方法减少了因关键点预测误差导致的渲染问题(如面部扭曲),避免了反复调整关键点的计算开销,间接提升了整体数据处理流程的效率。
GeneFace++配套的数据处理脚本实现了自动化批量处理,涵盖音频特征提取(HuBERT及Mel特征)、视频截帧、人脸抠图、landmark提取及3DMM生成等步骤。这些脚本能快速处理大规模数据集,减少人工干预,提高数据准备的效率,为后续模型训练奠定基础。