OmniAvatar开发背景与技术架构
OmniAvatar作为中国顶尖学术机构与科技企业合作的产物,由浙江大学计算机辅助设计与图形学国家重点实验室与阿里巴巴达摩院智能计算实验室联合研发。该项目采用深度学习技术栈,通过多模态特征融合实现音频到视频的跨模态生成。其核心创新在于像素级多层次音频嵌入技术的应用,该技术能够将音频信号分解为音素、韵律和语义等多个层次的特征表达,再通过LoRA(Low-Rank Adaptation)训练方法实现与视觉特征的精准对齐。
项目开源模型包含1.3B和14B两种参数规模,分别面向消费级GPU和专业级硬件环境。技术实现上融合了Wav2Vec2语音特征提取模型与基于扩散模型的视频生成架构,在保持唇部同步精度的同时实现全身动作的自然协调。
本答案来源于文章《OmniAvatar:生成音频驱动的全身虚拟人物视频》