OmniAvatar是由浙江大学和阿里巴巴联合开发的开源项目,专注于通过音频输入生成全身虚拟人物视频。它基于深度学习技术,能够根据用户提供的音频和文本提示,生成具有高度自然感的虚拟人物动画。
它的核心功能包括:
- 音频驱动视频生成:根据输入的音频自动生成虚拟人物的全身动画,保证唇部动作与音频高度同步
- 文本提示控制:支持通过文本指令控制虚拟人物的情绪、动作和背景环境
- 多语言支持:可实现31种语言的唇部同步,包括中文、英文、日文等
- 全身动作协调:能生成自然的肩部运动、手势节奏等全身动画
- 场景交互:虚拟人物可以与场景中的物体进行互动
- 多分辨率输出:当前支持480p视频生成
Diese Antwort stammt aus dem ArtikelOmniAvatar: Generierung von audiogesteuerten Ganzkörper-Avatar-VideosDie