虽然ChatAnyone当前尚未开放公测,但根据官方文档披露的操作逻辑,生成数字人视频需要以下步骤和素材准备:
基础素材要求
- 肖像照片:建议使用正面清晰的人像照片,背景简洁为佳(官方示例多采用肩部以上特写)
- 音频文件:需要提供.wav或.mp3格式的清晰录音,时长建议控制在3分钟以内
生成流程
- 将照片和音频上传至系统(未来可能通过API或客户端实现)
- AI模型自动分析音频韵律特征,同步生成唇部动作序列
- 运动扩散模型根据语音节奏驱动虚拟骨骼系统,输出头部、肩部、手势的连贯动作
- 渲染引擎合成最终视频(约30秒内完成)
值得注意的是,当前项目对硬件有较高要求,需配备高端GPU才能达到宣传效果,普通用户可通过GitHub的示例视频了解生成质量。
本答案来源于文章《ChatAnyone:从照片生成半身数字人肖像视频的工具》