要成功运行MultiTalk,需要准备三类核心输入文件:
1. 音频文件
- 格式要求:WAV格式(建议16kHz采样率)
- 数量要求:与参与对话的角色数量一致
- 质量要求:清晰无噪声,建议单声道录音
2. 参考图像
- 角色形象:包含面部特征的清晰图像
- 风格兼容:支持真实照片或卡通图片
- 背景建议:纯色背景更易处理
3. 文本提示
- 场景描述:如”两人在咖啡厅交谈”
- 行为指定:如”女性点头微笑,男性展示手机”
- 风格控制:对卡通角色可指定”迪士尼风格”等
所有输入文件需要通过JSON配置文件进行组织和关联,示例可参考项目文档中的template。
Essa resposta foi extraída do artigoMultiTalk: uma ferramenta orientada por áudio para gerar vídeos de conversas com várias pessoasO