使用HeyGem进行外貌与声音克隆需要准备以下素材并按照步骤操作:
- Prepare material::
- 语音素材:录制一段10-30秒清晰的语音(WAV格式),存放于
D:heygem_datavoicedata
Catalog. - 图像素材:拍摄一张正面高清照片,存放于
D:heygem_dataface2face
Catalog.
- 语音素材:录制一段10-30秒清晰的语音(WAV格式),存放于
- Run Clone Function::
- 启动客户端,进入”模型训练”界面。
- 调用API接口
http://127.0.0.1:18180/v1/preprocess_and_tran
,输入包含音频路径和语言代码的参数。 - 获取返回结果(音频路径和文本)保存备用。
- caveat::
- 照片需光线均匀,面部清晰可见。
- 语音应无背景杂音,吐字清晰。
- 可通过调整API参数优化克隆效果。
完成克隆后,AI将基于用户提供的素材建立高保真的数字形象,包括外貌特征和声音特质。这些克隆结果可以用于后续的文字或语音驱动视频制作。
This answer comes from the articleHeyGem: Silicon Intelligence's Open Source Heygen Digital Human PantographsThe