ChatAnyone是由HumanAIGC团队开发的AI数字人生成工具,其核心功能是通过单张肖像照片和音频输入,自动生成具有上半身动作(包括头部转动、手势变化和表情)的数字人视频。该项目基于层次运动扩散模型技术,主要特点包括:
- 多模态输入输出:将静态图像与声音结合转化为动态视频
- 动作生成能力:支持头部动作(如点头)、6种基础手势(如比心、挥手)以及唇部同步
- 专业级输出:最高支持512×768分辨率、30FPS的视频生成,在NVIDIA 4090 GPU上可实现高效渲染
与同类工具相比,其特色在于专注上半身动态细节的精细化处理,适用于虚拟形象展示、动画制作等技术场景。目前项目以技术展示为主,通过GitHub分享实现细节但暂未完全开源。
本答案来源于文章《ChatAnyone:从照片生成半身数字人肖像视频的工具》