海外访问:www.kdjingpai.com
Ctrl + D 收藏本站

Paper2Video 是一个开源项目,旨在将研究人员从准备学术演讲视频的繁重工作中解放出来。 该项目核心是一个名为 PaperTalker 的多智能体框架,它能接收一篇用 LaTeX 编写的论文、一张演讲者的参考图片和一段参考音频,然后全自动地生成一个完整的演讲视频。 PaperTalker 会自动完成从内容提取、幻灯片(Slides)制作、字幕生成、语音合成、鼠标轨迹、到虚拟数字人演讲视频渲染的整个流程。 为了科学地评估生成视频的质量,该项目还提出了一个名为 Paper2Video 的评测基准,包含101篇论文及对应的作者演讲视频,并设计了多个评估维度来衡量视频能否准确传达论文信息。

 

功能列表

  • 多智能体协作:使用包括幻灯片生成器、字幕生成器在内的多个智能体分工协作,完成复杂的视频生成任务。
  • 自动化幻灯片生成:直接从 LaTeX 论文源码中提取核心内容,自动生成适用于演讲的幻灯片,并能通过编译反馈优化排版布局。
  • 语音与字幕合成:根据幻灯片内容生成对应的演讲稿,并利用文本转语音(TTS)技术合成音频,同时生成时间戳精确对齐的字幕。
  • 鼠标轨迹模拟:分析演讲内容和幻灯片元素,自动生成模拟真人的鼠标移动和点击轨迹,用于在讲解时指引观众的注意力。
  • 虚拟数字人生成:仅需一张演讲者的正面照片,即可生成一个在视频中进行演讲的虚拟数字人(Talking Head),让视频更具表现力。
  • 并行处理:对每一页幻灯片的相关生成任务(如语音、鼠标轨迹等)进行并行处理,大幅提升视频生成的效率。
  • 两种生成模式:提供包含虚拟数字人的完整模式和不含虚拟数字人的快速模式,用户可以根据需求进行选择。

使用帮助

Paper2Video 提供了一个自动化的管道,可以将 LaTeX 格式的论文项目、演讲者图片和音频样本合成为一个完整的学术演讲视频。

1. 环境准备

开始前,需要准备好项目运行所需的环境。推荐使用 Conda 创建独立的 Python 环境以避免包版本冲突。

主要环境安装:
首先,克隆项目代码并进入 src 目录,然后创建并激活 Conda 环境。

git clone https://github.com/showlab/Paper2Video.git
cd Paper2Video/src
conda create -n p2v python=3.10
conda activate p2v

接着,安装所有必需的 Python 依赖包和 LaTeX 编译器 tectonic

pip install -r requirements.txt
conda install -c conda-forge tectonic

虚拟数字人环境安装(可选):
如果不需要生成虚拟数字人演讲视频(即运行快速版),可以跳过此步骤。虚拟数字人功能依赖 Hallo2 项目,需要为其创建一个独立的环境。

# 在 Paper2Video 项目根目录下
git clone https://github.com/fudan-generative-vision/hallo2.git
cd hallo2
conda create -n hallo python=3.10
conda activate hallo
pip install -r requirements.txt

安装完成后,你需要记下这个 hallo 环境的 Python 解释器路径,后续运行时会用到。可以通过以下命令查找路径:

which python

2. 配置大语言模型 (LLM)

Paper2Video 的内容理解和生成能力依赖于强大的大语言模型。你需要配置你的 API 密钥。项目推荐使用 GPT-4.1Gemini 2.5-Pro 以获得最佳效果。

在终端中导出你的 API 密钥作为环境变量:

export GEMINI_API_KEY="你的Gemini密钥"
export OPENAI_API_KEY="你的OpenAI密钥"

3. 执行视频生成

Paper2Video 提供了两个主要的执行脚本:pipeline_light.py 用于快速生成(不含虚拟数字人),pipeline.py 用于生成包含虚拟数字人的完整版视频。

最低硬件要求:推荐使用至少配备 48GB显存的 NVIDIA A6000 GPU 来运行此流程。

快速模式(不含虚拟数字人)

这个模式会跳过耗时较长的虚拟数字人渲染步骤,快速生成带有配音、字幕和鼠标轨迹的幻灯片视频。
执行以下命令:

python pipeline_light.py \
--model_name_t gpt-4.1 \
--model_name_v gpt-4.1 \
--result_dir /path/to/output \
--paper_latex_root /path/to/latex_proj \
--ref_img /path/to/ref_img.png \
--ref_audio /path/to/ref_audio.wav \
--gpu_list [0,1,2,3,4,5,6,7]

完整模式(包含虚拟数字人)

这个模式会执行所有步骤,生成一个包含演讲者画面的完整视频。
执行以下命令:

python pipeline.py \
--model_name_t gpt-4.1 \
--model_name_v gpt-4.1 \
--model_name_talking hallo2 \
--result_dir /path/to/output \
--paper_latex_root /path/to/latex_proj \
--ref_img /path/to/ref_img.png \
--ref_audio /path/to/ref_audio.wav \
--talking_head_env /path/to/hallo2_env \
--gpu_list [0,1,2,3,4,5,6,7]

参数说明

  • model_name_t: 用于处理文本任务的大语言模型名称,例如 gpt-4.1
  • result_dir: 输出结果的保存目录,包括生成的幻灯片、视频等。
  • paper_latex_root: 你的 LaTeX 论文项目根目录。
  • ref_img: 演讲者的参考图片,必须是正方形的人像照片。
  • ref_audio: 演讲者的参考音频,用于克隆音色,推荐提供10秒左右的样本。
  • talking_head_env: (仅完整模式需要)之前安装的 hallo 环境的 Python 解释器路径。
  • gpu_list: 用于并行计算的 GPU 设备列表。

运行结束后,你可以在指定的 result_dir 目录中找到所有中间文件和最终生成的视频。

应用场景

  1. 学术会议报告
    研究人员可以利用 Paper2Video,快速将自己的论文转化为视频报告,用于线上会议分享或作为会议提交材料。这大大节省了手动制作幻灯片和录制视频的时间。
  2. 研究成果传播
    将复杂的论文内容制作成易于理解的视频,发布在社交媒体或视频平台,可以帮助研究成果触及更广泛的受众,提升学术影响力。
  3. 教育和课程材料
    教师和学者可以将经典的或最新的学术论文转化为教学视频,作为课程材料,帮助学生更直观地理解前沿的科学知识。
  4. 论文预讲和排练
    在正式进行线下答辩或报告前,作者可以使用该工具生成一个预览视频,检查报告的逻辑流程、时间控制和视觉效果,从而进行优化和迭代。

QA

  1. 这个项目解决了什么核心问题?
    此项目主要解决学术演讲视频制作耗时耗力的问题。传统上,研究人员需要花费大量时间设计幻灯片、撰写讲稿、录音和剪辑。Paper2Video 通过自动化的方式,旨在将研究者从这项繁琐的任务中解放出来。
  2. 生成一个视频需要准备哪些输入文件?
    你需要准备三样东西:一篇使用 LaTeX 格式编写的完整论文项目、一张演讲者的正面方形照片、以及一段约10秒的演讲者参考录音。
  3. 我对硬件要求不了解,我的普通电脑可以运行吗?
    该项目对硬件的要求非常高,特别是GPU。官方推荐至少使用拥有48GB显存的 NVIDIA A6000 GPU。普通的个人电脑或笔记本电脑很可能无法运行完整的生成流程,特别是包含虚拟数字人渲染的部分。
  4. 如果我不想在视频中露脸,可以使用这个工具吗?
    可以。项目提供了 pipeline_light.py 脚本,它会运行一个快速模式,生成包含所有核心元素(幻灯片、配音、字幕、鼠标轨迹)的视频,但不会包含虚拟数字人画面。这个模式对计算资源的要求也相对较低。
0已收藏
0已赞

相关推荐

找不到AI工具?在这试试!

输入关键词,即可 无障碍访问 必应 搜索,快速找到本站所有 AI 工具。

回顶部

zh_CN简体中文