Paper2Video：从科研论文自动生成演讲视频的智能工具

2025-10-18

1.0 K 14

复制

Paper2Video 是一个开源项目，旨在将研究人员从准备学术演讲视频的繁重工作中解放出来。该项目核心是一个名为 PaperTalker 的多智能体框架，它能接收一篇用 LaTeX 编写的论文、一张演讲者的参考图片和一段参考音频，然后全自动地生成一个完整的演讲视频。 PaperTalker 会自动完成从内容提取、幻灯片（Slides）制作、字幕生成、语音合成、鼠标轨迹、到虚拟数字人演讲视频渲染的整个流程。为了科学地评估生成视频的质量，该项目还提出了一个名为 Paper2Video 的评测基准，包含101篇论文及对应的作者演讲视频，并设计了多个评估维度来衡量视频能否准确传达论文信息。

功能列表

多智能体协作：使用包括幻灯片生成器、字幕生成器在内的多个智能体分工协作，完成复杂的视频生成任务。
自动化幻灯片生成：直接从 LaTeX 论文源码中提取核心内容，自动生成适用于演讲的幻灯片，并能通过编译反馈优化排版布局。
语音与字幕合成：根据幻灯片内容生成对应的演讲稿，并利用文本转语音（TTS）技术合成音频，同时生成时间戳精确对齐的字幕。
鼠标轨迹模拟：分析演讲内容和幻灯片元素，自动生成模拟真人的鼠标移动和点击轨迹，用于在讲解时指引观众的注意力。
虚拟数字人生成：仅需一张演讲者的正面照片，即可生成一个在视频中进行演讲的虚拟数字人（Talking Head），让视频更具表现力。
并行处理：对每一页幻灯片的相关生成任务（如语音、鼠标轨迹等）进行并行处理，大幅提升视频生成的效率。
两种生成模式：提供包含虚拟数字人的完整模式和不含虚拟数字人的快速模式，用户可以根据需求进行选择。

使用帮助

Paper2Video 提供了一个自动化的管道，可以将 LaTeX 格式的论文项目、演讲者图片和音频样本合成为一个完整的学术演讲视频。

1. 环境准备

开始前，需要准备好项目运行所需的环境。推荐使用 Conda 创建独立的 Python 环境以避免包版本冲突。

主要环境安装：
首先，克隆项目代码并进入 src 目录，然后创建并激活 Conda 环境。

git clone https://github.com/showlab/Paper2Video.git
cd Paper2Video/src
conda create -n p2v python=3.10
conda activate p2v

接着，安装所有必需的 Python 依赖包和 LaTeX 编译器 tectonic。

pip install -r requirements.txt
conda install -c conda-forge tectonic

虚拟数字人环境安装（可选）：
如果不需要生成虚拟数字人演讲视频（即运行快速版），可以跳过此步骤。虚拟数字人功能依赖 Hallo2 项目，需要为其创建一个独立的环境。

# 在 Paper2Video 项目根目录下
git clone https://github.com/fudan-generative-vision/hallo2.git
cd hallo2
conda create -n hallo python=3.10
conda activate hallo
pip install -r requirements.txt

安装完成后，你需要记下这个 hallo 环境的 Python 解释器路径，后续运行时会用到。可以通过以下命令查找路径：

which python

2. 配置大语言模型 (LLM)

Paper2Video 的内容理解和生成能力依赖于强大的大语言模型。你需要配置你的 API 密钥。项目推荐使用 GPT-4.1 或 Gemini 2.5-Pro 以获得最佳效果。

在终端中导出你的 API 密钥作为环境变量：

export GEMINI_API_KEY="你的Gemini密钥"
export OPENAI_API_KEY="你的OpenAI密钥"

3. 执行视频生成

Paper2Video 提供了两个主要的执行脚本：pipeline_light.py 用于快速生成（不含虚拟数字人），pipeline.py 用于生成包含虚拟数字人的完整版视频。

最低硬件要求：推荐使用至少配备 48GB显存的 NVIDIA A6000 GPU 来运行此流程。

快速模式（不含虚拟数字人）

这个模式会跳过耗时较长的虚拟数字人渲染步骤，快速生成带有配音、字幕和鼠标轨迹的幻灯片视频。
执行以下命令：

python pipeline_light.py \
--model_name_t gpt-4.1 \
--model_name_v gpt-4.1 \
--result_dir /path/to/output \
--paper_latex_root /path/to/latex_proj \
--ref_img /path/to/ref_img.png \
--ref_audio /path/to/ref_audio.wav \
--gpu_list [0,1,2,3,4,5,6,7]

完整模式（包含虚拟数字人）

这个模式会执行所有步骤，生成一个包含演讲者画面的完整视频。
执行以下命令：

python pipeline.py \
--model_name_t gpt-4.1 \
--model_name_v gpt-4.1 \
--model_name_talking hallo2 \
--result_dir /path/to/output \
--paper_latex_root /path/to/latex_proj \
--ref_img /path/to/ref_img.png \
--ref_audio /path/to/ref_audio.wav \
--talking_head_env /path/to/hallo2_env \
--gpu_list [0,1,2,3,4,5,6,7]

参数说明

model_name_t: 用于处理文本任务的大语言模型名称，例如 gpt-4.1。
result_dir: 输出结果的保存目录，包括生成的幻灯片、视频等。
paper_latex_root: 你的 LaTeX 论文项目根目录。
ref_img: 演讲者的参考图片，必须是正方形的人像照片。
ref_audio: 演讲者的参考音频，用于克隆音色，推荐提供10秒左右的样本。
talking_head_env: （仅完整模式需要）之前安装的 hallo 环境的 Python 解释器路径。
gpu_list: 用于并行计算的 GPU 设备列表。

运行结束后，你可以在指定的 result_dir 目录中找到所有中间文件和最终生成的视频。

应用场景

学术会议报告
研究人员可以利用 Paper2Video，快速将自己的论文转化为视频报告，用于线上会议分享或作为会议提交材料。这大大节省了手动制作幻灯片和录制视频的时间。
研究成果传播
将复杂的论文内容制作成易于理解的视频，发布在社交媒体或视频平台，可以帮助研究成果触及更广泛的受众，提升学术影响力。
教育和课程材料
教师和学者可以将经典的或最新的学术论文转化为教学视频，作为课程材料，帮助学生更直观地理解前沿的科学知识。
论文预讲和排练
在正式进行线下答辩或报告前，作者可以使用该工具生成一个预览视频，检查报告的逻辑流程、时间控制和视觉效果，从而进行优化和迭代。

QA

这个项目解决了什么核心问题？
此项目主要解决学术演讲视频制作耗时耗力的问题。传统上，研究人员需要花费大量时间设计幻灯片、撰写讲稿、录音和剪辑。Paper2Video 通过自动化的方式，旨在将研究者从这项繁琐的任务中解放出来。
生成一个视频需要准备哪些输入文件？
你需要准备三样东西：一篇使用 LaTeX 格式编写的完整论文项目、一张演讲者的正面方形照片、以及一段约10秒的演讲者参考录音。
我对硬件要求不了解，我的普通电脑可以运行吗？
该项目对硬件的要求非常高，特别是GPU。官方推荐至少使用拥有48GB显存的 NVIDIA A6000 GPU。普通的个人电脑或笔记本电脑很可能无法运行完整的生成流程，特别是包含虚拟数字人渲染的部分。
如果我不想在视频中露脸，可以使用这个工具吗？
可以。项目提供了 pipeline_light.py 脚本，它会运行一个快速模式，生成包含所有核心元素（幻灯片、配音、字幕、鼠标轨迹）的视频，但不会包含虚拟数字人画面。这个模式对计算资源的要求也相对较低。

AI开源项目

AI生产力工具 » Paper2Video：从科研论文自动生成演讲视频的智能工具发布于 2025-10-18，如发现网址过期，或无法访问，请联系我们。

0已收藏

0已赞

Paper2Video：从科研论文自动生成演讲视频的智能工具

功能列表

使用帮助

1. 环境准备

2. 配置大语言模型 (LLM)

3. 执行视频生成

快速模式（不含虚拟数字人）

完整模式（包含虚拟数字人）

参数说明

应用场景

QA

相关文章

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

Paper2Video：从科研论文自动生成演讲视频的智能工具

功能列表

使用帮助

1. 环境准备

2. 配置大语言模型 (LLM)

3. 执行视频生成

快速模式（不含虚拟数字人）

完整模式（包含虚拟数字人）

参数说明

应用场景

QA

相关文章

相关推荐

找不到AI工具？在这试试！

热门AI工具

最新发布

最新AI工具

快速查询站内AI工具