Veo 3 提示词工程：从入门到精通的实战指南

2025-07-18

1.6 K

在当前由 Sora、Kling 和 Runway 等模型共同定义的 AI 视频生成领域，Google 的 Veo 3 以其独特的原生音画同步生成能力脱颖而出。它不仅能渲染出高保真的视频画面，还能为其匹配相应的对话、音效和背景音乐。尽管其使用成本相对较高，但 Veo 3 无疑是目前市场上技术最全面的视频生成模型之一。

本文将深入解析 Veo 3 的提示词工程，覆盖从基础结构到高级音频控制的全部技巧。掌握这些方法，不仅能显著提升视频质量，也能有效降低因反复试错而产生的成本。这些核心的提示词原则，同样适用于其他主流的视频生成模型。

提示词的核心构成

精确、具体的提示词是获取理想视频的基础。一个结构完善的提示词，通常包含以下两类关键信息：

1. 核心内容描述
这部分定义了视频的“什么”和“哪里”。

主体 (Subject): 视频的主角。可以是一个或多个人物、动物或物体。应尽可能具体描述其外貌特征，如人种、发型、着装等。
场景 (Scene): 主体所处的环境，例如室内、城市街头、森林、海边等。
行为 (Action): 主体正在进行的动作，如行走、跳跃、交谈或操作物体。

2. 视听风格设定
这部分定义了视频的“感觉”和“呈现方式”。

风格 (Style): 视频的整体艺术风格，如写实电影感 (cinematic)、动漫 (anime)、定格动画 (claymation)、吉卜力风格 (Ghibli style) 等。
镜头运动 (Camera Movement): 描述镜头的动态，如推 (dolly in)、拉 (dolly out)、摇 (pan)、跟拍 (tracking shot) 等。专业的运镜指令能极大提升视频的电影感。
构图 (Composition): 画面的取景范围，如特写 (close-up)、中景 (medium shot) 或远景 (long shot)。可以直接沿用 MidJourney 中成熟的构图提示词。
氛围 (Mood/Lighting): 描述画面的光线和色调，例如暖色调 (warm tone)、冷色调 (cool tone)、诡异光效 (eerie glow) 或黄金时刻 (golden hour)。

通过下面两个例子，可以直观地看到提示词详略对生成结果的巨大影响。

简单提示词：

A man answers a rotary phone

详细提示词：

A shaky dolly zoom goes from a far away blur to a close-up cinematic shot of a desperate man in a weathered green trench coat as he picks up a rotary phone mounted on a gritty brick wall, bathed in the eerie glow of a green neon sign. The zoom reveals the tension and the desperation etched on his face as he struggles to talk on the phone. The shallow depth of field focuses on his furrowed brow and the black rotary phone, blurring the background into a sea of neon colors and indistinct shadows, creating a sense of urgency and isolation.

详细的提示词不仅定义了动作，更构建了情绪、光影和叙事感，从而生成了质量远超前者的视频片段。

定义视频的视觉风格

默认状态下，Veo 3 生成的视频偏向于专业、干净的商业或电影质感。要创造独特的视觉风格，必须在提示词中明确指定。

以下示例使用相同的核心描述，但应用了不同的风格指令。

原始核心提示词：

A bearded man in a flannel shirt and weathered jeans sits cross-legged beside a flickering campfire, its amber light casting soft, dancing shadows across the pine-needle-strewn ground of a quiet forest clearing. Across from him, just beyond the edge of the firelight, stands a massive grizzly bear, calm and still, its fur catching the warm glow, eyes reflecting the flames with eerie intelligence. The two shake hands, like they’re old friends.

在上述提示词开头加入 In the style of [style name]，可以得到截然不同的结果，例如：乐高风格 (LEGO)、定格动画 (Claymation)、南方公园 (South Park)、皮克斯动画 (Pixar animation)、8位像素复古 (8-bit retro)、漫画小说 (Graphic novel)、折纸 (Origami)、辛普森一家 (Simpsons)、蓝图 (Blueprint)、日式动漫 (Anime) 或大理石雕塑 (Marble) 等。

控制镜头运动

镜头运动是视频语言的基石。Veo 3 支持多种标准运镜指令，常见的包括：

eye level: 平视镜头
high angle: 高视角镜头
worm’s eye: 仰视镜头（虫视角）
dolly shot: 推拉镜头（摄影机物理移动）
zoom shot: 变焦镜头（画面放大或缩小）
pan shot: 横摇镜头（摄影机原地水平转动）
tracking shot: 跟随镜头

例如，你可以使用 Zoom in 实现画面放大，使用 Left to right pan 实现从左到右的摇镜。

生成流行的自拍 (Selfie) 风格视频

自拍风格视频因其真实感和代入感而备受青睐。要在 Veo 3 中生成逼真的自拍视频，可以组合使用以下三个核心要素：

A selfie video of...: 直接声明视频类型为自拍。
holds the camera at arm’s length. His arm is clearly visible in the frame.: 描述手臂在画面中可见，这是增强真实感的关键细节。
occasionally looking into the camera: “时不时看向镜头”的动作能让角色显得更加生动自然。

示例：

A selfie video of a travel blogger exploring a bustling Tokyo street market. She’s wearing a vintage denim jacket and has excitement in her eyes. The afternoon sun creates beautiful shadows between the vendor stalls. She’s sampling different street foods while talking, occasionally looking into the camera before turning to point at interesting stalls. The image is slightly grainy, looks very film-like. She speaks in a British accent and says: “Okay, you have to try this place when you visit Tokyo. The takoyaki here is absolutely incredible, and the vendor just told me it’s been in his family for three generations.” She ends with a thumbs up.

提升生成结果的多样性

与 MidJourney 等图像模型不同，Veo 3 在处理简单的提示词时，多次生成的结果趋同性很高。例如，使用 a woman laughs 多次生成，得到的视频在人物、着装和场景上可能都极为相似。

要打破这种单一性，获得更多样化的结果，唯一的办法就是增加提示词的细节和复杂度，即遵循第一部分介绍的详尽结构。

例如，通过添加场景和情绪细节，可以得到截然不同的结果：

提示词 1 (办公室场景):

a woman laughs long and loudly, she’s in an office meeting and she’s embarrassed afterwards

提示词 2 (家庭场景):

a woman laughs quietly, she’s at home watching a tv show

确保角色形象的一致性

在多段视频中保持角色一致性是创作叙事内容的关键。

首选方案：图像转视频 (Image-to-Video)
最可靠的方法是利用 Veo 3 支持图像输入的功能。推荐的工作流程是：首先使用专业的图像工具（如 MidJourney 的 omni reference 或 Flux.1 的 Kontext 模式）生成具有一致性的角色设计图，然后将该图作为视觉参考输入 Veo 3。

备选方案：利用文本提示词
如果不使用参考图，可以利用 Veo 3 在相同提示词下生成结果相似的特性。诀窍在于，在提示词中对角色的外貌特征进行极为详尽和一致的描述。

以下两个视频片段使用了包含相同角色描述的提示词，生成的人物形象几乎没有差别。

提示词 1:

John, a man in his 40s with short brown hair, wearing a blue jacket and glasses, looking thoughtful, he says: Hello, I am also John, and I look kind of the same as that guy over there (no subtitles!). He is in a bright light room.

提示词 2:

John, a man in his 40s with short brown hair, wearing a blue jacket and glasses, looking thoughtful, he says: Hello, my name is John, I am a character invented for this blog post (no subtitles!)

Flow 平台中的高级视频生成技巧

Veo 3 集成在 Google 的 Flow 平台中，提供了一些独特的高级功能。

指定首尾帧 (Specify Start and End Frames): 用户可以上传一张起始图片和一张结束图片，Veo 3 会自动生成两者之间的过渡视频，非常适合制作动态转场效果。
Extend 和 Jump to: 这是两种视频延长和扩展的方式。Extend 用于在当前视频的最后一帧基础上继续生成内容，适合故事的线性延伸。Jump to 则是提取视频中的某个角色，将其放置在一个全新的场景中，适合制作“角色穿越”式的创意视频。
Ingredients to Video: 这是一项强大的融合功能，允许用户上传多张参考图（如一个角色、一个物体、一个背景），Veo 3 会将这些“原料”融合进同一个生成的视频中。目前该功能仅向 Ultra 订阅用户（250美元/月）开放。

音频提示词的策略

Veo 3 的核心优势在于音频生成，以下是如何精确控制音频内容的方法。

生成人物对话

1. 精确指定台词

你可以直接在提示词中写入角色需要说的完整台词。但需要注意 Veo 3 单次生成的时长限制（通常为8秒）。台词过长，会导致语速过快且不自然；台词过短，则可能出现大段无声或角色说出一些无意义的填充词。

台词过长示例:

John, a man in his 40s with short brown hair, wearing a blue jacket and glasses, looking thoughtful, he says: You have given me a really long prompt, and I have to speak very quickly and unnaturally to try and fit all these words into just 8 seconds, I’m going to be out of breath at the end of this, phew.

台词过短示例:

John, a man in his 40s with short brown hair, wearing a blue jacket and glasses, looking thoughtful, he says: Hello, I’m John.

2. 设定目标，由 AI 创作台词

一种更高效的方式是，不提供具体台词，而是设定一个场景和目标，让 Veo 3 自行生成对话内容。这种方法往往能得到更自然的结果。

AI 自行创作笑话:

a standup comic tells an awkward joke at a music festival, sounds of distant bands, noisy crowd, ambient background of a busy festival field (no studio audience)

指定具体笑话内容:

a standup comic tells an awkward joke at a music festival: You know what’s great about music festivals? Watching 20,000 people pretend they knew this band before today while filming vertical videos they’ll never watch.

适合让 AI 发挥的场景包括：脱口秀、两人讨论、电话争吵、人物讲述故事等。

生成中文语音的挑战与现状

当前，通过 Veo 3 生成高质量的中文语音仍然是一个挑战。

在 Flow 平台中： 平台目前只接受英文提示词。生成中文语音的变通方法是使用汉语拼音，并明确指示 in Mandarin Chinese。但即便如此，生成的语音通常也只是音调和口型相似，并非标准普通话。
在 Gemini 平台中： Gemini 允许多语言输入，可以直接写入中文字幕。然而，其后台模型（目前多为 Veo 3 Fast）在中文处理上的效果依然不理想。

客观来说，由于训练数据和分词技术的差异，目前在中文语音生成方面，一些国产模型（如字节跳动的 即梦）表现出了更强的能力。

如何避免生成字幕

Veo 3 的训练数据中包含大量带字幕的视频，因此生成结果中也常常自带字幕。要抑制这种情况，可以尝试以下两种方法：

将台词放在英文冒号 : 之后，而非英文引号 "" 之中。引号内的文本更容易被模型解读为需要显示的字幕。
在提示词末尾明确加入 no subtitles。

生成音乐

音乐生成相对简单。你可以在提示词中详细描述音乐风格、乐器和节奏，也可以只给出一个大致方向（如 dramatic orchestral music），让 Veo 3 自行创作。

未经允许不得转载：AI生产力工具 » Veo 3 提示词工程：从入门到精通的实战指南

Veo 3 提示词工程：从入门到精通的实战指南

提示词的核心构成

定义视频的视觉风格

控制镜头运动

生成流行的自拍 (Selfie) 风格视频

提升生成结果的多样性

确保角色形象的一致性

Flow 平台中的高级视频生成技巧

音频提示词的策略

生成人物对话

生成中文语音的挑战与现状

如何避免生成字幕

生成音乐

相关推荐

找不到AI工具？在这试试！

选题→写作→发布，全自动！

热门AI工具

最新发布

最新AI工具

Veo 3 提示词工程：从入门到精通的实战指南

提示词的核心构成

定义视频的视觉风格

控制镜头运动

生成流行的自拍 (Selfie) 风格视频

提升生成结果的多样性

确保角色形象的一致性

Flow 平台中的高级视频生成技巧

音频提示词的策略

生成人物对话

生成中文语音的挑战与现状

如何避免生成字幕

生成音乐

相关推荐

找不到AI工具？在这试试！

选题→写作→发布，全自动！

热门AI工具

最新发布

最新AI工具

快速查询站内AI工具