从零到一：用 Coze 和剪映搭建你的第一个 AI 视频自动化工作流

2025-07-29

2.1 K

一种新的视频制作模式正在兴起。过去需要专业团队协作的视频流程，如今在 AI 的加持下，被压缩为少数几个步骤，搭建起一条自动化生产线。从文案构思、语音合成到剪辑输出，整个过程最快能在半小时内搭建完成，而单条视频的生成成本仅需几元，耗时数秒。

这套自动化的核心，是基于字节跳动旗下的 Coze (扣子) 与 剪映 两款工具的协同。它们共同构成了一个工作流搭建平台，让许多在社交媒体上被验证成功的视频类型，如科普知识、历史故事、心理疗愈等，都可以被封装成可复制的模板。制作者需要做的，仅仅是输入一个主题或关键词，AI 便能自动执行后续所有流程，并将最终成品草稿直接发送到 剪映 中，供人工微调或直接发布。

在 Coze 的智能体生态中，这些封装好的工作流模板正变得随处可见。此前在抖音、小红书等平台获得大量关注的像素风、治愈奶奶、古人养生等视频风格，现在都成了“一键生成”的数字商品。用户通常通过扫描二维码或访问特定链接被引导至社群，以获取这些模板，这催生了新的商业模式：出售工作流。

这些工作流的开发者，即被形象地称为“卖铲人”的群体，通过在平台上架设智能体和插件获得官方分成。同时，他们也通过私下交易，提供课程、社群会员、定制工作流等服务来实现变现。

近期，Coze 官方宣布将其开发平台 Coze Studio 及运维平台 Coze Loop 开源，采用 Apache 2.0 协议。这意味着任何开发者和公司都可以免费使用、修改和再发行其源代码用于商业目的。这一举措极大地推动了 AI 工作流的普及化，为中小开发者提供了强大的底层工具。

GitHub 项目地址:

https://github.com/coze-dev/coze-studio

那么，这些自动化视频工作流是如何搭建的？它真的能完全取代人工吗？我们实际操作并拆解了整个流程。

实测：搭建“古人养生”视频工作流

搭建任何视频工作流之前，首先要梳理其生成逻辑。以“古人养生”这类视频为例，其核心元素包括：文案、与文案匹配的图片、背景旁白。

因此，工作流的核心逻辑可以拆解为：输入主题 -> AI 生成文案 -> AI 生成分镜脚本 -> AI 生成图片 -> AI 合成语音 -> 组合导出。

接下来的步骤展示了如何在 Coze 中将这些逻辑节点串联起来，搭建一个完整的工作流。

首先，打开 Coze 网站，在工作空间中创建一个新的工作流。面板上会默认带有“开始”和“结束”两个基础节点。

第一步：生成视频主题和文案

工作流的起点是响应用户输入，因此需要一个大语言模型节点。我们通过设定提示词（Prompt）来指令 AI 根据用户输入的关键词生成特定风格的文案。

模型的角色设定（System Prompt）非常关键，它决定了 AI 的输出风格。

完整的系统提示词如下：

# 角色
你是一位擅长创作养生知识、接地气且人间清醒的文字创作者。你能够根据用户输入的内容，提炼深层感悟，用真挚且通俗易懂的语言，结合精炼、有反差和亮点的短句组合，生成一段不超过100字，能够引发深思以及学习养生之道的文本。
# 技能
- 创作精炼有意思且通俗易懂的养生知识语句。
- 当用户输入相关内容并要求创作精炼接地气的养生知识内容时，深入分析用户输入内容，挖掘其中普遍存在的养生知识内容、生活常识以及能够引发普通人共鸣的养生之道。
- 提炼核心内容，用贴近生活、朴实无华的语言，将其转换为一系列直击人心、易于理解的短句或短语。
- 通过巧妙组合这些知识，形成一段整体不超过100字的文本，组合方式应自然流畅，或通过生活化的对比、温和的转折，制造令人眼前一亮，容易记住的亮点和共鸣。
- 确保每次生成的文本紧密围绕用户输入，又能从中提炼出普通人都能理解的养生学知识和建议。
- 每次根据不同的输入、生成的内容风格、情感侧重或表达方式应体现差异化，避免模式化。
- 仅输出和内容有关的内容，引导或无关内容均不输出。
# 限制
- 回答内容必须围绕用户输入内容，仅回答养生知识相关内容，创作通俗易懂、接地气的语句组合，拒绝回答无关话题。
- 所输出内容必须是原创创作，不得抄袭已有内容。
- 生成的整段文本的总字数（不含标点符号），不得超过100字。

第二步：生成视频分镜

文案生成后，需要将其转化为视频的分镜脚本。这同样需要一个大语言模型节点，其输入为上一步生成的文案，输出为结构化的分镜描述、字幕和图片生成提示词。

对应的系统提示词：

# 角色
你是一位专业且资深的国风水墨画老爷爷视频创作者，拥有养生学博士学位，在国风养生老爷爷视频创作领域经验极为丰富。你不仅能够深入理解用户需求，还擅长依据给定关键词，精心创作出高质量的国风水墨画老爷爷视频分镜脚本、相应字幕以及画面提示词。
# 技能
- 生成古代国风水墨画老爷爷视频相关内容。
- 仔细从用户给到的{{doc}}中合理分割得出字幕内容。
- 将分割得出的字幕另外输出一个对应的英文翻译版本。
- 根据分割出来的每一句内容，生成符合养生主题的国风水墨画老爷爷图案的详细描述词。
- 对生成的分镜脚本，检查动作描述是否清晰明确，若不清晰需进一步细化。
- 科学合理地设置分镜脚本的时长，确保整体视频节奏流畅。
# 限制
- 仅围绕生成国风水墨画老爷爷视频相关内容进行回复，坚决拒绝回答无关话题。
- 所输出的分镜脚本、字幕、画面提示词必须严格符合相应要求，任何内容都不能偏离框架要求。
- 分镜脚本的动作描述要精准清晰，时长设置要科学合理且符合实际创作逻辑。