一种新的视频制作模式正在兴起。过去需要专业团队协作的视频流程,如今在 AI 的加持下,被压缩为少数几个步骤,搭建起一条自动化生产线。从文案构思、语音合成到剪辑输出,整个过程最快能在半小时内搭建完成,而单条视频的生成成本仅需几元,耗时数秒。
这套自动化的核心,是基于字节跳动旗下的 Coze
(扣子) 与 剪映
两款工具的协同。它们共同构成了一个工作流搭建平台,让许多在社交媒体上被验证成功的视频类型,如科普知识、历史故事、心理疗愈等,都可以被封装成可复制的模板。制作者需要做的,仅仅是输入一个主题或关键词,AI 便能自动执行后续所有流程,并将最终成品草稿直接发送到 剪映
中,供人工微调或直接发布。
在 Coze
的智能体生态中,这些封装好的工作流模板正变得随处可见。此前在抖音、小红书等平台获得大量关注的像素风、治愈奶奶、古人养生等视频风格,现在都成了“一键生成”的数字商品。用户通常通过扫描二维码或访问特定链接被引导至社群,以获取这些模板,这催生了新的商业模式:出售工作流。
这些工作流的开发者,即被形象地称为“卖铲人”的群体,通过在平台上架设智能体和插件获得官方分成。同时,他们也通过私下交易,提供课程、社群会员、定制工作流等服务来实现变现。
近期,Coze
官方宣布将其开发平台 Coze Studio
及运维平台 Coze Loop
开源,采用 Apache 2.0
协议。这意味着任何开发者和公司都可以免费使用、修改和再发行其源代码用于商业目的。这一举措极大地推动了 AI
工作流的普及化,为中小开发者提供了强大的底层工具。
GitHub 项目地址:
https://github.com/coze-dev/coze-studio
那么,这些自动化视频工作流是如何搭建的?它真的能完全取代人工吗?我们实际操作并拆解了整个流程。
实测:搭建“古人养生”视频工作流
搭建任何视频工作流之前,首先要梳理其生成逻辑。以“古人养生”这类视频为例,其核心元素包括:文案、与文案匹配的图片、背景旁白。
因此,工作流的核心逻辑可以拆解为:输入主题 -> AI 生成文案 -> AI 生成分镜脚本 -> AI 生成图片 -> AI 合成语音 -> 组合导出。
接下来的步骤展示了如何在 Coze
中将这些逻辑节点串联起来,搭建一个完整的工作流。
首先,打开 Coze
网站,在工作空间中创建一个新的工作流。面板上会默认带有“开始”和“结束”两个基础节点。
第一步:生成视频主题和文案
工作流的起点是响应用户输入,因此需要一个大语言模型节点。我们通过设定提示词(Prompt)来指令 AI
根据用户输入的关键词生成特定风格的文案。
模型的角色设定(System Prompt)非常关键,它决定了 AI
的输出风格。
完整的系统提示词如下:
# 角色
你是一位擅长创作养生知识、接地气且人间清醒的文字创作者。你能够根据用户输入的内容,提炼深层感悟,用真挚且通俗易懂的语言,结合精炼、有反差和亮点的短句组合,生成一段不超过100字,能够引发深思以及学习养生之道的文本。
# 技能
- 创作精炼有意思且通俗易懂的养生知识语句。
- 当用户输入相关内容并要求创作精炼接地气的养生知识内容时,深入分析用户输入内容,挖掘其中普遍存在的养生知识内容、生活常识以及能够引发普通人共鸣的养生之道。
- 提炼核心内容,用贴近生活、朴实无华的语言,将其转换为一系列直击人心、易于理解的短句或短语。
- 通过巧妙组合这些知识,形成一段整体不超过100字的文本,组合方式应自然流畅,或通过生活化的对比、温和的转折,制造令人眼前一亮,容易记住的亮点和共鸣。
- 确保每次生成的文本紧密围绕用户输入,又能从中提炼出普通人都能理解的养生学知识和建议。
- 每次根据不同的输入、生成的内容风格、情感侧重或表达方式应体现差异化,避免模式化。
- 仅输出和内容有关的内容,引导或无关内容均不输出。
# 限制
- 回答内容必须围绕用户输入内容,仅回答养生知识相关内容,创作通俗易懂、接地气的语句组合,拒绝回答无关话题。
- 所输出内容必须是原创创作,不得抄袭已有内容。
- 生成的整段文本的总字数(不含标点符号),不得超过100字。
第二步:生成视频分镜
文案生成后,需要将其转化为视频的分镜脚本。这同样需要一个大语言模型节点,其输入为上一步生成的文案,输出为结构化的分镜描述、字幕和图片生成提示词。
对应的系统提示词:
# 角色
你是一位专业且资深的国风水墨画老爷爷视频创作者,拥有养生学博士学位,在国风养生老爷爷视频创作领域经验极为丰富。你不仅能够深入理解用户需求,还擅长依据给定关键词,精心创作出高质量的国风水墨画老爷爷视频分镜脚本、相应字幕以及画面提示词。
# 技能
- 生成古代国风水墨画老爷爷视频相关内容。
- 仔细从用户给到的{{doc}}中合理分割得出字幕内容。
- 将分割得出的字幕另外输出一个对应的英文翻译版本。
- 根据分割出来的每一句内容,生成符合养生主题的国风水墨画老爷爷图案的详细描述词。
- 对生成的分镜脚本,检查动作描述是否清晰明确,若不清晰需进一步细化。
- 科学合理地设置分镜脚本的时长,确保整体视频节奏流畅。
# 限制
- 仅围绕生成国风水墨画老爷爷视频相关内容进行回复,坚决拒绝回答无关话题。
- 所输出的分镜脚本、字幕、画面提示词必须严格符合相应要求,任何内容都不能偏离框架要求。
- 分镜脚本的动作描述要精准清晰,时长设置要科学合理且符合实际创作逻辑。
第三步:批量生成分镜图片
有了每段分镜的画面描述词(即图片 Prompt
),下一步就是生成图片。由于每个视频包含多张图片,这里需要使用“批处理”节点,让 AI
循环执行图片生成任务。
在批处理节点内部,可以串联多个工具。首先是图像生成节点。
为了确保视频风格统一,可以使用“抠图”工具移除背景,或将主体形象叠加到统一的背景上。
最后,通过“画板”工具预设最终画面的布局,例如确定字幕的位置、画面的比例(横屏或竖屏)等。
第四步:生成语音朗读
音频方面,Coze
内置了“语音合成”官方插件。直接调用该插件,将第一步生成的文案作为输入,并选择合适的音色和语速,即可生成旁白。
第五步:导出至剪映
目前,将 Coze
工作流与 剪映
连接,普遍依赖于第三方开发的“剪映小助手”插件。通过调用该插件中的 create_craft
功能,可以将前面生成的所有素材(图片、音频、字幕)打包成一个剪映草稿。
设置好草稿参数和素材参数后,将所有节点连接到“结束”模块,一个完整的工作流便搭建完毕。
运行工作流后会生成一个草稿链接,在安装了“剪映小助手”的电脑上打开该链接,素材便会自动同步到 剪映
软件中。
这个工作流只是一个基础模板。通过修改系统提示词和调用的工具节点,可以衍生出各种风格的视频,如火柴人动画、学习vlog、清醒老奶奶语录等。
更复杂的视频,例如此前流行的像素风格短片,则通过嵌套工作流(一个工作流调用另一个工作流)的方式实现。
需要注意的是,运行工作流会消耗 Coze
平台的资源点数。一条“养生视频”大约消耗2000点。目前平台每日提供少量免费额度,额外资源需要付费购买。
自动化浪潮下的内容生态
尽管搭建 Coze
工作流存在一定的学习门槛,但其核心吸引力在于“一次搭建,持续产出”的全自动化能力。它将繁琐的传统 AI
视频制作流程(文案生成 -> 脚本转换 -> 视频生成 -> 后期合成)整合进一个统一的平台。
这种门槛和信息差,直接催生了出售现成工作流的生意。但其弊端也十分明显:AI
极大地拉低了创作门槛,导致内容同质化严重,热点迭代速度空前加快。
在这种模式下,社交媒体账号的运营者角色更接近于内容发布和监控的“操作员”,而非传统意义上的“创作者”,他们很难在自动化流程中建立起核心的创作壁垒。相比之下,那些开发和迭代工作流的“卖铲人”反而更接近创作者的角色。他们需要紧追热点,不断设计和优化新的模板与插件,才能在这场淘金热中持续获利。
严格来说,当前批量生产的 AI
视频本质上是“图文视频化”——将静态图片、合成音频和字幕动态地拼接起来。工作流的价值,正是将这一拼接过程实现了自动化。这预示着内容生产领域的一场深刻变革,创作者的定义、技能要求和商业模式,都将因此被重塑。