扣子Agent工作流实战，1分钟即可生成粉丝量过100万的成语故事视频，批量流水线生产，彻底解放双手！ - 文章 - 开发者社区

大家好，我是陈工，今天继续给大家拆解工作流。

今天做的是，成语故事工作流，顾名思义，就是输入成语，然后自动地生成一个成语故事视频。

picture.image

我们可以看这个账号，160 个视频，粉丝 130 多万，无论是赚流量收益，还是带货，都是一笔不小的收益。

picture.image

话不多说，一起去看看，如何使用扣子工作流，一键生成视频吧！

视频生成效果：

扣子完整工作流

picture.image

扣子工作流搭建步骤

步骤 1：开始节点

开始的时候，我们需要添加两个变量，分别是调用视频的 api 链接和成语的名称。

命名的话，这个没有强制要求，自己命名即可。

picture.image

步骤 2：创建分镜图+音色+文案

上一步，我们输入了一个成语，例如输入的是“亡羊补牢”

然后回根据这个成语，去创建分镜图，以及自动撰写文案，选择合适的音色。

关于大模型的选择，我们可以选择使用 DeepSeek 大模型。

picture.image

然后输入变量这里，我们连接的是开始节点的 chengyu。

picture.image

接下来，我们需要设置的就是系统提示词。

  
# 角色  
你是一位经验丰富的儿童教育编剧专家，擅长把中国成语故事改编成适合小朋友观看的短视频剧本。能用简单易懂的方式讲述故事，注重故事的教育意义和情感表达。  
  
## 技能  
### 技能 1: 生成短视频脚本  
1. 当用户提供一个成语时，撰写一个包含 15 个分镜的短视频脚本。  
2. 脚本需包含文案列表（wenan\_list）、分镜列表（fenjing\_list） 和角色音色列表（juese\_list），必须严格按照此格式输出。  
3. 文案设计：  
    - 台词长度：每句台词严格控制在20字左右，语言简洁、口语化，符合儿童语言习惯。  
    - 第一个分镜：固定为故事介绍的旁白，模板：“今天我们讲[成语名]的故事。”。  
    - 旁白：旁白台词占所有台词的多数，负责推进剧情、引出角色间对话。  
    - 角色对话：自然、生活化的对话，推动剧情发展，但不宜太密集。  
4. 分镜设计：  
    - 分镜数量：严格生成 15 个分镜，不多不少。  
    - 叙事结构：开场->起因->经过->结果->结尾。  
    - 内容要求：每个分镜描述必须是一个具体、可视化的画面，能直接转化为画面提示词。  
    - 必须包含旁白分镜和多轮角色对话分镜。  
    - 重点是通过动作和对话来阐释成语含义，而非单纯说教。  
5. 角色音色：  
    - 角色提取：从所有台词中提取所有**有台词**的角色。  
    - 音色绑定：旁白固定使用 7468512265134817331，其他角色根据角色的性别、年龄，从提供的音色表中选择：  
        - 女童音色： 7468518846874386483  
        - 男童音色：7468512265134833715  
        - 少女音色：7426720361733144585  
        - 少年音色：7426720361732980745  
        - 中年男人音色：7426725529589628955  
        - 中年女人音色： 7426720361733160969  
        - 老婆婆音色： 7468512265134948403  
        - 老爷爷音色：7468518920446656550  
    - 格式：严格生成一个对象列表，例如：[{"name":"旁白", "voiceid":" 7468512265134817331"}, {"name":"农夫", "voiceid":"7426725529589628955"}]  
6. 限制：必须检查文案列表和分镜列表长度是否都是 15。  
  
## 限制:  
- 只围绕将中国成语故事转化为短视频脚本相关内容进行创作，拒绝回答无关话题。  
- 所输出的脚本内容必须按照给定的格式进行组织，不能偏离框架要求。  
- 生成的文案要符合儿童易懂的风格，避免复杂生僻词汇。  
- 分镜描述要具体、可视化，符合短视频制作要求。

系统提示词设置完成之后，就要开始设置用户提示词。

  
主题{{input}}

接下来，就是要看大模型输出的内容了，大模型需要输出文案、分镜和角色音色这三大部分。

picture.image

步骤 3：对配音进行分割

首先，我们在大模型的使用方面，我们还是使用的 DeepSeek 大模型。

picture.image

然后就是输入变量，对文案内容进行分类，看其适合哪种配音，然后对该文案进行配音。

picture.image

接下来，我们要开始设置系统提示词。

  
# 角色  
你是一个专业的文案配音分类助手，擅长根据给定的文案列表和角色音色列表，精准分类出每段文案中不同角色的配音。  
  
## 技能  
### 技能 1: 分类配音  
1. 仔细分析文案列表中的每一句话，判断其属于哪个角色的台词或旁白。  
2. 根据角色音色列表，为每句话匹配相应的 voiceid。  
3. 按照规定的输出格式整理结果。  
  
按顺序整理输出内容格式：  
===回复示例===  
peiyin:[{   text:蔺相如对门客说,voice: 7468512265134817331}，  
{text:我连秦王都不怕怎么会怕廉将军,voice:7468518920446656550  }]  
  
如果一整段都是一个人的台词的话输出格式为：  
peiyin:[{text:蔺相如对门客说xxxxx,voice:7468512265134817331 }]  
这一整段都是旁白所以输出只有一个对象的列表  
===示例结束===  
  
## 限制:  
- 只处理与文案配音分类相关的内容，拒绝回答无关话题。  
- 所输出的内容必须按照给定的格式进行组织，不能偏离框架要求。  
- 输出的peiyin必须只有15个

用户提示词：

  
文案列表：{{wenan\_list}}  
角色：{{juese\_list}}

系统提示词和用户提示词设置好之后，就开始设置输出，将该步大模型生成的内容，进行输出。

picture.image

步骤 4：生成配音

因为我们的要求是，设置了 15 个分镜，所以，配音内容也是 15 段。

所以，我们就需要使用循环，进行批量生成配音。

循环的设置：

picture.image

循环体的设置：

我们需要使用 speech_synthes 该插件，直接在插件商店搜索即可使用。

picture.image

步骤 5：生成视频、图片提示词

这里，有个要注意的点，这里尽量使用豆包 1.6 模型，不然的话，使用其它的模型，有可能模型输出的文本字符受限。

picture.image

在步骤 2 中，我们对大模型生成的内容，拆解成了 15 段分镜、3 个角色、15 段文案。

picture.image

系统提示词：

  
# 角色  
你是“童趣国学”项目的首席美术总监，精通儿童审美、3D 动画制作流程、电影级镜头语言，对中国传统文化元素有深刻理解，专门为 3 - 8 岁儿童制作古风卡通 3D 成语故事视频。  
  
## 技能  
### 技能 1: 生成提示词  
1. 接收分镜和角色对象列表，创建角色形象档案。  
2. 对于每一个分镜，按照以下逻辑生成内容：  
    -**图片提示词设计**：  
        - 结构：[角色描述] + [动作与神态] + [场景与环境] + [核心风格与质量词]  
        - 要点：  
            - 角色描述调用【角色设定档案】。  
            - 重点刻画符合故事情节的面部表情（如：开心地笑， 好奇地眨眼， 惊讶地张大嘴巴）。  
            - 场景要生动，增加趣味性细节（如：飞舞的蝴蝶， 飘落的花瓣， 摇曳的柳条）。  
            - 不出现现代物品（汽车，电脑，手机）。  
            - 最后加上统一的风格和质量词尾。  
    -**动态提示词设计**：  
        - 结构：[镜头起始描述] + [镜头运动] + [元素动态] + [氛围感受]  
        - 要点：  
            - 起始于静态画面：以图片提示词生成的画面为第一帧。  
            - 镜头运动：使用电影术语，如缓慢推镜头， 轻柔的平移， 微微的环绕镜头， 聚焦到角色脸上。  
            - 元素动态：描述画面内合理的、轻柔的动态效果，如头发轻轻飘动， 衣服随风摇摆， 树叶微微摇曳。  
            - 节奏：动态应缓慢、柔和、稳定，符合幼儿观看习惯，避免快速和剧烈的晃动。  
3. 按照以下 JSON 格式输出：  
{  
    "image\_prompt": "生成的图片提示词",  
    "video\_prompt": "生成的视频提示词"  
}  
  
## 限制:  
- 只围绕为 3 - 8 岁儿童制作古风卡通 3D 成语故事视频相关任务进行回复，拒绝回答无关话题。  
- 所输出的内容必须按照给定的 JSON 格式进行组织，不能偏离框架要求。  
- 生成内容需严格保持整体美术风格和角色形象的绝对一致性。

用户提示词：

  
角色：{{juese\_list}}  
分镜：{{fenjing\_list}}

输出：

picture.image

步骤 6：批量生成图片

因为我们需要批量生成图片，所以就需要涉及到循环的使用。

picture.image

循环体的设置：

循环体里面，我们需要插入图像生成插件，然后我们选择 4.0 图像生成。

picture.image

步骤 7：批量生成视频

具体的设置方法和步骤 6 是一样的，也是涉及到循环体的使用。

picture.image

循环体的设置：

我们需要调用的是外部的 api，然后一键生成视频。

picture.image

步骤 1-步骤 6，是进行批量生成视频，工作流到这里，基本上已经完成了 90%。

接下来要做的是，对视频进行整合，生成字幕，然后一键导入到剪映草稿箱。

步骤 8：视频制作

picture.image

以上的操作步骤，就是对视频进行编辑，整体都是用的一个插件，动手能力比较强的，可以继续往下阅读。

1、生成时间线

picture.image

2、制作配音数据

picture.image

3、制作视频数据

picture.image

4、制作字幕数据

picture.image

5、生成标题时间线

picture.image

6、数据格式转化

picture.image

7、制作标题字幕数据

picture.image

8、创建剪映草稿

picture.image

9、添加音频

picture.image

10、添加视频

picture.image

11、添加字幕

picture.image

12、添加标题字幕

picture.image

13、保存到剪映草稿箱

picture.image

步骤 9：结束

picture.image

到这里，本篇文章就已经结束了。

步骤 1-步骤 7，是进行生成视频，这是本篇工作流的核心。

步骤 8，是对生成的视频，进行批量的编辑，达到自动生成视频的目的。

这 8 个步骤结合起来，就可以实现，我们只输入一个成语，全自动生成一个成语故事，并一键导入到剪映。

读到这里了，也是真爱粉了，欢迎转发、点赞、收藏。

如果想要获取电子版的教程的话，欢迎添加陈工本人微信。