豆包大模型 2.0 lite + Hermes 搞定海外电商爆款视频全流程 - 文章 - 开发者社区

点击上方👆蓝字关注我们！

picture.image

跨境电商的投流内容创作，不是"开会对齐"就能解决问题——而是要紧盯海外电商平台看竞品、懂得拆爆款结构、能在欧美多语种之间来回切、还得赶在风口过去之前把片子发出去。传统流程中，从选品到成片少则三五天，多则一两周，人力和试错成本都极高 。

但现在，有了豆包 Doubao-Seed-2.0-lite + Hermes + Seedance 2.0 的组合，你可以把海外电商爆款视频的完整生产链路压缩到对话框 里，只要和 AI 助手聊聊天就能完成。不需要多人协同，一个人就能担当整个"内容团队"——自动完成行业信息采集→ 多模态拆解 → 策略沉淀 → 视频翻拍 → 发布 。

接下来，就以一款欧美市场口红投流视频的真实生产过程为例，带您完整拆解从配置 Hermes 到投流视频创作 5 个关键环节 。

准备工作：搭建你的海外电商营销助手

在正式开始之前，我们要搭建一个只属于你的 AI 单聊助手，把「多模态理解」「GUI 操作」「视频生成」这三块能力配齐。整个环节使用的是 macOS，Linux / Windows 需要自行做一些修改。全程五步：装 Hermes → 选模型 → 生成 Skill → 装 Skill → 接飞书 。

1. 安装 Hermes

Hermes 是一套支持自成长的 AI Agent runtime。一行命令完成安装：

  
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash  
source ~/.bashrc && hermes --version

收到命令后，脚本会自动完成 Python 依赖安装、路径配置与初始化向导。系统支持 macOS / Linux / WSL2 / Termux ，但需升级到 Python 3.10+。

如果原来用的是 OpenClaw，安装过程中选择 y 即可一键迁移：

  
hermes migrate --from openclaw

2. 选择底层模型：Doubao-Seed-2.0-lite

Hermes 支持 200+ 模型，现在我们要完成火山方舟 Doubao-Seed-2.0-lite 的配置 ，这是整条链路中最关键的技术选型。

GUI 视觉能力 ：完成截图 → 视觉推理 → 0-1000 相对坐标 → pyautogui 执行的流程，接下来开启浏览器、点击 TikTok、进行右键下载、通过Finder 移动文件……全程零 Selector。

视频原生多模态理解 ：进行时间戳结构化拼接（[N.0 second] <IMAGE> ），同时把画面序列与音频 喂给模型，通过一次调用，就能让模型同时读懂叙事结构、剪辑节奏、口播情绪 、BGM 节拍与音画同步。这不是"先转文字再分析"的伪多模态，而是原生的多模态输入。

执行配置向导：

  
hermes setup        # 一键引导（模型 + 工具 + 网关 ）  
# 或单项配置：  
hermes model        # 选择模型提供商

在 hermes model 里选择 Custom endpoint；

picture.image

然后输入 baseURL 和密钥：

baseURL：https://ark.cn-beijing.volces.com/api/v3/chat/completions

验证：

在命令行中输入 hermes

picture.image

然后，AI 助手会显示你配置好的模型。

而且，通过 Seedance 2.0 生成视频，只需要在 Skill 脚本中由 scripts/seedance.py 直接调用火山 API，无需在主模型里配置。

3. 用 Trae 生成 Hermes 配置与自定义 Skill

Skill 不是手写的，而是交给 Trae （字节跳动的 AI 编程 IDE ）一次性批量生成。

关键是提示词 ——提示词写得越具体，Trae 生成的 Skill 就越能真实跑起来。下面这份提示词是一份经过实测、可以直接产出整条链路所需 Skill 的完整版本，在 Trae 中打开项目工作区，把它整段丢给 Trae 即可：

  
先查 Hermes Agent / OpenClaw 文档：  
- SOUL.md  .hermes.md 的用途与写法；  
- Skill 为独立目录，根为 SKILL.md（必带 YAML front-matter：name / description / version / platforms / metadata.hermes.tags / category / requires_toolsets ），按需含 scripts/、templates/、references/；  
- SKILL.md 正文至少盖：When to Use、Prerequisites、Procedure、Pitfalls、Verification；  
- 支持 skill_manage(action="patch") 追加式 self-update 做自进化。  
# 目标  
为「海外电商 TikTok 投流视频」单聊 AI 助手生成完整可跑的本地 Skill 集合。闭环：行业信息采集 → 多模态分析 → 策略提炼 → 视频创作 → 发布。  
# 运行环境  
- macOS；Python venv `~/.venvs/doubao/`，执行前 `source ~/.venvs/doubao/bin/activate`  
- Skill 目录 `~/.hermes/skills/`；GUI 日志 `~/logs/gui.log`（stdout+文件双通 ）  
- 视觉/视频理解：`Doubao-Seed-2.0-lite`（ID `doubao-seed-2-0-lite-260215`，火山方舟 ），base_url `https://ark.cn-beijing.volces.com/api/v3`，API Key 取 `ARK_API_KEY`  
- 视频生成：`doubao-seedance-2-0-260128`（Seedance 2.0 ）  
- 坐标：模型输出 0-1000 相对值，按截图尺寸换算再交 pyautogui  
- `temperature=0.0`；macOS 开「屏幕录制」+「辅助功能」权限  
# 产物  
## A. Hermes 上下文  
1. `~/.hermes/SOUL.md`：助手人设——行动导向、结构化分析、汇报简洁；原则：GUI 走 Doubao、Python 前激活 venv、发现规律即自进化、飞书走 lark-cli。  
2. `~/.hermes.md`：项目级上下文——概述、核心工作流、Skills 清单、环境配置、重要约定、常见问题。  
## B. 9 个 Skill  
### B1. doubao-gui-browser-use（浏览器视觉 GUI 底座 ）  
- `scripts/gui_core.py`：截图→多轮对话（提示词+最近 5 张截图，最多 10 轮 ）→调模型→解析动作；暴露 `auto_screen_operation(instruction)`、`multi_turn_operation(instruction, max_turns)`；含 macOS 权限检查、空响应重试（2 次/轮，连续 3 轮空终止 ）、截图裁 Dock。  
- `scripts/parse.py`：pyautogui 执行器，支持 click/left_double/right_single/drag/hotkey/type/scroll/wait/finished；macOS 下 `type` 必走剪贴板（pbcopy+Cmd+V ）禁逐字符；点击用 `moveTo(duration=0.3)` 可见动画。  
- `scripts/prompt.py`：COMPUTER_USE_DOUBAO 系统提示词，定义动作空间与坐标格式。  
### B2. doubao-gui-computer-use（桌面/Finder/系统对话框 ）  
- 复用 B1 的 `gui_core`。  
-`scripts/desktop_ops.py`：`save_file_as / create_folder / rename_file / open_application / switch_application / download_and_save / execute_desktop_task(instruction, max_turns)`。  
- 约束：不管浏览器内；Cmd 系快捷键；Finder 导航 Cmd+Shift+G；**关键**——Finder 中 Cmd+C 后切换目录禁 `type`（pbcopy 会覆盖剪贴板丢文件 ），须用 AppleScript `tell application "Finder" to set target of front Finder window to POSIX file "{path}"`。  
### B3. tiktok-video-scraper（多语言 TikTok 爆款抓取 ）  
- 依赖 B1 + B2。  
-`scripts/scraper_task.py` 可执行，CLI：语言列表（en/fr/es/de，默认 `fr es` ）、`--time-filter`（默认「最近 1 个月」，可改「最近 7 天」 ）、`--videos-per-lang`（默认 3 ）。  
-`references/search_terms.md`：四语搜索词映射（en=Lipstick / fr=Rouge à lèvres / es=Labial / de=Lippenstift ）。  
- 流程：① 开始前在 `~/tiktok_materials/task_checklist.json` 建任务清单（防长跑丢进度 ）；② 每种语言：导航 TikTok→搜索关键词→切「视频」Tab→列表页视觉判点赞≥2K 且日期符 time-filter（列表页无筛选器，全靠视觉识别缩略图上的点赞数字与日期 ）；③ 先读候选标题去重（**只返 `TITLE: xxx`，禁逐条分析避免输出超长** ），不重复再进详情页；④ 画面中央右键→选「下载视频」→`sleep 10s`；⑤ 浏览器下载面板右上角文件夹图标打开 Finder→Cmd+C 选中最新 mp4→AppleScript 切目标目录→Option+Cmd+V 移动粘贴→代码重命名 `{LANG_PREFIX}_{keyword}_{NNN}.mp4`；⑦ 状态变更即 update 清单，中断可恢复。  
- 必写明：严禁 yt-dlp/curl/wget；禁向用户打印脚本代码或工具调用详情，只输出「任务执行中」「已完成 X/Y」等状态。  
### B4. video-multimodal-analysis（视频多模态深度分析 ）  
- 基于 `doubao-seed-2-0-lite-260215` 一次调用多维输出：爆款归因（一句话总结+爆款类型+停留钩子+复看驱动+分享动机 ）、结构/节奏（如悬念-揭晓 / Before-After / 节奏卡点 + 时间段拆段 ）、剪辑（频率、转场、画面文字、标志技巧带时间戳 ）、音频全景（口播音色/语速/金句、BGM 风格/BPM/热门度、音效、音画同步 ）、情绪（弧线+高潮+多巴胺刺激点 ）、策略总结（评分+爆款公式+可复用技巧与品牌建议+受众画像 ）。  
-`scripts/video_analysis.py`：URL（单条或 `--batch` ），fps=1；输出 `{video_name}_analysis_report.md`，批量另生 `batch_comparison.md`。**不做本地上传**——本地 mp4 先传图床拿公网链。  
-`templates/analysis_report.md` 为输出模板；单视频≤1h。  
### B5. strategy-extraction（策略提炼 + Skill 自进化 ）  
- 输入：B4 报告集合。流程：汇总→归纳共性（结构/Hook/情绪/视觉/BGM ）→抽象转化公式（如「痛点 Hook+核心成分特写+情绪拉升 CTA」 ）→按 `templates/strategy_report.md` 生成《投流转化归因报告》→lark-cli 发飞书文档。  
-**自进化**：`skill_manage(action="patch", name="marketing-video-creator", old_string="<!-- STRATEGY_RULES_END -->", new_string="- [策略提炼] {日期} 分析 {N} 个爆款后结论：{具体规则}\n<!-- STRATEGY_RULES_END -->")`，向 prompt_template.md 的 STRATEGY_RULES 区追加规则。  
- Pitfalls：样本<3 不强行归因；patch 非 edit；新规则必带日期和样本量。  
### B6. marketing-video-creator（Seedance 2.0 视频创作；自进化核心 ）  
- 输入：产品图 + STRATEGY_RULES + 品牌资料（`references/brand_assets.md` ）。  
- 流程：① 提取分析报告+读 prompt_template.md 中 `<!-- STRATEGY_RULES_START -->...<!-- STRATEGY_RULES_END -->` 间全部规则+读 brand_assets.md；② 提示词「现场创作」，参考 `references/seedance_prompt_guide.md`；3 段式时间码（0-3s Hook / 3-10s Product / 10-15s CTA ）；纯自然语言，禁 Mode/Assets Mapping 等结构化标记；③ **素材引用用「图片N」**：图片1=content 数组第 1 个 image_url（产品图 ），图片2=第 2 个 image_url（虚拟人物 `asset://asset-20260224225806-zkrlx` ）；**严禁提示词出现 asset-xxx 原始 ID**；「图片N」后必紧跟指代词或名词（如「图片1中的产品」「图片2中的博主」 ），禁直接接动词或方位词；④ 向用户展示 `## 分析报告策略提取 / ## 视频提示词 / ## 生成参数` 三段式卡片等确认；⑤ `python3 scripts/seedance.py create --prompt "{...}" --ref-images {产品图} asset://asset-20260224225806-zkrlx --model doubao-seedance-2-0-260128 --ratio 16:9 --duration 15 --resolution 720p --generate-audio true --wait --interval 15 --download ~/Desktop`。  
-`scripts/seedance.py`：参考图URL，`asset://` 透传，轮询到完自动下载；不负责上传——本地图先转直链。  
-`templates/prompt_template.md` 必含 `<!-- STRATEGY_RULES_START -->` 与 `<!-- STRATEGY_RULES_END -->`，作为 patch 锚点。  
- Verification：提示词是否「现场创作」（与模板重合<30% ）；每条 `[策略提炼]` 有对应画面；「图片N」引用正确；参数固定（16:9 / 15s / 720p / 带音频 ）。  
### B7. tiktok-publisher（TikTok 视频发布 ）  
- 依赖 B1。  
- 流程：导航 `https://www.tiktok.com/upload`→处理 cookie/草稿弹窗→点中央「选择文件」→macOS 原生对话框 Cmd+Shift+G 粘贴绝对路径回车→选中→确认上传→`sleep≥30s` 等上传+预览→标题/描述框 Cmd+A 清空→Cmd+V 粘贴（事先 `pyperclip.copy`，upload 后二次写入防清空 ）→确认「所有人/公开」→点红色 Post→观察「已发布」或跳审核页。  
- 文本：仅英文字母+数字+标点+`#tag`，禁表情/特殊符号。  
- 避坑：操作间隔≥2s；选中只用 Cmd+A 不拖拽；失败重试 2 次，3 次提示用户介入；发布后跳主页校验+截图归档。  
### B8. attribution-analysis（投放归因 + 再次自进化 ）  
- 输入：B9 A/B 报告。逐层归因：Hook/内容结构/受众行为/市场文化；结论一句话+数据支撑。  
- 再次 skill_manage patch，以 `- [数据驱动] {日期} 归因结论：{具体规则和数据差异}` 写入 STRATEGY_RULES。  
### B9. data-analysis（A/B 投放数据分析 ）  
- 读 CSV/Excel/JSON 或飞书多维表（lark-base ）；清洗→分组对比→转化漏斗→显著性；指标：3s 完播率、完播率、CTR、CVR、CPM、CPA、ROAS、ROI；输出 `templates/ab_test_report.md`。  
# 交付  
- 每个 SKILL.md 自洽可跑；scripts可执行，；templates/references 用 Markdown；产物输出到 `./skills/`，我后续 `cp -r` 到 `~/.hermes/skills/`。  
  
开始生成。每个 Skill 完成后简报（名称+文件数 ），不展示文件内容。

Trae 执行完毕后会输出 Skill 目录 + 两份 Hermes 配置，均放在工作区的 ./skills/ 下，等待下一步安装。

picture.image

4. 将 Skill 安装到 Hermes

Hermes 的 Skill 目录默认为 ~/.hermes/skills/。

将 Trae 生成的 9 个 Skill 目录直接拷贝过去，然后调用 Hermes 自带的 skills list 校验：

  
# 1) 创建目录 + 安装 venv（首次 ）  
mkdir  ~/logs  
python3 -m venv ~/.venvs/doubao  
source ~/.venvs/doubao/bin/activate  
pip install -r ./doubao-skills/requirements.txt   # pyautogui / pyperclip / requests / volcengine-ark 等  
  
# 2) 将 Skill 整体拷到 Hermes skills 目录  
cp -r ./doubao-skills/skills/* ~/.hermes/skills/  
  
# 3) 将两份 Hermes 上下文配置放到位  
cp ./doubao-skills/SOUL.md   ~/.hermes/SOUL.md  
cp ./doubao-skills/.hermes.md ~/.hermes.md  
  
# 4) 让 Hermes 重新扫描并列出  
hermes skills list

正常情况下，你会看到复制过去的 Skill, 或者在对话里输入 /skills list 也可随时打开技能管理面板。

picture.image

5. 将 Hermes 接入飞书

目前，整条单聊对话已经能在终端里跑通。但把 Hermes 接进飞书后，你就能直接在飞书机器人的对话框里发指令、收分析报告、归档最终视频——手机上也能操控整条链路。

在终端输入 hermes gateway setup ，开始配置消息渠道（如果前面执行了 hermes setup 会在配置完模型后配置消息渠道）

选择 Feishu：

picture.image

生成二维码

picture.image

扫码或者复制下面的链接打开后，配置飞书应用：

picture.image

在飞书中，给刚才配置的机器人发送：

请执行指令：hermes skills list

picture.image

若返回所有 Skill，代表 Skill 、飞书网关、模型全链路已走通。之后的 5 步全流程实战就能在飞书里完成，不再需要终端。

实操要点 ：

分析报告 / 归因报告自动归档到飞书文档，需给应用授予 drive:drive 权限；
若尚不想接入飞书，跳过本节也完全可以：直接终端运行 hermes 即可单聊。

6. 安装飞书官方 CLI

在对话框中输入（如果访问不通可以换成 https://gitee.com/work-xgp/cli ）：

  
  帮我安装 https://github.com/larksuite/cli

接下来获取相关配置，进入开发者后台：

https://open.feishu.cn/app?lang=zh-CN

找到刚才创建的机器人，查看并复制 App ID 和 App Secret，发送给助手：

  
配置飞书CLI授权:  
APP_ID: 你的APP_ID  
APP_SECRET：你的APP_SECRET

实战：投流视频创作 5 个关键环节

整条链路由 Hermes 调度，多模态理解由 Doubao-Seed-2.0-lite 承担，视频生成由 Seedance 2.0 完成，全程在飞书中对话。

Step 1：海外电商平台多语言爆款素材抓取 —— GUI 自动化

你可以在飞书里对 AI 助手说：

"去 TikTok 上帮我找最近 30 天，点赞超过 2000 的口红爆火视频，要求法语，西班牙语 2 个语种，每个语种 2 条，保存到 tiktok_materials 文件夹中。"

助手识别意图，自动执行：

1. 调用 tiktok-video-scraper ：建立 ~/tiktok\_materials/task\_checklist.json 任务清单。

2. 调用 doubao-gui-browser-use ：这是整条链路中真正体现 Doubao-Seed-2.0-lite 视觉能力 的地方。

对屏幕截图进行推理，返回 0-1000 的相对坐标；
然后，依次处理两个语种（法语 Rouge à lèvres / 西班牙语 Labial ）的问题，步骤如下：打开 TikTok → 点击搜索框 → 输入关键词 → 切换"视频"标签页；
由于列表页没有筛选器 ，点赞数与近 30 天的发布日期的获取，需要靠模型来识别图片上的数字；
视觉去重：先读取候选标题 → 比对任务清单 → 确认不重复后，再点击进入详情页；
右键视频画面 → "下载视频" → 等 10s，完成下载。

3. 调用 doubao-gui-computer-use ：点击浏览器下载面板中的文件夹图标 → 在 Finder 中，按 “Cmd+C” 键选中最新 mp4 → 通过 AppleScript 对目标目录进行截图（注意不能用 Cmd+Shift+G 输入路径，因为 pbcopy 会覆盖剪贴板 ）→ 按 “Option+Cmd+V ” 移动粘贴 → 按命名规范 FR\_rougelevres\_001.mp4 / ES\_labial\_001.mp4 对文件进行重命名。

在这一步中，我们密集展示了 GUI 的能力，Doubao-Seed-2.0-lite 的视觉推理能力驱动 4 个视频的下载，实现了零 RPA 和零 DOM 依 赖。

picture.image

实操要点 ：

macOS 需要提前给终端 / IDE 授予「屏幕录制」+「辅助功能」权限，否则 pyautogui 无法工作。
TikTok 大量操作容易触发风控，我们需要让助手在每次搜索之间间隔 2-3 秒。

Step 2：多模态深度分析 —— Doubao-Seed-2.0-lite 原生视频理解

视频素材到手后，你可以继续发送消息："帮我深度分析刚刚抓取的法语投流视频，提取这批高转化爆款视频的共同点和核心策略。"

picture.image

接下来，助手会通过以下步骤，自动对视频进行分析：

1. 调用 video-multimodal-analysis ：输入视频 → 借助 Doubao-Seed-2.0-lite 的视频理解 API（fps=1 抽帧 + 时间戳结构化拼接 [0.0 second] <IMAGE> [1.0 second] <IMAGE> ...，原生音频一起投喂给模型 ），一次性分析多个视频，并对每个视频产出多维分析：

视觉 & 结构 ：对叙事结构类型（悬念-揭晓 / Before-After / 节奏卡点 ... ）、按时间段拆段、画面构图、标志性剪辑技巧的具体时间戳进行分析；
音频分析（含情绪识别） ：对口播情绪标签 （焦虑 / 惊喜 / 自信 / 急促 / 颤抖…… ）、音色、语速、金句停顿、BGM 风格 / BPM / 热门度、关键音效、音画同步进行分析识别。Doubao-Seed-2.0-lite 原生多模态最见功力 的地方，在于：它不是把声音转成文字再读文稿，而是把音频和画面一起喂给模型 ，能够直接从声音本身"听出"语气里的焦虑、BGM 的紧张感，以及第几帧开始卡点；
情绪设计 ：包括完整情绪弧线（如好奇 → 疑惑 → 期待 → 惊喜 → 种草）、情绪高潮时刻、多巴胺刺激点；
爆款归因 & 策略总结 ：分析完成后，给出综合评分、爆款公式、可复用技巧+品牌应用建议。

完成每条视频的分析后，助手会生成横向对比报告 batch_comparison.md，总结出两个语种的共同爆款公式。

为什么一定要原生多模态？对比「ASR 语音转文本 + LLM」传统方案

爆款视频里，至少有 60% 的情绪张力来自声音， 包括口播的颤抖、BGM 的节拍、踩点的音效。用"先 ASR 转文字、再把文稿送 LLM"的传统方案做分析，等于先把音频压成黑白文本，再回头来猜情绪，信号损失巨大：

维度

传统：ASR 语音转文本 + LLM 读文稿

Doubao-Seed-2.0-lite 原生多模态

| |

口播情绪

转写丢失："Oh my god!" 文字表达同样激烈，但音频里的急促喘气、上扬尾音、压低嗓音 无法传达

能直接从音频中感知语气、音量、颤抖、停顿 ，输出「焦虑 / 惊喜 / 坚定 / 兴奋」这类情绪标签

| |

BGM 与音效

ASR 会把音乐当噪声过滤掉；尖叫、掌声、脚步、风声会全部丢失

能识别BPM / 风格 / 情绪色彩 ，判断是否是曲目类别；非语言声音，能作为关键音效被精准打点

| |

链路与误差

ASR → 文本 → LLM → 再对齐，容易出现多级误差累积

单次调用，更精准

| |

多语言场景

依赖各语种 ASR 质量，法语 / 西语等小语种容易误识别

画面 + 声音的联合感知，不完全依赖文字转写，语种鲁棒性更高

一句话总结就是：传统方案是「先看字幕，再脑补声音」，Doubao-Seed-2.0-lite 则是「直接把视频当视频看」。同时看懂画面、听懂口播情绪、抓住 BGM 的 BPM 变化并和画面节奏对齐，只有原生多模态能做到。在 Doubao-Seed-2.0-lite 中，你可以得到「情绪弧线 + 音画同步 + BGM 风格」这组爆款翻拍最需要的信号 。

如下为多模态分析结果部分截取示例：

picture.image

实操要点 ：

Doubao-Seed-2.0-lite 视频理解，能通过 fps=1 抽帧 + 时间戳文本 [N.0 second] 拼接到图像序列前，模型据此重建时序逻辑（原理参考官方视频理解工作原理：https://www.volcengine.com/docs/82379/1895586 ）；
对 BGM 节奏、口播情绪这类脱离文本的信号，要适当调高 fps（最高 5 ）效果更稳。

Step 3：优化更新视频制作技能 —— Skill 自进化

分析完成后，你可以继续发一条指令："优化更新我们的视频制作技能。"

助手将调用 strategy-extraction：

读取 Step 2 中产出的分析结论与横向对比结果；
归纳共性 → 提炼出通用转化公式：痛点共鸣 Hook（0-3s，必须视觉前后对比）+ 核心成分特写（3-10s ）+ BPM 120-135 情绪拉升式 CTA（10-15s ）

3. 触发 skill_manage ：这一步是整套体系的差异点，能把上一步总结出来的规则原地写入 marketing-video-creator/templates/prompt_template.md ：

  
- [策略提炼] 2026-04-27 分析 4 个法/西爆款后结论：前 3 秒必须用视觉前后对比 Hook，中段必出现产品质地特写，BGM 使用 120-135 BPM 的 Lo-Fi Pop。

与传统 RAG / Prompt 级别的"知识库" 或者 OpenClaw 对比，这一步直接更改了 Skill 源文件，多次调用后它会自动触发更新操作（此文中，为了演示效果，我们将其设置为主动触发） 。在 Step 4 启动时，你读到的就是升级后的 Skill。

picture.image

实操要点 ：

skill_manage 使用 patch 而非 edit，保护老规则不被覆盖；
每条新规则必须带日期 + 来源（策略 / 数据）+ 样本量 ，方便半年后规则增多时，依旧能进行追溯。

Step 4：基于升级后 Skill 生成英文投流视频 — Seedance 2.0

技能升级后，你可以插入新品主图并发送如下指令："调用刚才升级优化过的视频制作技能，结合我们品牌资料和新品主图，帮我生成一条针对欧美市场的英文投流视频，要求时长 15s，使用预制人物。"

助手会调用 marketing-video-creator：

1. 读取 Strategy Rules ：此时规则里已经包含 Step 3 刚刚写入的 [策略提炼] 2026-04-27。

读取品牌资料。

3. 现场创作 ：通过 3 段式时间码节拍提示词，进行创作：

  
   - 0-3s Hook：视觉前后对比 + 痛点语音——"Your lipstick fades in 3 hours?"  
   - 3-10s Product：图片2 中的美妆博主手持图片1 中的产品涂抹特写 + 质地拉丝慢动作  
   - 10-15s CTA：BGM 由舒缓拉升到 125 BPM + 多肤色妆效展示 + 英文 Shop Now

4. 关键约束 ：提示词中，所有素材引用都必须用「图片 N 」的格式（图片1 = 产品图，图片2 = 虚拟人物 asset://asset-20260224225806-zkrlx ），严禁出现 asset-xxx 原始 ID 格式；「图片 N」后面必须紧跟指代词或名词。

助手会先给出视频生成的相关信息，大约 2-3 分钟后，我们需要的 mp4 就会自动生成。

picture.image

实操要点 ：

图片引用只用「图片1」「图片2」，不要用 asset-xxx，否则 Seedance 会把 ID 字符串当文案处理；
预制人物固定用同一个 Asset ID，保证品牌数字代言人一致性。

Step 5：海外电商平台视频发布 —— GUI 自动化再一次

最后一条指令，可以发送："好的，把刚才制作的视频，发布到 TikTok 上。"

助手会调用 tiktok-publisher（底层仍是 doubao-gui-browser-use ）：

pyperclip.copy(PUBLISH_CONTENT) 指令会先把发布文案写入剪贴板；
然后导航到 https://www.tiktok.com/upload，处理 cookie 弹窗和未保存草稿弹窗；
点击中央"选择文件"→ 打开系统文件选择对话框 → 按 “Cmd+Shift+G”输入视频绝对路径，并回车 → 选中 mp4 → 打开；
显示 sleep ≥ 30s ，待上传完成并生成预览；
找到描述输入框，按 “Cmd+A”清空 → 按“Cmd+V” 粘贴；
确认状态为"所有人/公开"→ 点击红色 Post；
看到官方"视频已发布"提示 / 自动跳转审核页后，截图归档。

picture.image

实操要点 ：

全程 Cmd+A / Cmd+V 代替拖拽，避开 pyautogui 拖拽在 macOS 上的兼容性坑。

为什么这套工作流跑得通？Doubao-Seed-2.0-lite + Hermes 的能力支撑

完成所有链路的实战后，你会发现，5 步 AI 操作不是相互独立的，而是一条环环相扣、自带反馈回路 的流水线。每一步的输入，都依赖前一步的产出，产出的 Skill 本身，也会被后续步骤持续改写。

真正能让这条链路跑通的，是以下两块能力：

能力

体现环节

| |

GUI 能力

Step 1、Step 5：TikTok 抓取与发布，几十次点击 / 输入

| |

原生多模态（视觉 + 时序 + 音频情绪 ）

Step 2：识别口播情绪、BGM BPM、音画同步、画面节奏对齐

| |

长链路上下文保持

Step1：长时间运行正常；Step 4：跨 Skill 产出，自动引用报告里的策略规则

| |

复杂指令遵循

Step 4：多约束叠加（产品信息 + 爆款结构 + 预制人物 + 本地化）

| |

工具调用稳定

全程调用稳定：Browser Use / Computer Use / Seedance API

Doubao-Seed-2.0-lite 能够独自承担 GUI 能力和原生多模态理解能力，无需拼接"视觉模型 + ASR + LLM"，也就不会在"看懂画面"和"听懂声音"之间出现能力割裂或信息损失。

结语

内容迭代速度 ，是海外电商的竞争本质。人工做投流内容的瓶颈，不是你不会做，而是"看到竞品的操作后，却来不及拆解，迭代成自己的内容"。

Doubao-Seed-2.0-lite + Hermes + Seedance 2.0 ，能把 "看 → 拆 → 沉淀 → 再造 → 发布 " 5 步集成到一个对话框内完成，快捷方便。而且，Skill 还会在操作过程中自动升级，确保下一轮的创作会比上一轮更聪明。

提示词，你可以随时改；发布，你可以随时否决。现在，AI 能帮我们做的，是把"决策之间的执行成本"降到接近于零。