点击上方👆蓝字关注我们!
跨境电商的投流内容创作,不是"开会对齐"就能解决问题——而是要紧盯海外电商平台看竞品、懂得拆爆款结构、能在欧美多语种之间来回切、还得赶在风口过去之前把片子发出去。传统流程中,从选品到成片少则三五天,多则一两周,人力和试错成本都极高 。
但现在,有了豆包 Doubao-Seed-2.0-lite + Hermes + Seedance 2.0 的组合,你可以把海外电商爆款视频的完整生产链路压缩到对话框 里,只要和 AI 助手聊聊天就能完成。不需要多人协同,一个人就能担当整个"内容团队"——自动完成行业信息采集→ 多模态拆解 → 策略沉淀 → 视频翻拍 → 发布 。
接下来,就以一款欧美市场口红投流视频的真实生产过程为例,带您完整拆解从配置 Hermes 到投流视频创作 5 个关键环节 。
准备工作:搭建你的海外电商营销助手
在正式开始之前,我们要搭建一个只属于你的 AI 单聊助手,把「多模态理解」「GUI 操作」「视频生成」这三块能力配齐。整个环节使用的是 macOS,Linux / Windows 需要自行做一些修改。全程五步:装 Hermes → 选模型 → 生成 Skill → 装 Skill → 接飞书 。
1. 安装 Hermes
Hermes 是一套支持自成长的 AI Agent runtime。一行命令完成安装:
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
source ~/.bashrc && hermes --version
收到命令后,脚本会自动完成 Python 依赖安装、路径配置与初始化向导。系统支持 macOS / Linux / WSL2 / Termux ,但需升级到 Python 3.10+。
如果原来用的是 OpenClaw,安装过程中选择 y 即可一键迁移:
hermes migrate --from openclaw
2. 选择底层模型:Doubao-Seed-2.0-lite
Hermes 支持 200+ 模型,现在我们要完成火山方舟 Doubao-Seed-2.0-lite 的配置 ,这是整条链路中最关键的技术选型。
GUI 视觉能力 :完成截图 → 视觉推理 → 0-1000 相对坐标 → pyautogui 执行的流程,接下来开启浏览器、点击 TikTok、进行右键下载、通过Finder 移动文件……全程零 Selector。
视频原生多模态理解 :进行时间戳结构化拼接([N.0 second] <IMAGE> ),同时把画面序列与音频 喂给模型,通过一次调用,就能让模型同时读懂叙事结构、剪辑节奏、口播情绪 、BGM 节拍与音画同步。这不是"先转文字再分析"的伪多模态,而是原生的多模态输入。
执行配置向导:
hermes setup # 一键引导(模型 + 工具 + 网关 )
# 或单项配置:
hermes model # 选择模型提供商
在 hermes model 里选择 Custom endpoint;
然后输入 baseURL 和密钥:
baseURL:https://ark.cn-beijing.volces.com/api/v3/chat/completions
验证:
在命令行中输入 hermes
然后,AI 助手会显示你配置好的模型。
而且,通过 Seedance 2.0 生成视频,只需要在 Skill 脚本中由 scripts/seedance.py 直接调用火山 API,无需在主模型里配置。
3. 用 Trae 生成 Hermes 配置与自定义 Skill
Skill 不是手写的,而是交给 Trae (字节跳动的 AI 编程 IDE )一次性批量生成。
关键是提示词 ——提示词写得越具体,Trae 生成的 Skill 就越能真实跑起来。下面这份提示词是一份经过实测、可以直接产出整条链路所需 Skill 的完整版本,在 Trae 中打开项目工作区,把它整段丢给 Trae 即可:
先查 Hermes Agent / OpenClaw 文档:
- SOUL.md .hermes.md 的用途与写法;
- Skill 为独立目录,根为 SKILL.md(必带 YAML front-matter:name / description / version / platforms / metadata.hermes.tags / category / requires_toolsets ),按需含 scripts/、templates/、references/;
- SKILL.md 正文至少盖:When to Use、Prerequisites、Procedure、Pitfalls、Verification;
- 支持 skill_manage(action="patch") 追加式 self-update 做自进化。
# 目标
为「海外电商 TikTok 投流视频」单聊 AI 助手生成完整可跑的本地 Skill 集合。闭环:行业信息采集 → 多模态分析 → 策略提炼 → 视频创作 → 发布。
# 运行环境
- macOS;Python venv `~/.venvs/doubao/`,执行前 `source ~/.venvs/doubao/bin/activate`
- Skill 目录 `~/.hermes/skills/`;GUI 日志 `~/logs/gui.log`(stdout+文件双通 )
- 视觉/视频理解:`Doubao-Seed-2.0-lite`(ID `doubao-seed-2-0-lite-260215`,火山方舟 ),base_url `https://ark.cn-beijing.volces.com/api/v3`,API Key 取 `ARK_API_KEY`
- 视频生成:`doubao-seedance-2-0-260128`(Seedance 2.0 )
- 坐标:模型输出 0-1000 相对值,按截图尺寸换算再交 pyautogui
- `temperature=0.0`;macOS 开「屏幕录制」+「辅助功能」权限
# 产物
## A. Hermes 上下文
1. `~/.hermes/SOUL.md`:助手人设——行动导向、结构化分析、汇报简洁;原则:GUI 走 Doubao、Python 前激活 venv、发现规律即自进化、飞书走 lark-cli。
2. `~/.hermes.md`:项目级上下文——概述、核心工作流、Skills 清单、环境配置、重要约定、常见问题。
## B. 9 个 Skill
### B1. doubao-gui-browser-use(浏览器视觉 GUI 底座 )
- `scripts/gui_core.py`:截图→多轮对话(提示词+最近 5 张截图,最多 10 轮 )→调模型→解析动作;暴露 `auto_screen_operation(instruction)`、`multi_turn_operation(instruction, max_turns)`;含 macOS 权限检查、空响应重试(2 次/轮,连续 3 轮空终止 )、截图裁 Dock。
- `scripts/parse.py`:pyautogui 执行器,支持 click/left_double/right_single/drag/hotkey/type/scroll/wait/finished;macOS 下 `type` 必走剪贴板(pbcopy+Cmd+V )禁逐字符;点击用 `moveTo(duration=0.3)` 可见动画。
- `scripts/prompt.py`:COMPUTER_USE_DOUBAO 系统提示词,定义动作空间与坐标格式。
### B2. doubao-gui-computer-use(桌面/Finder/系统对话框 )
- 复用 B1 的 `gui_core`。
-`scripts/desktop_ops.py`:`save_file_as / create_folder / rename_file / open_application / switch_application / download_and_save / execute_desktop_task(instruction, max_turns)`。
- 约束:不管浏览器内;Cmd 系快捷键;Finder 导航 Cmd+Shift+G;**关键**——Finder 中 Cmd+C 后切换目录禁 `type`(pbcopy 会覆盖剪贴板丢文件 ),须用 AppleScript `tell application "Finder" to set target of front Finder window to POSIX file "{path}"`。
### B3. tiktok-video-scraper(多语言 TikTok 爆款抓取 )
- 依赖 B1 + B2。
-`scripts/scraper_task.py` 可执行,CLI:语言列表(en/fr/es/de,默认 `fr es` )、`--time-filter`(默认「最近 1 个月」,可改「最近 7 天」 )、`--videos-per-lang`(默认 3 )。
-`references/search_terms.md`:四语搜索词映射(en=Lipstick / fr=Rouge à lèvres / es=Labial / de=Lippenstift )。
- 流程:① 开始前在 `~/tiktok_materials/task_checklist.json` 建任务清单(防长跑丢进度 );② 每种语言:导航 TikTok→搜索关键词→切「视频」Tab→列表页视觉判点赞≥2K 且日期符 time-filter(列表页无筛选器,全靠视觉识别缩略图上的点赞数字与日期 );③ 先读候选标题去重(**只返 `TITLE: xxx`,禁逐条分析避免输出超长** ),不重复再进详情页;④ 画面中央右键→选「下载视频」→`sleep 10s`;⑤ 浏览器下载面板右上角文件夹图标打开 Finder→Cmd+C 选中最新 mp4→AppleScript 切目标目录→Option+Cmd+V 移动粘贴→代码重命名 `{LANG_PREFIX}_{keyword}_{NNN}.mp4`;⑦ 状态变更即 update 清单,中断可恢复。
- 必写明:严禁 yt-dlp/curl/wget;禁向用户打印脚本代码或工具调用详情,只输出「任务执行中」「已完成 X/Y」等状态。
### B4. video-multimodal-analysis(视频多模态深度分析 )
- 基于 `doubao-seed-2-0-lite-260215` 一次调用多维输出:爆款归因(一句话总结+爆款类型+停留钩子+复看驱动+分享动机 )、结构/节奏(如悬念-揭晓 / Before-After / 节奏卡点 + 时间段拆段 )、剪辑(频率、转场、画面文字、标志技巧带时间戳 )、音频全景(口播音色/语速/金句、BGM 风格/BPM/热门度、音效、音画同步 )、情绪(弧线+高潮+多巴胺刺激点 )、策略总结(评分+爆款公式+可复用技巧与品牌建议+受众画像 )。
-`scripts/video_analysis.py`:URL(单条或 `--batch` ),fps=1;输出 `{video_name}_analysis_report.md`,批量另生 `batch_comparison.md`。**不做本地上传**——本地 mp4 先传图床拿公网链。
-`templates/analysis_report.md` 为输出模板;单视频≤1h。
### B5. strategy-extraction(策略提炼 + Skill 自进化 )
- 输入:B4 报告集合。流程:汇总→归纳共性(结构/Hook/情绪/视觉/BGM )→抽象转化公式(如「痛点 Hook+核心成分特写+情绪拉升 CTA」 )→按 `templates/strategy_report.md` 生成《投流转化归因报告》→lark-cli 发飞书文档。
-**自进化**:`skill_manage(action="patch", name="marketing-video-creator", old_string="<!-- STRATEGY_RULES_END -->", new_string="- [策略提炼] {日期} 分析 {N} 个爆款后结论:{具体规则}\n<!-- STRATEGY_RULES_END -->")`,向 prompt_template.md 的 STRATEGY_RULES 区追加规则。
- Pitfalls:样本<3 不强行归因;patch 非 edit;新规则必带日期和样本量。
### B6. marketing-video-creator(Seedance 2.0 视频创作;自进化核心 )
- 输入:产品图 + STRATEGY_RULES + 品牌资料(`references/brand_assets.md` )。
- 流程:① 提取分析报告+读 prompt_template.md 中 `<!-- STRATEGY_RULES_START -->...<!-- STRATEGY_RULES_END -->` 间全部规则+读 brand_assets.md;② 提示词「现场创作」,参考 `references/seedance_prompt_guide.md`;3 段式时间码(0-3s Hook / 3-10s Product / 10-15s CTA );纯自然语言,禁 Mode/Assets Mapping 等结构化标记;③ **素材引用用「图片N」**:图片1=content 数组第 1 个 image_url(产品图 ),图片2=第 2 个 image_url(虚拟人物 `asset://asset-20260224225806-zkrlx` );**严禁提示词出现 asset-xxx 原始 ID**;「图片N」后必紧跟指代词或名词(如「图片1中的产品」「图片2中的博主」 ),禁直接接动词或方位词;④ 向用户展示 `## 分析报告策略提取 / ## 视频提示词 / ## 生成参数` 三段式卡片等确认;⑤ `python3 scripts/seedance.py create --prompt "{...}" --ref-images {产品图} asset://asset-20260224225806-zkrlx --model doubao-seedance-2-0-260128 --ratio 16:9 --duration 15 --resolution 720p --generate-audio true --wait --interval 15 --download ~/Desktop`。
-`scripts/seedance.py`:参考图URL,`asset://` 透传,轮询到完自动下载;不负责上传——本地图先转直链。
-`templates/prompt_template.md` 必含 `<!-- STRATEGY_RULES_START -->` 与 `<!-- STRATEGY_RULES_END -->`,作为 patch 锚点。
- Verification:提示词是否「现场创作」(与模板重合<30% );每条 `[策略提炼]` 有对应画面;「图片N」引用正确;参数固定(16:9 / 15s / 720p / 带音频 )。
### B7. tiktok-publisher(TikTok 视频发布 )
- 依赖 B1。
- 流程:导航 `https://www.tiktok.com/upload`→处理 cookie/草稿弹窗→点中央「选择文件」→macOS 原生对话框 Cmd+Shift+G 粘贴绝对路径回车→选中→确认上传→`sleep≥30s` 等上传+预览→标题/描述框 Cmd+A 清空→Cmd+V 粘贴(事先 `pyperclip.copy`,upload 后二次写入防清空 )→确认「所有人/公开」→点红色 Post→观察「已发布」或跳审核页。
- 文本:仅英文字母+数字+标点+`#tag`,禁表情/特殊符号。
- 避坑:操作间隔≥2s;选中只用 Cmd+A 不拖拽;失败重试 2 次,3 次提示用户介入;发布后跳主页校验+截图归档。
### B8. attribution-analysis(投放归因 + 再次自进化 )
- 输入:B9 A/B 报告。逐层归因:Hook/内容结构/受众行为/市场文化;结论一句话+数据支撑。
- 再次 skill_manage patch,以 `- [数据驱动] {日期} 归因结论:{具体规则和数据差异}` 写入 STRATEGY_RULES。
### B9. data-analysis(A/B 投放数据分析 )
- 读 CSV/Excel/JSON 或飞书多维表(lark-base );清洗→分组对比→转化漏斗→显著性;指标:3s 完播率、完播率、CTR、CVR、CPM、CPA、ROAS、ROI;输出 `templates/ab_test_report.md`。
# 交付
- 每个 SKILL.md 自洽可跑;scripts可执行,;templates/references 用 Markdown;产物输出到 `./skills/`,我后续 `cp -r` 到 `~/.hermes/skills/`。
开始生成。每个 Skill 完成后简报(名称+文件数 ),不展示文件内容。
Trae 执行完毕后会输出 Skill 目录 + 两份 Hermes 配置,均放在工作区的 ./skills/ 下,等待下一步安装。
4. 将 Skill 安装到 Hermes
Hermes 的 Skill 目录默认为 ~/.hermes/skills/。
将 Trae 生成的 9 个 Skill 目录直接拷贝过去,然后调用 Hermes 自带的 skills list 校验:
# 1) 创建目录 + 安装 venv(首次 )
mkdir ~/logs
python3 -m venv ~/.venvs/doubao
source ~/.venvs/doubao/bin/activate
pip install -r ./doubao-skills/requirements.txt # pyautogui / pyperclip / requests / volcengine-ark 等
# 2) 将 Skill 整体拷到 Hermes skills 目录
cp -r ./doubao-skills/skills/* ~/.hermes/skills/
# 3) 将两份 Hermes 上下文配置放到位
cp ./doubao-skills/SOUL.md ~/.hermes/SOUL.md
cp ./doubao-skills/.hermes.md ~/.hermes.md
# 4) 让 Hermes 重新扫描并列出
hermes skills list
正常情况下,你会看到复制过去的 Skill, 或者在对话里输入 /skills list 也可随时打开技能管理面板。
5. 将 Hermes 接入飞书
目前,整条单聊对话已经能在终端里跑通。但把 Hermes 接进飞书后,你就能直接在飞书机器人的对话框里发指令、收分析报告、归档最终视频——手机上也能操控整条链路。
在终端输入 hermes gateway setup ,开始配置消息渠道(如果前面执行了 hermes setup 会在配置完模型后配置消息渠道 )
选择 Feishu:
生成二维码
扫码或者复制下面的链接打开后,配置飞书应用:
在飞书中,给刚才配置的机器人发送:
请执行指令:hermes skills list
若返回所有 Skill,代表 Skill 、飞书网关、模型全链路已走通。之后的 5 步全流程实战就能在飞书 里完成,不再需要终端。
实操要点 :
-
分析报告 / 归因报告自动归档到飞书文档,需给应用授予 drive:drive 权限;
-
若尚不想接入飞书,跳过本节也完全可以:直接终端运行 hermes 即可单聊。
6. 安装飞书官方 CLI
- 在对话框中输入(如果访问不通可以换成 https://gitee.com/work-xgp/cli ):
帮我安装 https://github.com/larksuite/cli
接下来获取相关配置,进入开发者后台:
https://open.feishu.cn/app?lang=zh-CN
找到刚才创建的机器人,查看并复制 App ID 和 App Secret, 发送给助手:
配置飞书CLI授权:
APP_ID: 你的APP_ID
APP_SECRET:你的APP_SECRET
实战:投流视频创作 5 个关键环节
整条链路由 Hermes 调度,多模态理解由 Doubao-Seed-2.0-lite 承担,视频生成由 Seedance 2.0 完成,全程在飞书中对话 。
Step 1:海外电商平台多语言爆款素材抓取 —— GUI 自动化
你可以在飞书里对 AI 助手说:
"去 TikTok 上帮我找最近 30 天,点赞超过 2000 的口红爆火视频,要求法语,西班牙语 2 个语种,每个语种 2 条,保存到 tiktok_materials 文件夹中。"
助手识别意图,自动执行:
1. 调用 tiktok-video-scraper :建立 ~/tiktok\_materials/task\_checklist.json 任务清单。
2. 调用 doubao-gui-browser-use :这是整条链路中真正体现 Doubao-Seed-2.0-lite 视觉能力 的地方。
- 对屏幕截图进行推理,返回 0-1000 的相对坐标;
- 然后,依次处理两个语种(法语 Rouge à lèvres / 西班牙语 Labial )的问题,步骤如下:打开 TikTok → 点击搜索框 → 输入关键词 → 切换"视频"标签页;
- 由于列表页没有筛选器 ,点赞数与近 30 天的发布日期的获取,需要靠模型来识别图片上的数字;
- 视觉去重:先读取候选标题 → 比对任务清单 → 确认不重复后,再点击进入详情页;
- 右键视频画面 → "下载视频" → 等 10s,完成下载。
3. 调用 doubao-gui-computer-use :点击浏览器下载面板中的文件夹图标 → 在 Finder 中,按 “Cmd+C” 键 选中最新 mp4 → 通过 AppleScript 对目标目录进行截图(注意不能用 Cmd+Shift+G 输入路径,因为 pbcopy 会覆盖剪贴板 )→ 按 “Option+Cmd+V ” 移动粘贴 → 按命名规范 FR\_rougelevres\_001.mp4 / ES\_labial\_001.mp4 对文件进行重命名。
在这一步中,我们密集展示了 GUI 的能力,Doubao-Seed-2.0-lite 的视觉推理能力驱动 4 个视频的下载,实现了零 RPA 和零 DOM 依 赖 。
实操要点 :
-
macOS 需要提前给终端 / IDE 授予「屏幕录制」+「辅助功能」权限,否则 pyautogui 无法工作。
-
TikTok 大量操作容易触发风控,我们需要让助手在每次搜索之间间隔 2-3 秒。
Step 2:多模态深度分析 —— Doubao-Seed-2.0-lite 原生视频理解
视频素材到手后,你可以继续发送消息:"帮我深度分析刚刚抓取的法语投流视频,提取这批高转化爆款视频的共同点和核心策略。"
接下来,助手会通过以下步骤,自动对视频进行分析:
1. 调用 video-multimodal-analysis :输入视频 → 借助 Doubao-Seed-2.0-lite 的视频理解 API(fps=1 抽帧 + 时间戳结构化拼接 [0.0 second] <IMAGE> [1.0 second] <IMAGE> ...,原生音频一起投喂给模型 ),一次性分析多个视频,并对每个视频产出多维分析:
- 视觉 & 结构 :对叙事结构类型(悬念-揭晓 / Before-After / 节奏卡点 ... )、按时间段拆段、画面构图、标志性剪辑技巧的具体时间戳进行分析;
- 音频分析(含情绪识别 ) :对口播情绪标签 (焦虑 / 惊喜 / 自信 / 急促 / 颤抖…… )、音色、语速、金句停顿、BGM 风格 / BPM / 热门度、关键音效、音画同步进行分析识别。Doubao-Seed-2.0-lite 原生多模态最见功力 的地方,在于:它不是把声音转成文字再读文稿,而是把音频和画面一起喂给模型 ,能够直接从声音本身"听出"语气里的焦虑、BGM 的紧张感,以及第几帧开始卡点;
- 情绪设计 :包括完整情绪弧线(如 好奇 → 疑惑 → 期待 → 惊喜 → 种草 )、情绪高潮时刻、多巴胺刺激点;
- 爆款归因 & 策略总结 :分析完成后,给出综合评分、爆款公式、可复用技巧+品牌应用建议。
-
完成每条视频的分析后,助手会生成横向对比报告 batch_comparison.md,总结出两个语种的共同爆款公式。
为什么一定要原生多模态?对比「ASR 语音转文本 + LLM」传统方案
爆款视频里,至少有 60% 的情绪张力来自声音, 包括口播的颤抖、BGM 的节拍、踩点的音效。用"先 ASR 转文字、再把文稿送 LLM"的传统方案做分析,等于先把音频压成黑白文本,再回头来猜情绪,信号损失巨大:
维度
|
传统:ASR 语音转文本 + LLM 读文稿
|
Doubao-Seed-2.0-lite 原生多模态
| |
口播情绪
|
转写丢失:"Oh my god!" 文字表达同样激烈,但音频里的急促喘气、上扬尾音、压低嗓音 无法传达
|
能直接从音频中感知语气、音量、颤抖、停顿 ,输出「焦虑 / 惊喜 / 坚定 / 兴奋」这类情绪标签
| |
BGM 与音效
|
ASR 会把音乐当噪声过滤掉;尖叫、掌声、脚步、风声会全部丢失
|
能识别BPM / 风格 / 情绪色彩 ,判断是否是曲目类别;非语言声音,能作为关键音效被精准打点
| |
链路与误差
|
ASR → 文本 → LLM → 再对齐,容易出现多级误差累积
|
单次调用,更精准
| |
多语言场景
|
依赖各语种 ASR 质量,法语 / 西语等小语种容易误识别
|
画面 + 声音的联合感知,不完全依赖文字转写,语种鲁棒性更高
|
一句话总结就是:传统方案是「先看字幕,再脑补声音」,Doubao-Seed-2.0-lite 则是「直接把视频当视频看」。同时看懂画面、听懂口播情绪、抓住 BGM 的 BPM 变化并和画面节奏对齐,只有原生多模态能做到。在 Doubao-Seed-2.0-lite 中,你可以得到「情绪弧线 + 音画同步 + BGM 风格」这组爆款翻拍最需要的信号 。
如下为多模态分析结果部分截取示例:
实操要点 :
-
Doubao-Seed-2.0-lite 视频理解,能通过 fps=1 抽帧 + 时间戳文本 [N.0 second] 拼接到图像序列前,模型据此重建时序逻辑(原理参考官方视频理解工作原理:https://www.volcengine.com/docs/82379/1895586 );
-
对 BGM 节奏、口播情绪这类脱离文本的信号,要适当调高 fps(最高 5 )效果更稳。
Step 3:优化更新视频制作技能 —— Skill 自进化
分析完成后,你可以继续发一条指令:"优化更新我们的视频制作技能。"
助手将调用 strategy-extraction:
-
读取 Step 2 中产出的分析结论与横向对比结果;
-
归纳共性 → 提炼出通用转化公式:痛点共鸣 Hook(0-3s,必须视觉前后对比 )+ 核心成分特写(3-10s )+ BPM 120-135 情绪拉升式 CTA(10-15s )
3. 触发 skill_manage :这一步是整套体系的差异点,能把上一步总结出来的规则原地写入 marketing-video-creator/templates/prompt_template.md :
- [策略提炼] 2026-04-27 分析 4 个法/西爆款后结论:前 3 秒必须用视觉前后对比 Hook,中段必出现产品质地特写,BGM 使用 120-135 BPM 的 Lo-Fi Pop。
与传统 RAG / Prompt 级别的"知识库" 或者 OpenClaw 对比,这一步直接更改了 Skill 源文件, 多次调用后它会自动触发更新操作(此文中,为了演示效果,我们将其设置为主动触发 ) 。在 Step 4 启动时,你读到的就是升级后的 Skill。
实操要点 :
-
skill_manage 使用 patch 而非 edit,保护老规则不被覆盖;
-
每条新规则必须带日期 + 来源(策略 / 数据 )+ 样本量 ,方便半年后规则增多时,依旧能进行追溯。
Step 4:基于升级后 Skill 生成英文投流视频 — Seedance 2.0
技能升级后,你可以插入新品主图并发送如下指令:"调用刚才升级优化过的视频制作技能,结合我们品牌资料和新品主图,帮我生成一条针对欧美市场的英文投流视频,要求时长 15s,使用预制人物。"
助手会调用 marketing-video-creator:
1. 读取 Strategy Rules :此时规则里已经包含 Step 3 刚刚写入的 [策略提炼] 2026-04-27。
-
读取品牌资料。
3. 现场创作 :通过 3 段式时间码节拍提示词,进行创作:
- 0-3s Hook:视觉前后对比 + 痛点语音——"Your lipstick fades in 3 hours?"
- 3-10s Product:图片2 中的美妆博主手持图片1 中的产品涂抹特写 + 质地拉丝慢动作
- 10-15s CTA:BGM 由舒缓拉升到 125 BPM + 多肤色妆效展示 + 英文 Shop Now
4. 关键约束 :提示词中,所有素材引用都必须用 「图片 N 」 的格式(图片1 = 产品图,图片2 = 虚拟人物 asset://asset-20260224225806-zkrlx ),严禁出现 asset-xxx 原始 ID 格式;「图片 N」后面必须紧跟指代词或名词。
助手会先给出视频生成的相关信息,大约 2-3 分钟后,我们需要的 mp4 就会自动生成。
实操要点 :
-
图片引用只用「图片1」「图片2」,不要用 asset-xxx,否则 Seedance 会把 ID 字符串当文案处理;
-
预制人物固定用同一个 Asset ID,保证品牌数字代言人一致性。
Step 5:海外电商平台视频发布 —— GUI 自动化再一次
最后一条指令,可以发送:"好的,把刚才制作的视频,发布到 TikTok 上。"
助手会调用 tiktok-publisher(底层仍是 doubao-gui-browser-use ):
-
pyperclip.copy(PUBLISH_CONTENT) 指令会先把发布文案写入剪贴板;
-
然后导航到 https://www.tiktok.com/upload,处理 cookie 弹窗和未保存草稿弹窗;
-
点击中央"选择文件"→ 打开系统文件选择对话框 → 按 “Cmd+Shift+G”输入视频绝对路径,并回车 → 选中 mp4 → 打开;
-
显示 sleep ≥ 30s ,待上传完成并生成预览;
-
找到描述输入框,按 “Cmd+A”清空 → 按“Cmd+V” 粘贴;
-
确认状态为"所有人/公开"→ 点击红色 Post;
-
看到官方"视频已发布"提示 / 自动跳转审核页后,截图归档。
实操要点 :
-
全程 Cmd+A / Cmd+V 代替拖拽,避开 pyautogui 拖拽在 macOS 上的兼容性坑。
为什么这套工作流跑得通?Doubao-Seed-2.0-lite + Hermes 的能力支撑
完成所有链路的实战后,你会发现,5 步 AI 操作不是相互独立的,而是一条环环相扣、自带反馈回路 的流水线。每一步的输入,都依赖前一步的产出,产出的 Skill 本身,也会被后续步骤持续改写。
真正能让这条链路跑通的,是以下两块能力:
能力
|
体现环节
| |
GUI 能力
|
Step 1、Step 5:TikTok 抓取与发布,几十次点击 / 输入
| |
原生多模态(视觉 + 时序 + 音频情绪 )
|
Step 2:识别口播情绪、BGM BPM、音画同步、画面节奏对齐
| |
长链路上下文保持
|
Step1:长时间运行正常;Step 4:跨 Skill 产出,自动引用报告里的策略规则
| |
复杂指令遵循
|
Step 4:多约束叠加(产品信息 + 爆款结构 + 预制人物 + 本地化 )
| |
工具调用稳定
|
全程调用稳定:Browser Use / Computer Use / Seedance API
|
Doubao-Seed-2.0-lite 能够独自承担 GUI 能力和原生多模态理解能力,无需拼接"视觉模型 + ASR + LLM",也就不会在"看懂画面"和"听懂声音"之间出现能力割裂或信息损失。
结语
内容迭代速度 ,是海外电商的竞争本质。人工做投流内容的瓶颈,不是你不会做,而是"看到竞品的操作后,却来不及拆解,迭代成自己的内容"。
Doubao-Seed-2.0-lite + Hermes + Seedance 2.0 ,能把 "看 → 拆 → 沉淀 → 再造 → 发布 " 5 步集成到一个对话框内完成,快捷方便。而且,Skill 还会在操作过程中自动升级,确保下一轮的创作会比上一轮更聪明。
提示词,你可以随时改;发布,你可以随时否决。现在,AI 能帮我们做的,是把"决策之间的执行成本"降到接近于零。
