大家都能深刻体会到,在自媒体极其内卷的今天,「视频转图文」是一个巨大的流量入口。
但是,简单的视频截图已经无法满足观众挑剔的审美了。大家喜欢有风格、有调性、有信息增量 的东西。
最近,我在 GitHub 搜罗到了一个专为视频创作者、二创博主打造的开源项目:clipsketch-ai 。
它的核心功能非常炸裂:
给定一条 B 站或🍠的视频链接,它能自动提取关键帧,利用 AI 将其重绘为极具质感的手绘故事板,并自动生成适配社交平台的爆款文案。
AI 模型是基于当下最火热的 Gemini 3 Pro 大语言模型和 Nano Banana Pro 生图模型进行实现。
直接把「视频理解 + AI 绘画 + AI 写作」三个大模型能力串成了一条自动化的流水线。
痛点直击
在介绍功能之前,我们先聊聊创作者的痛点。
- •
视频素材难整理:看到一个长视频,想快速提炼核心流程(比如做饭教程、电影解说),传统做法是手动截图,费时费力。 - •
版权与原创度:直接使用原视频截图容易被平台判定为搬运或侵权。但如果通过 AI 转化成“手绘风格”,就属于二次创作,不仅规避了风险,还增加了艺术感。 - •
文案憋不出:图有了,还要绞尽脑汁想标题、想 Tag。 - •
风格不统一:自己拼凑的图,色调乱七八糟,很难形成个人 IP。
Clipsketch AI 就是为了解决这些问题而生的。它利用 Google 最新的 Gemini 3 Pro 系列模型,把这些步骤全部自动化了。
核心功能
1、强大的视频解析,关键帧提取
- •
多源导入:支持解析 📺(某站) 和 🍠(某书) 的分享链接(支持短链接和混合文案)。 - •
高清播放:针对竖屏视频(9:16)和宽屏视频进行了自适应布局优化。 - •
精准控制:支持键盘快捷键(空格播放/暂停,左右键逐帧/智能步长调节)。
2、引入帧标记功能
- •
毫秒级记录:精确捕捉每一个精彩瞬间。 - •
快捷键打点:按下 T 键即可快速标记。 - •
数据导出:支持导出 TXT 格式的时间轴标签,或将标记帧打包导出为 ZIP 图片包。
3、提供AI艺术创作室
- •
智能绘图:利用 Nano Banana Pro 模型,将多个标记帧整合成一张连贯的、可爱手绘风格的故事板。 - •
社交文案生成:基于视觉内容,利用 Gemini 3 Pro 自动生成 3 种不同风格的种草文案(情感故事型、干货教程型、短小精悍型)。 - •
角色融合:上传自定义角色/头像,AI 自动将其融入到故事板场景中。 - •
封面生成:基于精选文案和原始画面,生成高品质的竖屏视频封面。 - •
批量精修:支持批量生成和优化分镜(可配置使用 Batch API 以节省成本)。
4、全平台适配
- •
响应式设计:完美适配 PC 宽屏、iPad 平板及手机竖屏操作。 - •
移动端优化:在手机上自动切换为上下布局,操作更顺手。
如何使用?
作为一个开源项目,想要尝鲜的朋友需要一点点动手能力。
你需要有 Nodejs 前端环境和一个 Gemini API-Key。
安装部署步骤如下:
① 克隆项目
git clone https://github.com/RanFeng/clipsketch-ai.git
cd clipsketch-ai
② 安装依赖
npm install
③ 配置环境变量
在根目录创建 .env.local 文件并填入您的 API Key:
GEMINI\_API\_KEY=your\_api\_key\_here
④ 启动服务
npm run dev
打开浏览器访问 http://localhost:3000 即可开始使用。
写在最后
clipsketch-ai 它没有去卷大模型的参数,而是敏锐地捕捉到了自媒体创作者的具体痛点,把 Video-to-Image 和 Image-to-Text 的技术完美缝合在了一起。
解决的是:从「看视频」到「把视频结构化、视觉化、内容化」。
它代表了 AI 工具的一个主流趋势:从“单一功能”走向“工作流闭环”。未来的 AI 工具,一定不是让你做选择题,而是直接把成品端到你面前。
如果你是内容创作者,或者你是想学习如何利用 Gemini 多模态能力的开发者,这个项目绝对值得你 Star ⭐️ 一下。
GitHub:
如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️
在看你就赞赞我!
