LangStudio构建文件应用流，只要输入地址就可以转为你自己的知识库

公粽好：堆栈future

大模型MySQLNoSQL

picture.image

`LangStudio文件流解析`

一、需求

我们有很多文件，不管是本地的还是在线的，总之这些文件如果对于我们来说有用，不管是为企业整理数据用于训练模型还是个人拥有构建自己的知识库，那都需要解析文件内容并且存储到我们自己的数据库中，以便后期检索和使用。那么我们该如何自动化解析并且整理成我们自己的知识呢？

二、实战

废话不多说，我们首选技术方案是基于 LangStudio构建我们的大模型应用开发，这里技术选型可以给大家说下：

1、阿里云 oss服务
2、阿里云 百炼 搭建的 DeepSeek-R1 推理模型
3、 Python 语言
4、 LangStudio 技术框架
5、 MySql 数据库
6、前端 jQuery 和 JS 以及 markdown 渲染技术

有了这些技术栈，我们就可以基于 阿里云人工智能平台PAI构建我们自己的大模型应用服务了。

第一步

创建一个 工作流 picture.image 创建完成是这个样子：

picture.image

第二步

开发工作流

点击进入应用流详情，我们可以添加工作流节点 picture.image

这里我们必须选择一个 输入输出节点，然后中间我们可以接入我们的 Python解析器用来解析文件内容，接入 DeepSeek用于生成内容摘要和原文汇总整理，接入 Python存储节点来将大模型的输出存储到 MySql中去。

picture.image

我们的整个流程就是：

开始接受用户输入的 oss文件地址 -> 条件分支判断是否是 ppt结尾的文件类型 -> 是的话走 Python文件解析ppt并且将内容传递给大模型 DeepSeek-R1 -> 大模型经过摘要总结和生成原文整理之后将结果传递给下一个 Python节点 -> Python节点将大模型输出存储到 MySql中 -> 结束

我们大概介绍下各模块

开始节点【接受用户输入】

picture.image

条件分支【走条件分支判断逻辑】

picture.image

Python节点1 【解析 oss地址 以 ppt结尾 的文件内容】

picture.image

大模型【 DeepSeek-R1 整理和摘要生成】

picture.image

Python节点2 【结果插入 MySql 】

picture.image

结束节点【输出自增ID】

picture.image

以上的每一步骤我们都可以控制并且随意编排

演示

我们启动我们的应用工作流，然后启动之前记得安装 Python依赖 picture.image 安装之后，我们就可以点击运行按钮

picture.image

点击结果就可以看到结果了

picture.image

同时也看下 trace链路，看看 耗时和 Token消耗情况

picture.image

最后我们看下数据是否存储到 MySql中了

picture.image 很明显将解析到的文件内容和生成的摘要按照 markdown存储到 MySql中了

部署

点击部署按钮，将我们的大模型应用部署到 EAS

picture.image

部署成功之后

picture.image

我们就可以查看调用信息，拿到 接口和 token

picture.image

然后通过 postman就可以访问了

picture.image

这样我们的大模型应用开发就此上线，前端可以实现一个页面调用此接口，通过自增ID查询数据库并且将返回的 content渲染成 markdown

picture.image

小结

我们今天主要介绍了 阿里云大模型开发文件工作流如何落地实操，但是由于篇幅有限，很多细节没有展开，后续我会把每一出的细节都为大家展开讲讲，让大家不但能会写而且知道为什么这么写，做一个真正掌控 大模型的工具人。

最后有问题的欢迎关注公众号并且加微信，相互交流学习。

历史大模型系列文章：

0

0

0

0

评论

未登录

暂无评论