LangStudio文件流解析
一、需求
我们有很多文件,不管是本地的还是在线的,总之这些文件如果对于我们来说有用,不管是为企业整理数据用于训练模型还是个人拥有构建自己的知识库,那都需要解析文件内容并且存储到我们自己的数据库中,以便后期检索和使用。那么我们该如何自动化解析并且整理成我们自己的知识呢?
二、实战
废话不多说,我们首选技术方案是基于 LangStudio构建我们的大模型应用开发,这里技术选型可以给大家说下:
- 1、阿里云
oss服务 - 2、阿里云
百炼搭建的DeepSeek-R1推理模型 - 3、
Python语言 - 4、
LangStudio技术框架 - 5、
MySql数据库 - 6、前端
jQuery和JS以及markdown渲染技术
有了这些技术栈,我们就可以基于 阿里云人工智能平台PAI构建我们自己的大模型应用服务了。
第一步
创建一个 工作流创建完成是这个样子:
第二步
开发工作流
点击进入应用流详情,我们可以添加工作流节点
这里我们必须选择一个 输入输出节点,然后中间我们可以接入我们的 Python解析器用来解析文件内容,接入 DeepSeek用于生成内容摘要和原文汇总整理,接入 Python存储节点来将大模型的输出存储到 MySql中去。
我们的整个流程就是:
开始接受用户输入的
oss文件地址-> 条件分支判断是否是ppt结尾的文件类型 -> 是的话走Python文件解析ppt并且将内容传递给大模型DeepSeek-R1-> 大模型经过摘要总结和生成原文整理之后将结果传递给下一个Python节点->Python节点将大模型输出存储到MySql中 -> 结束
我们大概介绍下各模块
- 开始节点【接受用户输入】
- 条件分支【走条件分支判断逻辑】
Python节点1【解析oss地址以ppt结尾的文件内容】
- 大模型【
DeepSeek-R1整理和摘要生成】
Python节点2【结果插入MySql】
- 结束节点【输出自增ID】
以上的每一步骤我们都可以控制并且随意编排
演示
我们启动我们的应用工作流,然后启动之前记得安装 Python依赖安装之后,我们就可以点击运行按钮
点击结果就可以看到结果了
同时也看下 trace链路,看看 耗时和 Token消耗情况
最后我们看下数据是否存储到 MySql中了
很明显将解析到的文件内容和生成的摘要按照
markdown存储到 MySql中了
部署
点击部署按钮,将我们的大模型应用部署到 EAS
部署成功之后
我们就可以查看调用信息,拿到 接口和 token
然后通过 postman就可以访问了
这样我们的大模型应用开发就此上线,前端可以实现一个页面调用此接口,通过自增ID查询数据库并且将返回的 content渲染成 markdown
小结
我们今天主要介绍了 阿里云大模型开发文件工作流如何落地实操,但是由于篇幅有限,很多细节没有展开,后续我会把每一出的细节都为大家展开讲讲,让大家不但能会写而且知道为什么这么写,做一个真正掌控 大模型的工具人。
最后有问题的欢迎关注公众号并且加微信,相互交流学习。
历史大模型系列文章:
