dify工作流教程|以电费单分析为例详细讲解工作流编排过程(附DSL文件)

向量数据库大模型机器学习

点击上方蓝字关注我们 | AI时代 你不是一个旁观者

1

系统背景与技术挑战

某全国性售电公司正面临业务数据治理的重大挑战。该公司采集的客户电费单覆盖全国多个省级行政单位,年均处理量超过2万份。这些原始数据呈现出显著的多模态特征。

经分析该售电公司业务数据治理面临三重技术瓶颈:多模态数据融合难题需构建跨格式数据治理体系,覆盖PDF(45%)、扫描图像(30%)、结构化文档(25%)的异构数据源,建立统一特征提取通道。地域模板适配困境需解决12种省级电网模板的语义对齐问题,涉及字段映射、计量单位转换及地域政策解析等技术挑战。计费模式解析复杂度需设计6种复合计费模式的动态解析引擎,支持阶梯电价、容量/需量计费、峰谷平计价等混合计算规则的自动识别与交叉验证。

传统人工处理模式存在系统性缺陷:单文件处理耗时25分钟,年处理量超12万份时存在规模不经济人工转录误差率高。跨省数据标准化对齐需人工干预,制约业务扩展效率。

2

需求分析

核心需求分析多模态解析与识别

需完成文档结构解析(PDF/Word)、图像识别与理解(JPG/PNG)、表格提取(Excel)等功能电费单分析实现计费模式对比分析(容量vs需量)、行业用电对标、用电行为特征提取(峰谷比/负荷波动率)。 生成报告支持参数化模板生成,输出涵盖成本优化建议、行业基准对比、异常用电预警的综合分析报告 。

3

流程设计

picture.image

4

功能点验证与优化

4.1功能点验证

picture.image

4.2 视觉模型优化

经测试,除图片理解节点外,其余节点均符合预期。针对Qwen2-vl-72B等模型在复杂场景下的性能局限,进行优化。

提示词重构

重点描述图片特点,图片的排版布局,颜色特征,文字特征等;设计基于表格结构描述符的提示模板,直接将图片中的表格结构描述清楚,提升模型对图片理解;明确行列定位规则与计量单位标注要求。通过以上的优化,发现图片识别效果有了大幅提升(提示词放到了DSL文件中,需要的自取)。

动态校验机制

建立识别结果交叉验证流程,当关键字段置信度<90%时触发重识别,最大重试次数3次 。

5

测试调整

使用多份不同省份的电费单进行测试,通过查看工作流日志详情,查看每个节点的反馈是否符合预期。

picture.image

针对每个节点反馈结果,进行微调,使输出的结果质量更高。

6

遇到的一些小问题

Results are not displayed due to timeout. Please refer to the logs to gather complete results

修改配置文件The timeout for the text generation in millisecondTEXT GENERATION TIMEOUT MS=60000 搞定啦。

获取DSL文件

DSL文件分享公众号回复 DSL ,获取工作流DSL文件。目前我建立了一个dify学习交流群。可以在微信公众号回复 入群,我拉你进群。

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论