通用信息抽取技术UIE产业案例解析,Prompt 范式落地经验分享!

技术

想了解用户的评价究竟是“真心夸赞”还是“阴阳怪气”?

想快速从多角色多事件的繁杂信息中剥茧抽丝提取核心内容?

想通过 聚合相似事件准确地归纳出特征标签?

……

想了解UIE技术在产业中的实战落地经验? 通用信息抽取技术 UIE 产业案例分享来了!

近期Prompt 范式备受关注,实际上,Prompt 思想在产业界已经有了一些成功的应用案例。由中科院软件所和百度共同提出了大一统诸多任务的通用信息抽取技术UIE(Universal Information Extraction),基于 Prompt 思想,将希望抽取的 Schema 信息转换成“线索词”(Schema-based Prompt)作为模型输入的前缀,使得模型理论上能够适应不同领域和任务的 Schema 信息,并按需抽取出线索词指向的结果,从而实现开放域环境下的通用信息抽取。在实体、关系、事件和情感等4个信息抽取任务、13个数据集的全监督、低资源和少样本设置下,UIE均取得了SOTA性能[1]。

截止目前,UIE 系列模型已发布UIE、UIE-X、UIE-senta三大模型,凭借其强大的 零样本与小样本能力多任务统一建模能力 ,成为业界在信息抽取、情感分析等任务上的首选方案。

  • 2022年5月,飞桨PaddleNLP结合文心大模型中的知识增强 NLP 大模型 ERNIE 3.0 ,发挥 UIE 在中文任务上的强大潜力,推出首个面向通用信息抽取的产业级技术方案[2] 。

  • 2022年11月,UIE 新增文档信息抽取能力——UIE-X[3],OCR、版面分析、跨模态文档信息抽取能力一应俱全。UIE-X 基于文心 ERNIE-Layout[4] 跨模态布局增强预训练模型,集成了 PaddleOCR[5] 的 PP-OCR、PP-Structure 版面分析等领先能力。

  • 2022年12月,PaddleNLP 以 UIE 为训练底座,在大量情感分析数据集上进一步训练,增强了模型对于情感知识的处理能力,推出基于 UIE 的情感分析方案(下表简写UIE-senta)[6],覆盖句子级情感极性分类、属性抽取、观点抽取、属性级情感极性分类等多项情感任务,且解决了属性聚合和隐性观点抽取难题,并提供情感分析结果可视化能力。

picture.image

(图:UIE 系列模型介绍)

来自 云南能投财务服务有限公司黑蚁资本 的两位讲师将带来精彩课程,解析UIE技术在多领域的应用场景,分享落地实战经验。

2月28日、3月1日,飞桨直播间、B站直播间,两场连播,不见不散!

picture.image

课程介绍

2 月28日 【金融】复杂单据信息抽取——财务系统智能化

钟榆星 | 云南能投财务服务有限公司

财务管理是企业管理的重要组成部分,财务人员常常需要将业务单据表格中的数据通过人工填制到财务系统里,这 往往费时费力,且容易产生错误 。 云南能投财务服务有限公司(以下简称云南能投),成立于2020年4月,是云南省能源投资集团有限公司全资子公司。为有效支撑集团财务管控落地执行,起到支持集团国际化发展、战略决策的作用,云南能投技术支持部利用PaddleNLP提供的文档信息抽取全流程解决方案,开发了 基于UIE-X的表格信息抽取方案 ,实现 复杂结构表格的关系型抽取,帮助业务、财务将常用表格快速导入业务系统,取代人工手录,高效推动了财务共享智能提单业务的快速落地。

picture.image

(图:云南能投基于 UIE-X 开发了表格信息抽取方案)

3 月1日 【零售】客户意见洞察促进消费品牌经营转型

Jeru | 黑蚁资本

黑蚁资本,是一家深耕消费领域投资的企业,成立之初就决心让“投后服务”成为机构的核心能力之一,而“数字化”正是黑蚁服务被投企业的重要内容。随着餐饮行业进入线上线下、堂食外卖并重的“双主场”时代,面对铺天盖地的用户评论数据,如何用数字化手段优化经营成为餐饮企业降本增效的关键。为了帮助被投企业提升评价数据的处理效率,黑蚁投后数字化团队 基于 UIE 开发了用户评论洞察系统 ,帮助品牌高效深入了解用户反馈,自动抽取出高价值信息,实现量化统计分析,从而降低经营成本,优化产品和服务,提升市场竞争力。

picture.image

(图:黑蚁资本基于 UIE 开发了用户评论洞察系统)

技术拓展——文心大模型

随着数据井喷、算法进步和算力突破,效果好、泛化能力强、通用性强的预训练大模型(以下简称“大模型”),成为人工智能发展的关键方向与人工智能产业应用的基础底座。

文心大模型源于产业、服务于产业,是产业级知识增强大模型,涵盖基础大模型、任务大模型、行业大模型,大模型总量达36个,并构建了业界规模最大的产业大模型体系。文心大模型配套了丰富的工具与平台层,包括大模型开发套件、API 以及内置文心大模型能力的 EasyDL 和 BML 开发平台。 百度通过大模型与国产深度学习框架融合发展,打造了自主创新的 AI 底座,大幅降低了 AI 开发和应用的门槛,满足真实场景中的应用需求,真正发挥大模型驱动 AI 规模化应用的产业价值。

picture.image

从技术研发到落地应用,大模型的发展已经进入产业落地的关键期,欢迎前往文心大模型官网了解详情:

https://wenxin.baidu.com/

相关项目

PaddleNLP GitHub地址:https://github.com/PaddlePaddle/PaddleNLP

PaddleNLP Gitee地址:

https://gitee.com/paddlepaddle/PaddleNLP

参考

  1. Unified Structure Generation for Universal Information Extraction
  2. https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model\_zoo/uie
  3. https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information\_extraction
  4. https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model\_zoo/ernie-layout
  5. https://github.com/PaddlePaddle/PaddleOCR
  6. https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/sentiment\_analysis
0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎 EMR 基于 Proton 的存算分离实践
EMR 团队针对这些挑战自研了 Proton 加速引擎,深度优化对象存储读写能力,与 Hive/Spark/Trino 等计算引擎集成后,在不改变用户使用习惯的前提条件下,可提供对象存储数据集的透明加速服务。在离线场景下,其性能基本持平存算一体架构。本次分享将介绍 Proton 技术能力和最佳实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论