LLM数据处理趋势:从“数据处理(ETL)”到“语义处理(ECL)”

大模型智能语音交互算法

在大模型应用开发领域,除了文本检索向语义检索转变之外,又一个新的趋势出现,那就是传统的基于数据处理(ETL)在向语义处理(Extract-Contextualize-Load,ECL)转变。

picture.image

在LLM应用开发过程中,我们要从各种来源中提取非结构化数据,通过从原始文档中提取有语义和上下文相关的数据,将其上下文化,然后加载到结构化知识图谱中,这被认是存储有语义背景数据的最佳方式之一。然后,RAG Pipeline会检索数据,以便为其 LLM 提供最相关的数据。

在传统意义上,添加上下文指的是在不同的时间点为词语添加额外含义的过程。 上下文不是一次性添加的,也不是随意添加的。 上下文化是指在适当的时间点添加适当类型和数量的信息,以帮助对话朝着特定的方向和深度结构化的过程。

几十年来,ETL 和 ELT 工具一直在帮助开发人员将数据从不同的数据源和不匹配的模式转移到一个可以分析、共享和探索数据的地方。在 ETL 流程中,开发人员从具有多种不同模式的各种数据源中提取结构化数据,通过清理、改变结构等方式对其进行转换,然后将其加载到数据仓库中。然后,开发人员可以将这些数据提取到他们的活动应用程序数据存储中,并使用BI工具等进行探索。

而LLM应用对数据工程带来了一系列新的改变,比如:

  • 将 LLM 作为数据交互的形式函数,使用自然语言与非结构化自然语言文档进行交互
  • 数据是非结构化的--不再处理定义明确的数据,LLM 需要对非结构化散文进行结构化处理,以便以有意义的方式理解词语。
  • 可用的数据增多,特别是当非结构化数据开始发挥作用时,而这种新的未充分利用的数据重点是定性的,并且主要是文本形式的。

当然,这并不是说 ETL/ELT 和数据分析的重要性有所降低,但鉴于数据类型、数据量以及我们对数据需求的变化,现在是我们重新思考这些过程的时候了。事实上,语言可能是帮助 LLM 理解如何思考我们更习惯于处理的数量数据的操作。我们用来交流的单词的底层含义的提炼过程,指的是添加上下文的过程。

信息检索只是企业应用LLM 的第一步。随着未来复杂的LLM应用出现 ,如人机交互或机机交互,需要建立基础语境逻辑和基础设施。

上下文作用:

改进检索准确性:增强检索机制,以更准确地识别和获取来自知识库的相关信息片段。这包括优化查询机制,以更好地理解用户请求的上下文,并将其与最合适的数据匹配。

纳入专家经验作为确定性规则: 利用领域专家的反馈来定义或完善规则和启发式方法,以实现更有效的块和信息检索和理解。

记忆和个性化:将记忆和个性化纳入上下文优化涉及利用特定于用户的交互和数据来优化和调整信息检索和生成,确保响应不仅在上下文中准确,而且还针对个人用户偏好和对话历史进行定制。

基本介绍:

  • ETL -> Extract-Contextualize-Load (ECL)

picture.image

ECL 过程的一个示例是使用文档层次结构,如下图。在文档层次结构过程中,数据从底层文档中提取并分块,数据被上下文化为元数据的层次结构,并存储在知识图谱中。知识图谱在将信息加载到 LLM 之前,作为语义层以实现更准确的信息检索。

picture.image

  • ELT -> Extract-Load-Contextualize (ELC)

picture.image

与 ELT 的变体类似,ELC 也有一个变体。ELC 流程指的是在即时和迭代知识图谱方面正在进行的一些更具创新性的工作。这里的主要用例是递归检索,在此过程中,核心概念和思想固化在知识图谱中,并且来自各个页面和文档的信息会随着时间的推移持续 地回写到知识图谱中。

在此 ELC 过程中,没有定义这些知识图谱的结构,而是根据即时情况进行设置,模式会根据手头的特定问题进行上下文化。从原理上讲,这类似于 ELT 过程,其中在将原始数据加载到数据仓库后发生转换和模式化。

ECL发展趋势

原文作者对ECL/ELC后续发展做了一些展望:

1)领域成熟和开发工具兴起:

对数据转换、错误处理和日志记录的标准化功能的需求将会促进 LLM 辅助、自校正的底层非结构化数据知识图谱的兴起

2)扩展和集成:

可以期待看到Agent动作的实时上下文优化,让Agent始终能够在最相关的上下文中采取行动。我们还可以看到上下文优化工作流与现有的实时数据移动应用程序之间更深入的集成。

3)分布式Agent间上下文交换:

随着不同领域特定Agent开始相互交互,跨多个Agent管理上下文将需要精确的即时上下文注入。

小结

不得不说,随着LLM应用的发展,未来数据处理将从专注于结构化数据集成向通过语义理解与非结构化数据交互的关键转变。Extract-Contextualize-Load 的概念也将被越来越多开发者熟知,这方面的工具也将会 像大数据时代的ETL工具一样大量出现。

改编自WhyHow.AI联合创始人Chia Jeng Yang。

欢迎点赞加关注,并可

在公众号内回复"进群"可进群交流。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
高性能存储虚拟化方案 NVMe over Fabric 在火山引擎的演进
在云计算中,虚拟化存储扮演着重要角色,其中 iSCSI 协议在业界开放、流行多年。近年来,拥有更优性能的 NVMe over Fabrics 协议也得到了发展。本次分享介绍了 NVMe over Fabrics 在云原生和虚拟化方向的演进工作和成果。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论