CleanAgent:自动化数据清洗的Agent应用

人工智能与算法增长营销数据安全

Agent 数据科学

摘要

在数据科学工作中,数据标准化举足轻重,但现有工具虽功能强大,却因操作复杂及针对各类列类型自定义代码的工作量大而面临困扰。尽管大型语言模型(如ChatGPT)已初露端倪,尝试通过自然语言理解与代码生成来简化此过程,但依然要求专家级编程知识,并需不断调整提示信息以优化效果。因此,我们计划推出一款Python库,它具备声明式、一体化的API接口,能便捷地对列类型进行标准化设定,仅需寥寥几行简洁的API调用,即可让LLM轻松生成相关代码。首先,我们构建了Dataprep.Clean组件,作为Dataprep库的一部分,凭借一行代码即可完成特定列类型的标准化,极大地简化了操作难度。接着,我们推出了CleanAgent框架,整合了Dataprep.Clean与基于LLM的智能代理,全自动实现数据标准化流程。这样一来,数据科学家只需一次性表达需求,CleanAgent就能全程“无人驾驶”,自动执行数据标准化任务。

picture.image

基础架构

picture.image

主要包括四个主要组成部分:

  • • (1) 核心部件:LLM,用来回复Prompt
  • • (2) 用于存储历史对话消息的内存
  • • (3) 定义Agent角色的系统消息
  • • (4) 一组外部工具,Agent可以调用这些工具来完成特定任务,例如网络搜索、代码运行等。

picture.image

CleanAgent由四个Agent组成,包括聊天管理器、列类型注释器、Python程序员和代码执行器。几个Agent之间可以相互通信,并通过合作自动完成数据标准化过程。

每个Agent都有自己的内存,用于存储其与其他Agent之间的历史对话消息。需要强调的是,聊天管理器的内存是独特全面的,包含CleanAgent系统中所有Agent之间的整个历史对话消息。这种广泛的记忆内存使得CleanAgent中的每个Agent都能够生成受完整历史消息启发的响应。

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
vivo 容器化平台架构与核心能力建设实践
为了实现规模化降本提效的目标,vivo 确定了基于云原生理念构建容器化生态的目标。在容器化生态发展过程中,平台架构不断演进,并针对业务的痛点和诉求,持续完善容器化能力矩阵。本次演讲将会介绍 vivo 容器化平台及主要子系统的架构设计,并分享重点建设的容器化核心能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论