CleanAgent:自动化数据清洗的Agent应用

人工智能与算法增长营销数据安全

Agent 数据科学

摘要

在数据科学工作中,数据标准化举足轻重,但现有工具虽功能强大,却因操作复杂及针对各类列类型自定义代码的工作量大而面临困扰。尽管大型语言模型(如ChatGPT)已初露端倪,尝试通过自然语言理解与代码生成来简化此过程,但依然要求专家级编程知识,并需不断调整提示信息以优化效果。因此,我们计划推出一款Python库,它具备声明式、一体化的API接口,能便捷地对列类型进行标准化设定,仅需寥寥几行简洁的API调用,即可让LLM轻松生成相关代码。首先,我们构建了Dataprep.Clean组件,作为Dataprep库的一部分,凭借一行代码即可完成特定列类型的标准化,极大地简化了操作难度。接着,我们推出了CleanAgent框架,整合了Dataprep.Clean与基于LLM的智能代理,全自动实现数据标准化流程。这样一来,数据科学家只需一次性表达需求,CleanAgent就能全程“无人驾驶”,自动执行数据标准化任务。

picture.image

基础架构

picture.image

主要包括四个主要组成部分:

  • • (1) 核心部件:LLM,用来回复Prompt
  • • (2) 用于存储历史对话消息的内存
  • • (3) 定义Agent角色的系统消息
  • • (4) 一组外部工具,Agent可以调用这些工具来完成特定任务,例如网络搜索、代码运行等。

picture.image

CleanAgent由四个Agent组成,包括聊天管理器、列类型注释器、Python程序员和代码执行器。几个Agent之间可以相互通信,并通过合作自动完成数据标准化过程。

每个Agent都有自己的内存,用于存储其与其他Agent之间的历史对话消息。需要强调的是,聊天管理器的内存是独特全面的,包含CleanAgent系统中所有Agent之间的整个历史对话消息。这种广泛的记忆内存使得CleanAgent中的每个Agent都能够生成受完整历史消息启发的响应。

picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
如何利用云原生构建 AIGC 业务基石
AIGC即AI Generated Content,是指利用人工智能技术来生成内容,AIGC也被认为是继UGC、PGC之后的新型内容生产方式,AI绘画、AI写作等都属于AIGC的分支。而 AIGC 业务的部署也面临着异构资源管理、机器学习流程管理等问题,本次分享将和大家分享如何使用云原生技术构建 AIGC 业务。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论