CleanAgent：自动化数据清洗的Agent应用 - 文章 - 开发者社区

Agent 数据科学

摘要

在数据科学工作中，数据标准化举足轻重，但现有工具虽功能强大，却因操作复杂及针对各类列类型自定义代码的工作量大而面临困扰。尽管大型语言模型（如ChatGPT）已初露端倪，尝试通过自然语言理解与代码生成来简化此过程，但依然要求专家级编程知识，并需不断调整提示信息以优化效果。因此，我们计划推出一款Python库，它具备声明式、一体化的API接口，能便捷地对列类型进行标准化设定，仅需寥寥几行简洁的API调用，即可让LLM轻松生成相关代码。首先，我们构建了Dataprep.Clean组件，作为Dataprep库的一部分，凭借一行代码即可完成特定列类型的标准化，极大地简化了操作难度。接着，我们推出了CleanAgent框架，整合了Dataprep.Clean与基于LLM的智能代理，全自动实现数据标准化流程。这样一来，数据科学家只需一次性表达需求，CleanAgent就能全程“无人驾驶”，自动执行数据标准化任务。

picture.image

基础架构

picture.image

主要包括四个主要组成部分：

• (1) 核心部件：LLM，用来回复Prompt
• (2) 用于存储历史对话消息的内存
• (3) 定义Agent角色的系统消息
• (4) 一组外部工具，Agent可以调用这些工具来完成特定任务，例如网络搜索、代码运行等。

picture.image

CleanAgent由四个Agent组成，包括聊天管理器、列类型注释器、Python程序员和代码执行器。几个Agent之间可以相互通信，并通过合作自动完成数据标准化过程。

每个Agent都有自己的内存，用于存储其与其他Agent之间的历史对话消息。需要强调的是，聊天管理器的内存是独特全面的，包含CleanAgent系统中所有Agent之间的整个历史对话消息。这种广泛的记忆内存使得CleanAgent中的每个Agent都能够生成受完整历史消息启发的响应。

picture.image