Agent
数据科学
摘要
在数据科学工作中,数据标准化举足轻重,但现有工具虽功能强大,却因操作复杂及针对各类列类型自定义代码的工作量大而面临困扰。尽管大型语言模型(如ChatGPT)已初露端倪,尝试通过自然语言理解与代码生成来简化此过程,但依然要求专家级编程知识,并需不断调整提示信息以优化效果。因此,我们计划推出一款Python库,它具备声明式、一体化的API接口,能便捷地对列类型进行标准化设定,仅需寥寥几行简洁的API调用,即可让LLM轻松生成相关代码。首先,我们构建了Dataprep.Clean组件,作为Dataprep库的一部分,凭借一行代码即可完成特定列类型的标准化,极大地简化了操作难度。接着,我们推出了CleanAgent框架,整合了Dataprep.Clean与基于LLM的智能代理,全自动实现数据标准化流程。这样一来,数据科学家只需一次性表达需求,CleanAgent就能全程“无人驾驶”,自动执行数据标准化任务。
基础架构
主要包括四个主要组成部分:
- • (1) 核心部件:LLM,用来回复Prompt
- • (2) 用于存储历史对话消息的内存
- • (3) 定义Agent角色的系统消息
- • (4) 一组外部工具,Agent可以调用这些工具来完成特定任务,例如网络搜索、代码运行等。
CleanAgent由四个Agent组成,包括聊天管理器、列类型注释器、Python程序员和代码执行器。几个Agent之间可以相互通信,并通过合作自动完成数据标准化过程。
每个Agent都有自己的内存,用于存储其与其他Agent之间的历史对话消息。需要强调的是,聊天管理器的内存是独特全面的,包含CleanAgent系统中所有Agent之间的整个历史对话消息。这种广泛的记忆内存使得CleanAgent中的每个Agent都能够生成受完整历史消息启发的响应。