长期以来,生物医学人工智能的雄心壮志是开发能够做出重大科学发现的人工智能系统,这些发现有潜力获得诺贝尔奖——满足诺贝尔图灵挑战( Nobel Turing Challenge )。
虽然“ 人工智能科学家( AI scientist ) ”的概念是令人向往的,但基于智能体的人工智能的进步为开发能够进行怀疑性学习和推理的AI智能体铺平了道路,这些智能体最终能够协调大型语言模型(LLMs)、机器学习工具、实验平台,甚至是它们的组合。
生物医学AI智能体 不是将人类排除在发现过程之外,而是可以将人类的创造力和专业知识与人工智能分析大型数据集、导航假设空间和执行重复任务的能力结合起来。
AI Agents赋能生物医学发现
赋予生物医学研究以AI智能体的力量。 AI智能体(AI Agents) 为能够进行怀疑性学习和推理的“ 人工智能科学家 ”铺平了道路。 这些多智能体系统由基于可对话的大型语言模型(LLMs)的智能体组成,并且可以协调机器学习(ML)工具、实验平台、人类,甚至是它们的组合。 具体包括:
- 机器人智能体 :操作机器人硬件进行物理实验的AI智能体;
- 数据库智能体 :通过‘函数调用’和API在数据库中检索信息的AI智能体;
- 推理智能体 :能够进行直接推理和带有反馈的推理的AI智能体;
- 假设智能体 :在发展假设时具有创造性和怀疑性的AI智能体,能够描述自己的不确定性并将其作为完善其科学知识库的驱动力;
- 头脑风暴智能体 :产生广泛研究思路的AI智能体;
- 搜索引擎智能体 :使用搜索引擎作为工具快速收集信息的AI智能体;
- 分析智能体 :能够分析实验结果以总结发现和综合概念的AI智能体;
- 实验规划智能体 :优化实验方案以供执行的AI智能体。
生物医学研究中数据驱动模型演进
从数据库和搜索引擎到机器学习和交互式学习模型,数据驱动模型在过去几十年中极大地增强了生物医学研究的能力。
目前构建智能体的主流方法是使用大型语言模型(LLMs),其中单个大型语言模型被编程来执行多种不同的角色。
然而,除了基于LLM的智能体之外,还概述了用于发现工作流程的 多智能体系统( multi-agent systems ) ,这些系统结合了由机器学习工具、特定领域的专业工具和人类专家组成的异构智能体。鉴于许多生物医学研究并非仅基于文本,这些智能体相比单独的基于LLM的智能体,对生物医学具有更广泛的适用性。
多智能体系统的六种协作方案
从基于大型语言模型(LLM)的AI智能体到包含人工智能模型、工具和集成物理设备的多智能体系统。
- 感知与工具使用
- 头脑风暴智能体
- 专家咨询智能体
- 研究辩论智能体
- 圆桌讨论智能体
- 自动驾驶实验室智能体
- a. 通过为大型语言模型(LLM)编程角色,一个基于LLM的智能体,配备有记忆和推理能力,执行多模态感知并利用一系列工具,例如网络实验室工具,来完成指定的任务。
- b-e. 利用配备有不同角色、感知模块、工具和领域知识的人工智能智能体,可以促进智能体和科学家之间的协作。这种协作可以采用多种方案,如专家咨询、辩论、头脑风暴和圆桌讨论。
- f. 多智能体系统可以建立一个自动驾驶实验室,在这个实验室中,众多智能体在人类的帮助下协作进行生物研究的多次迭代。每个研究周期包括假设的生成、实验的设计、实验的执行(包括计算机模拟和体外实验),以及结果的分析。
构建生物医学AI智能体路线图
四个关键组成部分:
- 感知模块 :接收跨数据模式和技术的多模态输入;
- 交互模块 :与其它智能体、人类以及工具进行交互;
- 推理模块 :支持直接推理(例如,思维链、思维跳跃)和带有反馈的推理;
- 记忆模块 :包括短期记忆(上下文学习、提示学习和知识图谱检索)和长期记忆(模型微调、模型编辑、RAG,即检索增强生成模型)。
- a.
使用 短期记忆 模块来回忆以前相关的实验,用于小分子抑制剂设计;
- b.
使用 长期记忆 模块检索有关疾病目标选择的相关信息;
- c.
在基因优先级排序用于表型分析时,使用无需科学家反馈的 推理 ;
- d.
使用科学家反馈的 推理 来选择替代的实验方法。
生物医学AI智能体自主性等级
等级划分强调实施时应该考虑许多因素,包括在特定领域使用人工智能智能体是否合适和可取,以及是否可以实际实现安全和负责任的实施。
- 级别 0 :没有AI智能体,只有机器学习工具
- 级别 1 :AI智能体作为研究助理,处理特定任务
- 级别 2 :AI智能体作为合作者,扩展工具并生成线性假设
- 级别 3 :AI能体模仿人类科学家,能够进行怀疑性学习和推理
AI智能体在科学发现中的挑战
使用AI智能体引发了许多伦理和安全方面的考虑。
- 允许AI智能体通过工具或调用实验平台来改变环境可能是危险的。 需要有保障措施和协议到位,以防止伤害和负面结果的发生。
- 当发现工作流程包括AI智能体之间的对话时,需要考虑这种互动对人类科学家及其对AI智能体依赖性的影响。
- a. 显示的是关键挑战——包括鲁棒性和可靠性、评估协议、数据集生成、治理和风险
- b. 解决这些问题的战略方法
https://arxiv.org/pdf/2404.02831
Empowering Biomedical Discovery with AI Agents
研究机构:
生物医学信息学系,哈佛医学院
化学与化学生物学系,哈佛大学
生物学与生物医学科学项目,哈佛医学院
大脑科学系,帝国理工学院
哈佛学院,马萨诸塞州剑桥
生物医学信息学项目,哈佛医学院
电气工程与计算机科学系,麻省理工学院
肯普纳自然与人工智能研究所,哈佛大学
麻省理工学院和哈佛大学Broad研究所
哈佛数据科学计划
推荐阅读
- • 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。
