LLM之Agent（十九）| II-Agent：开源智能体的新曙光 - 文章 - 开发者社区

 ![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/75448976830e4b0ab76b9dbc72db485f~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1762760173&x-signature=bswJrDL%2BINNE6DvluS%2BLFqJ%2BoeM%3D)


 在当今这个科技飞速发展的时代，AI 已经成为了推动各领域进步的核心力量。从最初简单的算法模型，到如今功能强大、应用广泛的大语言模型，AI 的每一次突破都吸引着全球的目光。而在这股 AI 热潮中，一个名为 II-Agent 的开源智能体框架崭露头角，犹如一颗新星在 AI 的天空中闪耀，引发了众多开发者和技术爱好者的关注。


  II-Agent 究竟是什么？它为何能在竞争激烈的 AI 领域引起如此大的反响？是独特的技术架构，还是创新的应用模式？在接下来的内容中，我们将一同深入探寻 II-Agent 的奥秘，揭开它神秘的面纱，了解它如何在 AI 的舞台上大放异彩，为我们的生活和工作带来前所未有的变革。

一、什么是 II-Agent

  II-Agent 并非传统意义上简单的聊天机器人，而是一个致力于成为跨多个领域的全能代理的智能助手框架 。它的出现，旨在打破人工智能应用的局限性，让 AI 真正融入到我们生活和工作的方方面面。


 从技术层面来看，II-Agent 有着独特的核心要素。首先是强大的大语言模型（LLM），目前它支持 Claude 3.7 Sonnet（通过 Google Cloud Vertex AI） 。大语言模型就如同 II-Agent 的 “大脑”，赋予它理解自然语言、生成文本以及进行逻辑推理的能力。得益于大语言模型在海量数据上的训练，II-Agent 能够理解各种复杂的指令，并尝试给出合理的回应。


 丰富的工具集也是 II-Agent 的一大亮点。它不局限于单纯的语言交互，还具备实际操作的能力。通过集成各种实用工具，II-Agent 可以执行诸如文件操作、代码编写、数据查询等具体任务。举例来说，当你需要分析一份数据报表时，它能调用数据分析工具对数据进行处理和可视化展示；在软件开发场景中，它可以利用代码编辑工具协助开发者完成代码的编写与调试。


  II-Agent 还拥有明确的规划与反思机制。面对复杂任务，它会像人类一样，将任务分解为多个可执行的步骤，制定详细的执行计划。在执行过程中，它会实时回顾每一步的执行情况，根据结果调整后续策略。比如在完成一篇研究报告时，它先规划出收集资料、拟定大纲、撰写内容、检查校对等步骤，在撰写过程中，若发现资料不足，便会反思并重新收集资料，优化报告内容。


  智能上下文管理能力让 II-Agent 在处理多轮对话或复杂流程时表现出色。它能够记住之前交流中的关键信息，确保对话的连贯性和任务执行的准确性。比如在一场关于旅游规划的对话中，你先提到想去海边城市，之后又询问当地美食，II-Agent 能结合之前提到的海边城市这一信息，准确推荐相应城市的特色美食，而不会出现信息 “断层” 的情况。

picture.image

二、II-Agent 的核心能力

picture.image

三、II-Agent 的独特优势

3.1 核心代理架构和LLM交互

  II-Agent 的核心是一个中央推理和编排组件，使用基础 LLM（特别是 Anthropic 的 Claude 3.7 Sonnet）直接推理。Agent是迭代的，并遵循以下几个关键原则：

系统提示：每个交互周期都从 LLM 收到全面的系统提示开始。此提示是根据当前作上下文动态定制的，包括有关Agent工作区、底层操作系统和临时数据（例如，当前日期）的信息。至关重要的是，它定义了Agent的角色、其可用功能库、工具参与的明确规则（包括 Web 浏览、shell 命令执行、文件系统作和软件开发）、首选语言风格、内容生成指南、错误恢复协议以及其沙盒执行环境的详细信息。
交互历史管理：整个对话的时间顺序记录被精心维护，包括用户提供的指令、Agent的文本响应、Agent调用的任何功能（工具）以及执行这些功能时观察到的结果。这些历史信息构成了 LLM 后续推理的主要背景基础。
智能上下文管理：专用的上下文管理系统在每次调用 LLM 之前分析交互历史记录。该系统估计当前对话的令牌占用情况，并在预定义的token预算（例如 120,000 个token）面临超出的风险时战略性地应用截断技术。这些技术旨在浓缩或总结对话的历史部分，同时优先考虑完全保留最新和相关的交流。
LLM 调用和能力选择：LLM 通过此精选的对话上下文、总体系统提示以及当前可用功能或“工具”的动态更新清单来调用。
响应解释和工具执行：LLM 的输出可以表现为对用户的直接文本响应，或者更常见的是，表现为使用一个或多个可用功能的指令。当前的框架侧重于在每个推理周期处理单个功能调用，以确保有条不紊地执行。调用技能时，Agent会识别并执行负责该作的相应内部模块。然后，此执行的结果被系统地记录回交互历史记录中，为下一个周期提供信息。
迭代细化和任务完成：这个推理、能力选择、执行和观察的循环迭代继续。当Agent确定任务已完成（通常通过调用特定的“完成”功能发出信号）、达到最大轮次数或收到外部中断时，该过程将结束。

3.2 规划与反思：结构化推理能力

  II-Agent 高级解决问题能力的一个关键要素是其用于结构化规划和反思推理的专用机制。这种能力在概念上与 Anthropic 的 “think” 工具一致，该工具主张在复杂的工具使用场景中为元认知提供离散空间。 这种显式的规划模块也被认为在软件工程等任务的高性能代理架构中至关重要。

这种结构化推理功能使代理能够：

将复杂问题分解为更小的可作步骤，从而通过复杂的任务实现系统化的进展。
通过清楚地阐明其内部推理过程，透明化决策背后的逻辑。
按顺序思考，逐步进步，同时保持足够的灵活性，以便在出现新的挑战或见解时重新制定计划。
反思以前的决策，当新信息表明更好的前进道路时，能够重新审视和修改以前的步骤。
探索替代策略，在需要时从其原始推理路线中分支出来，同时保持主要目标在眼前。
保持开放式和迭代性，即使在得出初步结论后也要继续思考，如果不确定性仍然存在或有更好的解决方案。
形成和测试假设，根据其推理链验证结果并重复该过程，直到得出令人满意的解决方案。

每次调用此规划功能都会在Agent的交互历史记录中记录一个结构化的 “想法”，为决策过程创建了透明的审计跟踪，这对于调试、了解Agent行为和促进问题解决策略的迭代改进非常宝贵。

3.3 执行能力：多功能工具包

picture.image

 II-Agent 被赋予了一组丰富的功能或“工具”，使其能够与环境交互、处理信息并生成不同的输出：

文件系统操作： Agent可以在其安全的指定工作区中查看、创建和修改文件。它的编辑功能非常复杂，支持精确的字符串替换和基于行的插入。一个关键功能是它能够在修改文件时智能地匹配和维护现有的代码缩进样式，这对于保持源代码的完整性和可读性至关重要。
命令行执行： Agent可以访问持久性 shell 环境，使其能够执行任意 shell 命令。这种交互是稳健的（通过 pexpect 或类似机制）。该系统支持命令筛选，允许对命令进行透明修改或包装，例如，将执行重定向到容器化环境。这提供了一种灵活且安全的方式来管理依赖关系和执行上下文，这种技术也因其在标准化代理评估中的实用性而受到关注。
Web 交互：

初始信息检索：为了快速收集信息，Agent利用工具执行 Web 搜索（例如，通过 Tavily API、SerpAPI、FireCrawl）并从指定的 URL 中提取主要文本内容。如果本次提取的内容足以完成任务，就不需要进一步的浏览器操作，从而优化速度和效率。
高级浏览器自动化：当任务需要的不仅仅是文本输入，例如视觉解释或网页交互时， II-Agent 会利用一组高级浏览器自动化工具，它利用 lmnr-ai/index以及语言模型（例如 Claude Sonnet 3.7 或 GPT-4o）的视觉功能，使代理能够：

导航和管理浏览器会话：包括导航到 URL、创建和在选项卡之间切换。
模拟用户交互：例如单击元素、在表单字段中输入文本、滚动和按键盘键。
捕获和分析浏览器状态：每次操作后，都会截取屏幕截图并将其返回给Agent。Agent使用其视觉功能分析屏幕截图以了解页面并确定下一步作，例如单击按钮或字段。

任务完成：专用功能允许Agent正式发出已完成分配任务的信号，并提供合并的最终答案、摘要或一组可交付成果。
专业能力： Agent的体系结构专为可扩展性而设计，可以合并适用于各种模式的专用工具。当前的高级功能包括 PDF 文本提取（利用 pymupdf）、音频转录和语音合成（通过 Azure 上的 OpenAI 模型）、图像生成（在 Vertex AI 上使用 Google 的 Imagen 3）以及从文本生成视频（通过 Vertex AI 上的 Google Veo 2）。
深度研究整合：虽然 Claude 3.7 Sonnet 在编码和顺序规划方面表现出色，但他们执行长时间复杂推理和解决困难数学问题的能力仍然不如人意。因此，为了进一步提高 II-Agent 的能力，将 II-Researcher 扩展为可用于增强 II-Agent 能力的研究工具。

3.4 上下文管理

picture.image

 在可能漫长而复杂的交互中有效管理 LLM 的有限上下文窗口至关重要。II-Agent 实现了一个复杂的上下文管理系统来解决这个问题：

Token消耗量预估：该系统采用令牌计数机制来估计发送到 LLM 的对话历史记录的大小。这通常涉及启发式方法（例如，文本的字符与标记比率）和富媒体（如图像）的特定计算。
策略截断：当估计的令牌数量接近 LLM 的运营预算时，将进行截断：

标准截断：基线方法包括总结或省略旧工具输出或内部代理审议的内容。此策略优先考虑保留对话中最近轮次的完全保真度，因为这些轮次通常与下一步最相关。
针对大型输出的基于文件的存档：对于可以产生异常详细的输出（例如网页的完整文本内容）的功能，采用更高级的策略。完整内容不是直接包含在 LLM 的直接上下文中，而是将完整内容存档到Agent专用工作区中的文件中。然后，对话历史记录会使用指向此存档文件的紧凑占位符或参考标记（例如，[内容保存到：]）进行更新。这允许Agent“记住”信息的存在，并且可以在后续步骤中明确需要时通过读取文件来检索它，而不会持续消耗 LLM 活动上下文窗口的大部分。该技术对于涉及大量数据处理或审查的任务特别有价值，与在复杂的软件工程工作流中管理大型工件的实践保持一致。

上下文管理系统透明地记录通过这些策略实现的token节省，帮助分析和优化Agent的对话效率。

3.5 实时交互

 II-Agent 使用 WebSockets 整合实时通信接口，以促进交互式。大部分是使用 FastAPI 等框架实现。

连接到 WebSocket 服务器的每个客户端都会实例化一个专用的隔离代理实例。这些实例在其安全的工作区中运行，通常映射到文件系统上的唯一子目录，确保并发会话不会干扰。
Agent利用内部消息队列将重要的操作事件（例如思考步骤的启动、工具调用、工具执行的结果或浏览器状态更改）流式传输回连接的客户端。这通过提供对Agent正在进行的活动的实时可见性来实现响应式用户体验。
服务器架构通常还包括用于辅助功能的 API 端点，例如允许用户将文件直接上传到其特定Agent的工作区、提供必要的输入或资源。

四、与其他智能体的对比

4.1 与闭源智能体对比

 与一些闭源智能体，如 Manus、GenSpark 相比，II-Agent 的优势首先体现在透明度上。闭源智能体由于其代码的不可见性，用户难以了解其内部运行机制和决策过程，就像一个 “黑箱”，使用起来存在一定的风险和不确定性。而 II-Agent 开源的特性让开发者可以清晰地看到其代码逻辑，对每一个功能模块的实现和交互方式都了如指掌，这使得开发者在使用过程中能够更好地进行调试、优化和定制，确保智能体的行为符合自己的预期。


 在自由度方面，闭源智能体往往受到开发者设定的固定模式和功能限制，用户很难根据自己的特定需求进行灵活调整。比如一些闭源智能体在工具集成上较为局限，无法满足用户多样化的任务需求。而 II-Agent 的开源性质赋予了开发者极大的自由度，他们可以根据实际项目的需要，自由地添加、修改或删除工具，调整智能体的规划与反思机制，使其更好地适应不同的应用场景。在企业的业务流程自动化中，开发者可以根据企业内部的业务规则和流程，对 II-Agent 进行定制化开发，实现更高效、更贴合企业需求的自动化解决方案。

4.2 与开源智能体对比

 在开源智能体领域，II-Agent 也有着独特之处。与 AutoGPT、CrewAI 等其他开源智能体相比，II-Agent 具有更强的通用性。AutoGPT 主要侧重于利用 GPT 模型进行任务自动化执行，在一些特定的任务类型上表现出色，但在跨领域的综合应用能力上相对较弱。而 II-Agent 通过支持多种大语言模型，集成丰富的工具集，能够在研究核查、内容生成、数据分析可视化、软件开发、工作流自动化、问题解决等多个领域发挥作用，具有更广泛的适用性。


  II-Agent 的生产级设计也是其一大亮点。与一些开源智能体更侧重于研究和实验不同，II-Agent 在设计之初就考虑到了实际生产环境中的需求，注重系统的稳定性、可靠性和性能优化。它能够在复杂的企业级应用场景中稳定运行，处理大规模的数据和任务，满足企业对智能体的严格要求。在金融领域的风险评估项目中，II-Agent 可以稳定地处理大量的金融数据，进行风险模型的计算和分析，为企业提供准确的风险评估报告。


 在交互灵活性上，II-Agent 也表现出色。它支持多种交互方式，无论是通过文本指令、图形界面操作，还是与其他系统的接口对接，II-Agent 都能灵活应对。相比之下，一些开源智能体的交互方式较为单一，限制了其在不同场景下的应用。在智能办公场景中，用户既可以通过语音指令让 II-Agent 协助处理文档、安排会议，也可以通过办公软件的插件接口，直接在文档编辑界面中调用 II-Agent 的功能，实现更便捷的办公体验。

五、应用场景展示

5.1 工作中的得力助手

  在日常工作中，II-Agent 可以成为员工的得力助手，大幅提升工作效率。以一家市场营销公司为例，市场分析师需要定期收集和分析市场数据，为营销策略的制定提供依据。在使用 II-Agent 之前，分析师需要花费大量时间在各个数据平台上收集数据，然后使用数据分析软件进行处理和分析，最后再将分析结果整理成报告。这个过程繁琐且耗时，往往需要几天的时间才能完成。


  而有了 II-Agent 后，分析师只需向它下达指令，如 “收集过去一个月内竞争对手的市场推广数据，并分析其广告投放渠道、投放频率和效果，以图表形式展示分析结果，并撰写一份总结报告”。II-Agent 便会自动连接到各大数据平台，收集所需数据，利用内置的数据分析工具进行处理和可视化展示，最后生成一份详细的报告。整个过程可能只需要几个小时，大大提高了工作效率，让分析师能够更快地为公司提供有价值的市场洞察 。


 在项目管理方面，II-Agent 也能发挥重要作用。当项目经理需要制定项目计划时，只需告诉 II-Agent 项目的目标、参与人员、时间节点等关键信息，它就能生成详细的项目计划，包括任务分配、进度安排、风险评估等内容。在项目执行过程中，II-Agent 还可以实时跟踪项目进度，提醒团队成员任务截止时间，及时发现并解决潜在问题，确保项目顺利推进。

5.2 开发中的高效伙伴

 在软件开发领域，II-Agent 是开发者的高效伙伴。当开发者接到一个新的项目需求，如开发一个移动应用程序时，II-Agent 可以协助开发者完成从需求分析到代码编写的一系列工作。它可以与开发者进行对话，深入了解项目需求，然后根据需求生成项目的技术架构设计方案，包括选择合适的开发框架、数据库设计、接口设计等。


 在代码编写阶段，II-Agent 能够根据自然语言描述生成相应的代码。如果开发者需要实现一个用户登录功能，只需向 II-Agent 描述功能需求，如 “实现一个用户登录界面，包含用户名和密码输入框，点击登录按钮后，验证用户输入的用户名和密码是否正确，若正确则跳转到主页面，若错误则提示错误信息”，II-Agent 就能生成对应的前端和后端代码框架，并逐步填充具体的实现代码。这大大减轻了开发者的编码工作量，提高了开发速度。


 当代码出现错误时，II-Agent 还能帮助开发者进行调试。它可以分析错误日志，定位错误发生的位置，并给出可能的解决方案。如果代码中出现了一个空指针异常，II-Agent 会检查代码中所有可能出现空指针的地方，分析变量的赋值和使用情况，找出导致空指针异常的原因，并提供修复建议，如添加必要的空值检查代码等。

六、安装使用

6.1 前提条件

Docker Compose
Python 3.10+
Node.js 18+ (for frontend)
At least one of the following:

Anthropic API key, or
Google Gemini API key, or
Google Cloud project with Vertex AI API enabled

6.2 创建虚拟环境（可选）

  
conda create -n ii-agent python=3.12  
  
# 激活ii-agent虚拟环境  
conda activate ii-agent

6.3 克隆仓库

  
git clone https://github.com/Intelligent-Internet/ii-agent.git

6.4 配置环境

  
cp .env.example .env

在文件.env中添加和编辑如下环境变量

a）配置大模型

  
NEXT_PUBLIC_API_URL=http://localhost:8000  
  
# Required API Keys - Choose one based on your LLM provider:  
# Option 1: For Claude models via Anthropic  
ANTHROPIC_API_KEY=your_anthropic_key  
  
# Option 2: For Gemini models via Google  
GEMINI_API_KEY=your_gemini_key  
  
# Option 3: For OpenAI models  
OPENAI_API_KEY=your_openai_key  
  
# Search Provider API Key  
TAVILY_API_KEY=your_tavily_key  
  
STATIC_FILE_BASE_URL=http://localhost:8000/

b）配置爬虫相关API

  
JINA_API_KEY=your_jina_key  
FIRECRAWL_API_KEY=your_firecrawl_key  
SERPAPI_API_KEY=your_serpapi_key

c）通过Vertex AI图片和视频生成

  
MEDIA_GCS_OUTPUT_BUCKET=gs://your_bucket_here  
MEDIA_GCP_PROJECT_ID=your_vertex_project_id  
MEDIA_GCP_LOCATION=your_vertex_location

d）图片搜索

  
SERPAPI\_API\_KEY=your\_serpapi\_key

6.5 Docker安装（推荐）

  
chmod +x start.sh stop.sh  
./start.sh

如果使用Vertex，使用如下命令安装

  
GOOGLE_APPLICATION_CREDENTIALS=absolute-path-to-credential \  
PROJECT_ID=project-id \  
REGION=region \  
./start.sh

最新的docker有个bug，如果报错，使用如下命令进行安装

./start.sh --force-recreate

使用如下命令停止服务

  
./stop.sh

七、发展前景与挑战

7.1 前景展望

 随着社区的不断壮大和开发者的积极参与，II-Agent 的发展前景十分广阔。在未来，它有望在更多领域得到深入应用。在医疗领域，II-Agent 可以协助医生进行病历分析、疾病诊断和治疗方案的制定。它能够快速分析患者的病历数据，包括症状、检查结果、病史等信息，为医生提供诊断建议和治疗参考，帮助医生更准确、高效地做出决策。在教育领域，II-Agent 可以作为智能辅导系统，根据学生的学习情况和需求，提供个性化的学习计划和辅导内容。它可以实时解答学生的问题，帮助学生理解知识点，提高学习效果。随着物联网技术的发展，II-Agent 还可以与各种智能设备连接，实现智能家居、智能交通等场景下的自动化控制和智能交互，为人们的生活带来更多便利。

7.2 现存挑战

 尽管 II-Agent 有着巨大的潜力，但目前也面临着一些挑战。在资源消耗方面，由于 II-Agent 依赖大语言模型和复杂的工具集，其运行需要消耗大量的计算资源和内存。这对于一些硬件配置较低的设备来说，可能会导致运行速度缓慢甚至无法运行。在处理大规模数据分析任务时，可能会因为内存不足而出现卡顿或报错的情况。


 社区建设方面，虽然 II-Agent 已经吸引了一定数量的开发者，但与一些成熟的开源项目相比，其社区规模和活跃度还有待提高。一个活跃的社区对于项目的发展至关重要，它可以提供更多的代码贡献、技术支持和应用案例分享。目前 II-Agent 社区在文档完善、技术交流和新人引导等方面还存在不足，这可能会影响新开发者的加入和项目的推广。


  性能评测也是 II-Agent 需要面对的问题。由于其应用场景广泛，任务类型多样，如何建立一套科学、全面的性能评测体系，准确评估 II-Agent 在不同任务和场景下的表现，是目前亟待解决的问题。不同的任务对 II-Agent 的语言理解能力、工具使用能力、推理能力等要求不同，现有的评测指标可能无法全面反映其性能，这不利于对 II-Agent 进行优化和改进。

结语：拥抱 II-Agent 时代

  II-Agent 以其独特的技术架构、广泛的能力覆盖、开源的特性以及在众多领域的应用潜力，为我们展现了人工智能发展的新方向。它不仅是一个技术框架，更是一座连接人工智能与现实应用的桥梁，让我们看到了 AI 真正融入生活和工作的无限可能。


  尽管目前 II-Agent 还面临着一些挑战，但随着技术的不断进步和社区的共同努力，这些问题必将逐步得到解决。我们有理由相信，在不久的将来，II-Agent 将在更多领域大放异彩，为我们的生活带来更多的便利和惊喜。


  作为开发者、技术爱好者或是普通用户，我们都应该关注 II-Agent 的发展，积极参与到这场 AI 技术的创新浪潮中。无论是探索它在新领域的应用，还是为其技术改进贡献力量，每一份努力都将推动 II-Agent 不断前进，让我们共同期待 II-Agent 引领的智能新时代的到来 。