Agent智能体 | 全面解读LLM的记忆操作系统：MemOS - 文章 - 开发者社区

引言 ======

随着大语言模型（LLMs）的飞速发展，它们已成为实现通用人工智能（AGI）不可或缺的基础设施。然而，当前LLMs在处理长上下文推理、持续个性化和知识一致性方面面临着显著挑战，这主要源于它们缺乏完善的记忆管理系统。传统的LLMs主要依赖静态参数和短暂的上下文状态，这限制了它们长时间跟踪用户偏好或更新知识的能力。尽管检索增强生成（RAG）引入了外部知识，但其无状态的工作方式，缺乏生命周期控制和与持久表示的整合，使其仍然是一个局限性的临时解决方案。MemOS的提出，旨在从系统层面解决这些挑战，将记忆视为一种可管理的系统资源，为LLMs的持续学习和演化奠定基础。

论文地址： https://arxiv.org/abs/2507.03724

开源地址： https://github.com/MemTensor/MemOS

简介 ======

这篇论文题为《MemOS: A Memory OS for AI System》，提出了一种为大语言模型设计的记忆操作系统MemOS，旨在解决现有LLMs在记忆管理方面的核心问题。MemOS的核心理念是将记忆视为一个可调度、可演进的系统资源，并提供一个统一的框架来表示、调度和演化不同类型的记忆，从而实现高效的存储和检索。

赶时间的朋友可以通过以下问答形式快速了解论文的核心：

Q1: 这篇文章想要解决什么问题？

A1: 文章指出，LLMs在长上下文推理、持续个性化和知识一致性方面存在根本性问题，因为它们缺乏完善的记忆管理系统。现有模型主要依赖静态参数和短暂的上下文状态，限制了其长时间跟踪用户偏好或更新知识的能力。RAG虽然引入了外部知识，但其无状态特性使其无法提供生命周期控制或与持久表示的整合。具体来说，LLMs面临四大挑战：

长程依赖建模 ：现有Transformer架构受限于上下文窗口大小、高昂的二次注意力成本，导致在长对话或复杂任务中容易遗忘用户指令或早期上下文。
知识演化适应 ：LLMs的静态参数无法及时反映不断变化的现实世界知识，而RAG缺乏统一的版本控制、溯源或时间感知能力，导致知识不一致或过时。
个性化和多角色支持 ：LLMs缺乏跨用户、角色或任务的持久“记忆痕迹”，每次会话都重置为初始状态，难以维持行为一致性或长期适应性。
跨平台记忆迁移和生态系统多样性 ：用户记忆被困在特定实例中，形成“记忆孤岛”，阻碍了连续性和记忆复用。

总而言之，核心问题在于LLMs缺乏一个系统级的机制来组织和操作分布在时间和空间上的信息。

Q2: 这篇文章如何解决这些问题？

A2: MemOS将记忆视为可显式建模和调度的系统级资源，借鉴了传统操作系统的设计原则。其创新的方法和框架主要体现在：

统一记忆表示与管理 ：MemOS引入了 MemCube 作为记忆的基本单元，它封装了记忆内容和元数据（如溯源和版本信息），实现了对 明文记忆（plaintext memory） 、 激活记忆（activation memory） 和 参数记忆（parameter memory） 这三种异构记忆类型的统一表示、调度和演化。
三层架构 ：MemOS采用模块化的三层架构—— 接口层（Interface Layer） 、 操作层（Operation Layer） 和 基础设施层（Infrastructure Layer） ，支持记忆的高效调用、动态调度和合规治理。
核心能力 ：MemOS赋予LLMs 可控性（Controllability） （记忆生命周期管理、权限控制）、 可塑性（Plasticity） （记忆重构和跨任务/角色迁移）、以及 可演化性（Evolvability） （不同记忆类型间的动态转换和统一调度，如将高频使用的明文记忆转化为参数记忆）。
Mem-training范式 ：提出以记忆为中心的训练策略，通过显式、可控的记忆单元驱动持续演化，使知识能够在运行时收集、重构和传播，实现跨任务、时间范围和部署环境的自适应。

Q3: 文章所提出方法的效果如何？

A3: MemOS在多项任务和基准测试中展现了卓越的性能：

LOCOMO基准测试 ：MemOS在LOCOMO基准测试的所有推理任务中都实现了最先进的性能，始终位居第一，尤其在多跳（Multi-hop）和时间推理（Temporal Reasoning）等挑战性设置中优势显著。其LLM-Judge得分、F1、ROUGE-L、BLEU等生成质量指标以及语义嵌入的余弦相似度均表现出色。
记忆检索效率 ：MemOS在LLM-Judge得分上不仅与“完整上下文（full-context）”基线持平甚至超越，同时显著降低了延迟。尽管管理着超过1500个记忆token，其检索时间仍与较小基线（如Mem0）相当。
KV-based记忆加速 ：通过将高频访问的明文记忆转化为KV格式的激活记忆并注入模型的注意力缓存，MemOS显著降低了首token延迟（TTFT）。例如，在长上下文、短查询条件下，Qwen2.5-72B模型实现了91.4%的TTFT降低。同时，输出序列的语义内容保持不变。

Q4: 文章所提方法还有哪些不足？

A4: 当前版本的MemOS在解决现有LLMs记忆问题的同时，仍有进一步提升的空间。论文中将以下几点列为未来的研究方向，这也可以看作是当前系统在完全实现其宏大愿景之前需要克服的挑战：

跨LLM记忆共享 ：目前MemOS专注于在单一LLM或LLM驱动的agent内部管理记忆。未来计划探索不同基础模型之间记忆的互操作性和模块复用，需要定义标准的记忆交换协议（Memory Interchange Protocol, MIP）来确保语义一致性和安全交换。
自演化MemBlocks ：尽管MemOS支持记忆的演化，但未来的目标是开发能够根据使用反馈进行自优化、自重构和自演化的记忆单元，以减少手动维护和监督的需求。这暗示当前的记忆单元仍可能需要一定程度的人工干预。
可扩展记忆 marketplace ：论文展望了一个去中心化的记忆 marketplace，支持资产级别的交易和分布式演化。这意味着当前记忆的共享和交易机制可能尚未完全成熟或达到大规模去中心化的程度。
实际部署的复杂性 （此点为小编窃以为，非原文直接提及的不足）：虽然MemOS提供了全面的框架和API，但在复杂的实际多用户、多任务、高并发环境中部署和微调其治理策略（如访问控制、生命周期策略、冲突解决等）可能会非常复杂，需要大量的工程实践和持续优化。

方法 ======

MemOS的核心在于将记忆抽象为一种可管理的系统资源，并围绕其生命周期构建了一个模块化架构。

picture.image Figure 2：对LLM知识的分类，包括记忆层次结构。从模型激活中提取的显式记忆处于原始数据与模型参数之间的中间状态，因此使用虚线表示它们可能被认为是参数，也可能不被认为是参数。

picture.image Figure 3：大语言模型中记忆系统演化的示意图，强调其从定义与探索阶段，逐步发展到类似人类的记忆形成，再到基于工具的记忆管理的演进过程。

2.1 记忆分类与MemCube

MemOS将LLM记忆系统地划分为三种核心类型，并引入了MemCube作为统一的抽象单元。

Figure 5：三种记忆之间的转换路径，形成统一、可控、可演化的记忆空间。

picture.image Figure 6：MemCube：用于异构记忆调度的统一封装结构。每个 MemCube 由结构化的元数据头（支持生命周期、权限和存储策略）和记忆负载（封装明文、激活状态或参数差异）组成。它是 MemOS 中可被调度和组合用于下游推理的最小记忆单元。

明文记忆（Plaintext Memory） ：指通过外部接口动态检索的显式知识模块，可编辑、可追溯、可独立存储。例如，检索到的文本段落、结构化图谱、prompt模板等。MemOS将其封装在可调优的MemCube中，并进行生命周期控制、访问策略和版本跟踪。它特别适用于事实密集型、个性化和多agent任务。
激活记忆（Activation Memory） ：由推理过程中产生的中间状态组成，以KV-cache为核心结构。它保留了上下文的关键值表示，支持高效的长程依赖建模和递归推理。其他元素还包括隐藏状态（hidden states）和注意力权重（attention weights）。这类记忆具有短期、动态和隐式激活的特点。MemOS为激活记忆提供统一的调度和生命周期管理，支持惰性加载、选择性冻结和优先级调整。
参数记忆（Parameter Memory） ：指编码在模型固定权重中的知识和能力。它是模型内部长期语义知识的主要存储库，通常体现为前馈权重矩阵和注意力键/值矩阵。参数记忆无需检索或显式上下文即可隐式激活，是零样本推理、通用问答和语言生成的基础。MemOS允许通过LoRA或适配器等轻量级微调方法模块化增强参数记忆。

MemCube ：作为MemOS的核心资源，MemCube是记忆资源的通用封装单元，旨在统一调度和治理异构记忆。每个MemCube实例包含两部分：

记忆负载（Memory Payload） ：包含实际的语义内容，可以是明文内容、激活状态张量或参数补丁（如LoRA delta）。
元数据（Metadata） ：编码了身份、控制和行为指标，为MemOS的调度、治理和长期演化提供基础接口。元数据又细分为：

描述性标识符 ：定义记忆块的身份、分类和组织，如时间戳（Timestamp）、来源签名（Origin Signature）、语义类型（Semantic Type）。
治理属性（Governance Attributes） ：提供记忆访问、安全和调度方面的系统控制，包括访问控制（Access Control）、生命周期策略（Lifespan Policy）、优先级（Priority Level）和合规性与可追溯性（Compliance & Traceability）。
行为使用指标（Behavioral Usage Indicators） ：反映推理过程中的实时记忆使用情况，支持“价值驱动”的调度和跨类型转换，如访问模式（频率和最近性）。 MemCube支持跨模态记忆转换，例如：明文记忆 → 激活记忆；明文/激活记忆 → 参数记忆；参数记忆 → 明文记忆。

2.2 MemOS三层架构

MemOS采用模块化的三层架构，协同工作以实现记忆的统一执行和治理。

picture.image Figure 7：MemOS框架概览。该架构展示了从用户输入开始的完整流程：在接口层进行语义解析和API抽象，在操作层进行记忆调度和生命周期控制，最终与基础设施层交互以实现记忆的注入、检索和治理。统一的数据结构 MemCube 构成了整个模型执行过程中动态记忆流动的基础。

记忆接口层（Memory Interface Layer） ：

MemReader ：作为语义抽象模块，解析用户或系统任务的自然语言输入，提取记忆相关的关键特征（如任务意图、时间范围、实体焦点、记忆类型、上下文锚点），并输出结构化的中间表示（MemoryCall）。
Memory API ：提供统一且可组合的API套件，支持记忆的查询、写入、更新、传输和组合等所有操作。包括 Provenance API （溯源跟踪）、 Update API （修改操作）和 LogQuery API （访问日志查询）。
Memory Pipeline ：支持复杂的记忆操作链式组合，允许开发者或agent系统定义一系列记忆动作，并作为内聚的流水线执行。

记忆操作层（Memory Operation Layer） ：

MemOperator ：作为控制中心，负责记忆的组织、规划和调度。通过标签系统、知识图谱结构和语义分层方案实现多角度记忆建模。支持混合检索机制（结构化检索与语义检索结合）。
MemScheduler ：记忆的核心调度器，根据任务语义、调用频率和内容稳定性，动态转换并将记忆加载到运行时上下文。支持跨类型记忆迁移，如将高频使用的明文记忆提升为激活记忆或参数记忆。
MemLifecycle ：管理每个记忆对象的动态状态，将其建模为有限状态机，经历“生成（Generated）”、“激活（Activated）”、“合并（Merged）”和“归档（Archived）”四个关键状态。提供“时间机器（Time Machine）”功能，支持记忆状态快照和历史回滚。

记忆基础设施层（Memory Infrastructure Layer） ：

MemGovernance ：负责记忆访问控制、合规性强制执行和可审计性。建立用户身份、记忆对象和调用上下文的三元权限模型，支持私有、共享和只读访问策略。管理记忆生命周期策略、隐私控制和溯源元数据。
MemVault ：中央记忆存储和路由基础设施，管理并提供各种类别的记忆。通过统一的MemoryAdapter抽象层与各种后端（向量存储、关系数据库、blob存储）进行接口对接。
MemLoader & MemDumper ：构成记忆在平台之间双向迁移的通道，支持结构化MemCube单元的注入、导出和同步。
MemStore ：开放访问接口，支持记忆单元的受控发布、订阅和分发。

2.3 执行路径和交互流

MemOS的执行流程遵循一个闭环过程：从用户提示输入（Prompt Input）和记忆API打包（MemReader），到记忆检索和组织（MemOperator），再到记忆调度和激活（MemScheduler），生命周期建模和状态转换（MemLifecycle），最终到存储归档和访问治理（MemVault和MemGovernance）。

picture.image Figure 8：MemOS 架构与记忆交互流程概览。该系统由接口层、操作层和基础设施层组成。从左到右展示了从用户输入到解析、调度、注入再到响应生成的完整记忆处理流程。每个阶段对应协调的模块调用，MemoryCube 作为跨层的载体，实现结构化、可治理、可追溯的记忆生命周期管理。

实验结果 ========

MemOS的评估包括端到端和组件级别的实验，主要在LOCOMO基准测试套件上进行，并与多个先进的基线方法进行对比。

picture.image Figure 1：MemOS在所有推理任务中实现了最先进的性能

3.1 LOCOMO端到端评估

性能表现 ：MemOS（MemOS-0630）在LOCOMO基准测试的 所有任务类别（单跳、多跳、开放域、时间推理）中均实现了最佳的平均性能 ，始终名列前茅。特别在多跳和时间推理等需要长程记忆和上下文整合的挑战性场景中，MemOS展现出明显的优势。
质量指标 ：除了最高的LLM-Judge得分外，MemOS在F1、ROUGE-L和BLEU等生成质量指标上也表现强劲，尤其在长文本的完整性和风格一致性方面。其语义嵌入的余弦相似度持续保持高水平，表明与参考答案的语义对齐度紧密。
记忆配置影响 ：通过改变记忆块大小和Top-K检索深度进行消融研究表明，MemOS在所有LOCOMO子任务上都保持稳定且强大的性能，并且随着记忆容量的增加，性能稳步提升。这验证了MemOS的混合语义检索和以记忆为中心的设计在长程约束下实现准确、流畅和上下文对齐响应的有效性。

3.2 记忆检索评估

LLM-Judge分数与延迟权衡 ：MemOS在LLM-Judge分数上不仅达到甚至超越了“完整上下文（Full-Context）”基线，同时显著降低了延迟。完整上下文基线虽然能获得高分，但由于极长的上下文长度导致延迟过高。相比之下，LangMem和Zep因图遍历或多级索引引入了显著的检索延迟。OpenAI-Memory的延迟较低但输出质量中等。
MemOS的竞争力 ：尽管MemOS管理着超过1500个记忆token，其检索时间仍然接近Mem0等较小基线。这表明MemOS的混合语义组织和基于激活的记忆加载策略可以在不牺牲性能的情况下实现卓越表现。

3.3 基于KV的记忆加速评估

显著的TTFT降低 ：实验证实，基于KV-cache的记忆注入策略在所有模型和配置下都能 显著降低首token延迟（Time to First Token, TTFT） 。
语义等效性 ：两种方法（prompt-based注入和KV-cache注入）下的输出序列保持一致，验证了它们的语义等效性。
加速效果 ：加速效果在大型模型和长上下文中尤为显著。例如，在长上下文、短查询条件下，Qwen2.5-72B模型实现了91.4%的TTFT降低。这突出表明KV记忆是一种实用且有效的低延迟执行技术。

总结 ======

MemOS作为一种为大语言模型设计的记忆操作系统，成功地将记忆从一个LLM内部的隐式依赖抽象为一种可调度、可管理的系统资源。它通过统一明文记忆、激活记忆和参数记忆这三种异构记忆类型，并引入了核心单元MemCube及其元数据管理，实现了记忆的全生命周期管理和高效调度。MemOS赋予LLMs可控性、可塑性和可演化性，极大地增强了LLMs的长程推理能力、知识更新效率和个性化水平。实验结果证明，MemOS在多项推理任务中取得了SOTA性能，并在保持高质量输出的同时显著降低了延迟，尤其是在复杂的多跳和时间推理任务以及KV-based记忆加速方面表现突出。MemOS的提出标志着LLM发展从单纯的感知和生成向记忆和演化的关键转变。

尽管MemOS取得了显著进展，但其愿景仍在持续演化中。未来的改进方向和要点包括：

实现跨LLM记忆共享 ：当前系统尚未完全支持不同基础模型之间的记忆互操作性。未来的工作将专注于定义Memory Interchange Protocol (MIP)，以实现参数记忆和激活记忆在不同模型/应用间的安全、一致传输和模块复用。
开发自演化MemBlocks ：目前记忆单元的演化可能还需要一定程度的外部管理。未来将探索使记忆单元能够根据使用反馈进行自优化、自重构和自演化，从而减少手动维护和监督的需求。
构建可扩展的记忆 marketplace ：论文描绘了一个去中心化的记忆交易市场，允许记忆作为数字资产进行交易、协作更新和分布式演化。这需要进一步建立和完善相关的机制和生态系统。
优化复杂场景下的治理策略 ：虽然MemOS提供了全面的治理机制，但在超大规模、高度异构、多agent协作的真实部署环境中，如何精细化地微调和自动化管理访问控制、生命周期策略、隐私保护和冲突解决，仍是一个重要的工程和研究挑战。