AI Agent的“记忆之痛”：MemOS技术拆解，云服务月调用量涨幅超200%

导读记忆（Memory），正在成为 AI Agent 最大的短板。ChatGPT 上线个人记忆功能后，用户明显感受到了变化：不用再反复交代背景，模型就能给出贴合需求的回答。而当 OpenClaw 这类连续型 Agent 出现后，一个问题浮出水面：Agent 能“记住”多少，直接决定了它能“做到”多少。行业开始形成共识：记忆不再是锦上添花，而是成为 Agent 能否持续进化的的核心要素。

然而，记忆该交给模型还是系统？如何在不侵入业务逻辑的前提下注入长期记忆？幻觉、冗余与隐私问题又当如何应对？这些问题正是每一位 Agent 开发者在产品化过程中必然面对的挑战。

作为国内最早押注这个方向的团队，记忆张量（MemTensor）开源框架 MemOS 在 GitHub 上已获近 8.5K Star，云服务单月调用量超 2500 万次，月环比涨幅 100% 到 200%，是目前国内增长最快的 Agent 记忆基础设施。

在近期记忆张量（MemTensor）创始人兼 CEO 熊飞宇的技术分享演讲中，系统阐述了记忆系统在 AGI 时代的重要性、技术演进路径，以及 MemOS 框架与企业级产品 ClawForce 的实践方案。

主要内容包括以下几个部分：

记忆：从效率工具到 Agent 落地的生死关键
两条技术路径：模型驱动与应用驱动
MemOS 系统框架：五层架构与三层记忆协同
平台规模与生态
MemOS 增强 OpenClaw：六大维度与插件方案
企业落地：ClawForce 的五层设计与三重安全机制
场景落地与一体机方案

分享嘉宾｜熊飞宇记忆张量（上海）科技有限公司创始人兼CEO上海算法创新研究院大模型中心负责人

出品社区｜DataFun

记忆：从效率工具到 Agent 落地的生死关键

回顾记忆在 AI 系统中的演变历程，2023 年业界对记忆概念的关注尚属有限，记忆张量团队从当年下半年便开始了相关技术积累，是业界最早投入记忆方向的团队之一。真正推动业界对记忆关注度大幅提升的，有两件标志性事件：

第一是 2025 年 4 月，ChatGPT 上线个人记忆功能。用户在使用两年后发现，无需提供详细上下文或模糊指令，模型即可基于过往交互历史与个人偏好给出更精准的答案。OpenAI CEO 奥特曼在多个场合反复强调记忆对 ChatGPT 的赋能作用。其核心原因在于：记忆代表了 AGI 时代模型对每个用户的个性化理解。参照移动互联网的发展历史，个性化对应用推进的作用是决定性的。

第二是 OpenClaw 的出现。它将记忆系统从一个效率问题——降低 token 消耗、提升召回率——演进为生死攸关的问题。若缺乏良好的记忆系统，OpenClaw 这类连续型 Agent 任务将无法顺利执行。在执行长程任务时，记忆所带来的状态准确性、每步执行成功的确认，会极大提升整体任务成功率。

从实践层面看，用户在单个 session 内与模型交互时，query 经过模型处理后调用各类工具和知识库，经推理返回结果。即便在单个 session 内，也包含丰富的上下文，其中的点滴都是记忆的组成部分。当视角从单个 session 扩展到 multi-session、multi-user、multi-agent 乃至 multi-apps 时，应用复杂度急剧上升。

这给业界带来的启示是：需要一个独立的处理框架或单独的一层，来屏蔽这些复杂操作。开发者无需特别关心记忆的具体处理机制，而应专注于 Agent 的业务设计与理解，从而更好地达成业务目标。MemOS 正是为此设计的一个记忆增强层。

两条技术路径：模型驱动与应用驱动

回顾业界对记忆增强型系统的实现路径，大致可分为两类。

第一类是基于模型的增强路径。从 Google 的 Memorizing Transformers，到记忆张量在 2023-2024 年训练的一系列模型，都是通过基础模型架构创新来引入记忆增强能力。但这条路径成本极高，失败风险也大。

第二类是通过设计 Prompt 或 Agent 流来模拟记忆过程，从而增强模型性能。从 Mem0 到 Zep，业界主流记忆框架多采用此方式。其优点是落地轻量、实施快速，但问题在于与基模的结合不够紧密。

记忆张量的做法是将模型驱动与应用驱动进行融合。记忆需要分层处理——到 2026 年，这已成为业界共识：哪些记忆交给模型处理，哪些交给系统处理。各厂商在处理记忆时基本遵循这一分层协同的方法。MemOS 在其中负责多粒度调度与统一协调管理，以实现读取效率的最优。设计思路是：模型驱动决定上限，应用驱动决定下限，需要从系统层面将两者结合。

**MemOS ** 系统框架：五层架构与三层记忆协同

一个完整的记忆系统可拆解为五个核心环节：记忆的抽取、组织、检索、更新与共享。其中某些环节特别容易受模型幻觉影响——记忆是对知识的高度总结与归纳，若在此过程中出现幻觉，将在后续环节中逐步累积。

MemOS 的系统框架分为五层：

记忆存储层：包含最小可打包的记忆单元 MemCube，以及可交易的记忆市场平台 MemStore，目前已可扩展至 Skill 层面。

记忆治理层：由于记忆涉及全生命周期管理和消费者隐私保护，该层包含权限管理、生命周期管理、水印管理、隐私管理等多种控制机制。

记忆调度层：MemOS 的核心，即多粒度记忆调度系统。通过明文记忆、激活记忆、参数记忆三种核心记忆类型，控制记忆在三层之间的流转。

编解码层与应用层：最上层的应用与编解码层。

从技术路线上看，MemOS 是业界唯一一个从底层 Infra、记忆基模到上层应用进行全面增强的记忆系统。多数业界框架主要工作在明文记忆层面，通过 Prompt 流或 Agent 流处理记忆。而 MemOS 在参数记忆层面和 Infra 层面（GPU、KV Cache 管理）对记忆做更精细的管理。

为什么需要下面两层？参数记忆层面，希望将从记忆中提炼的行业 know-how 通过后训练注入推理用的大模型，增强其行业认知能力。同时，MemOS 内部自研了记忆原生模型，用于自主决定何时做记忆抽取、组织与更新。激活记忆层面涉及 KV Cache 管理，在情感陪伴、游戏、消费硬件等场景中，通过 KV Cache 管理让 Agent 运行时的缓存命中率保持在高位，从而优化终端用户体验并降低开发者的 token 消耗量。MemOS 构建了一个完整的记忆技术闭环，在参数记忆、激活记忆与明文记忆之间实现系统级协同，支撑 AI 从一次性推理走向长期演化。

平台规模与生态

MemOS 云服务已于 2025 年底上线，目前是国内规模最大的记忆云服务平台。截至 2026 年 3 月底，单月调用量已超过 2500 万次，日均调用量稳定在 100 万次以上，月涨幅在 100% 至 200% 之间。单次请求可节省 45% 至 72% 的 token 消耗。无论是做 Agent 开发的团队、OpenClaw 工具型开发者，还是游戏、陪伴类、端侧硬件厂商，都在广泛使用 MemOS 的云服务。

MemOS 同时全面支持开源，截至整体开源框架在 GitHub 上已有近 8.5k Star，社区活跃用户超过 1.2 万，涵盖大型企业到个人开发者。由记忆张量发起的开源技术社区，OpenMem 社区已有超过 6 家企业单位和 12 家学术单位参与，定期举行线上线下活动。

**MemOS ** 增强 OpenClaw：六大维度与插件方案

在我们的实践过程中发现，OpenClaw 本身的记忆系统存在以下几个核心核心问题：

第一，运作逻辑过于 Agentic，完全交由模型处理。简单任务上问题不大，但复杂场景或企业场景下，随着任务变复杂，记忆系统容易出现漂移，所记录的内容会逐渐偏离预期，根源在于缺少层次化、结构化的约束。。

第二，记忆与上下文的分离设计在实际中难以完全落地。OpenClaw 做了清晰的边界划分——记忆负责检索，Context Engine 负责上下文管理——但检索出的内容未必进入上下文，上下文压缩后的长期记忆也未必能正确沉淀，正向循环未能有效建立。

第三，存在过度依赖压缩的倾向。一些细节若未被记录而直接被压缩，在代码开发等场景下将无法基于原有代码仓库进行持续开发。

第四，当先的实现更加接近文件检索而非真正的记忆系统，复杂场景难以高效处理。

MemOS 的记忆插件从六个方向全面增强 OpenClaw：存储类型、检索（多路召回、多样性处理、时间衰减、去重）、进化（让 OpenClaw 越用越聪明，将 Memory 自主转化为 Skill）、可视化（帮助初级开发者理解和掌握 OpenClaw）、协作（通过 Hub 功能实现单个 OpenClaw 多 Agent 协同）。

MemOS 提供云插件和本地化插件两种形式。云插件基于 MemOS 云平台服务，一键接入、轻量化，适合大规模 SaaS 化产品与快速验证。本地化插件更符合 OpenClaw 的设计思想，适合企业私有化部署，对隐私和数据有更高要求的场景可选用。两者均支持两步接入、一键安装。

在设计理念上，本地插件通过一键接入做到无感配置，主要利用 Context Engine 的六个 hook 做全链路可编程，实现无侵入的记忆增强。重点优化了去重漏斗，通过三级去重（SHA-256 精确去重、向量余弦相似度、LLM Judge 矛盾检测与智能合并），平均压缩比达到 75% 以上。

新增核心能力 Mem2Skill：从对话碎片中提取内容，结构化后形成参数化技能，完成从“记住”到“学会”的跃迁。核心理念是：记忆不止于被搜到，而是内化为能力。

本地化管理面板让记忆可视化，并配有专门的质量看板和溯源追踪功能，帮助开发者在初次开发 Agent 任务时清楚了解在何种情况下调用了哪条记忆。团队协同 Hub 则解决知识孤岛、经验蒸发和重复踩坑的问题。

以一个实际案例说明：K8s 内存泄露问题排查中，经验丰富的开发者可通过自身经验进行排查。整个排查过程可被结构化为 Skill，通过 Hub Server 传递给其他 Agent 使用者。其他开发者再遇到类似 OOM 问题时，排查时间可从 2 小时缩短至 10 分钟，无需具备丰富的容器化排查经验。

从数据角度看，接入 MemOS 后，LLM Judge 评分（回答质量）有显著提升，单次上下文成本节省 30% 以上，交互轮次下降一半以上。这说明记忆系统带来的状态准确性使 OpenClaw 无需反复试错，能够用更少的交互轮次完成任务，最终 token 消耗量降低近 50%。

企业落地：ClawForce 的五层设计与三重安全机制

即使拥有了 MemOS 的记忆能力，企业要将 AI Agent 从“能用”变为“敢用、好用、持续用”，仍需解决五个共性痛点。

一是部署难。单机 OpenClaw 部署已是不少开发者的障碍，涉及集群部署更需要专门技术团队。二是经验散。老员工离职后，组织经验难以跨岗位沉淀和复用。三是响应易遗漏。四是落地场景受限，很多情况下止步于对话和检索，处理 Office、CRM、OA 等操作难以进入真实工作流。五是数据边界不清晰、操作不可追溯。

ClawForce 产品的整体架构以智能中枢为核心，包含记忆层、Skill 引擎、事件监听和工具链接。管理端让企业管理员能够看得见、管得住、追得回，将人员接入、组织架构、Agent 推荐、AI 推荐方案、人审批下发、AI 持续优化的流程自动化、智能化。使用端让企业员工做到开箱即用。

从配置流程看，定义好 OpenClaw 的基本信息后，其 Skill、Agents 等 MD 文件可实现全链路智能化生成。管理员审核后一键下发，包括模型配置、能力挂载、IM 系统接入等环节均可 AI 自动化完成。配置完成后，员工在其 IM 中即可自动看到相应 Agent 并进行操作。

Skill 沉淀与回流方面，员工与 Agent 交互过程中，系统可自动检测到能够对原有 Skill 进行优化的输入，一键入库。同时设有基于模型的质量打分系统，Skill 的变化可做白盒化处理，经管理员审视后进入企业 Skill 库。

安全机制分为事前、事中、事后三层。事前做到整体安全隔离；事中进行端侧脱敏（手机号、身份证号等），对网络流转信息加密，并提供丰富的安全配置策略；事后所有员工与 Agent 的操作均可审计。

多 Agent 协同方面，从员工内部的多个 Agent 联动（如新闻追踪 Agent 与商务 Agent 协同），到跨员工的 Agent 协同（商务 Agent 与产品经理 Agent 联动），只需用户一步确认即可自动化完成商机评估与分析。

场景落地与一体机方案

ClawForce 已在多个行业场景落地。研发场景实现从飞书提需求到 AI 自动编码、仿真验证、生产线的全链路自动化；电商运营实现 7×24 小时数据监控、异常预警、策略建议与报表生成；公文写作减少 85% 起草耗时，确保格式规范与政策合规；销售场景实现客户触达量翻倍，团队最佳 Skill 自动回流提升商机转化率。更多场景如客服、招聘、财务、法务、HRBP、数据分析、市场、项目管理、供应链、行政、合规、培训等正在持续拓展。

记忆张量同时提供两大一体机方案，包括与英伟达合作的 DGX 一体机。展台上展示的一台小型设备具备 128G 显存与内存共享机制，可推动现有主流量化模型。与中国电信合作的国产算力方案也提供了灵活配置选项。

从 MemOS 框架到 ClawForce 产品，记忆张量正在探索一条从开源框架到企业级产品的完整路径。在记忆系统这一 AI Agent 的关键基础设施上，记忆张量致力于让记忆成为 Agent 与 AI 共享的个性化基础设施，助力千行百业开发更智能的产品。智能始于记忆，记忆链接未来。

以上就是本次分享的内容，谢谢大家。

AI Agent的“记忆之痛”：MemOS技术拆解，云服务月调用量涨幅超200%

评论 (0)