导读 记忆(Memory),正在成为 AI Agent 最大的短板。ChatGPT 上线个人记忆功能后,用户明显感受到了变化:不用再反复交代背景,模型就能给出贴合需求的回答。而当 OpenClaw 这类连续型 Agent 出现后,一个问题浮出水面:Agent 能“记住”多少,直接决定了它能“做到”多少。行业开始形成共识:记忆不再是锦上添花,而是成为 Agent 能否持续进化的的核心要素。

然而,记忆该交给模型还是系统?如何在不侵入业务逻辑的前提下注入长期记忆?幻觉、冗余与隐私问题又当如何应对?这些问题正是每一位 Agent 开发者在产品化过程中必然面对的挑战。

作为国内最早押注这个方向的团队,记忆张量(MemTensor)开源框架 MemOS 在 GitHub 上已获近 8.5K Star,云服务单月调用量超 2500 万次,月环比涨幅 100% 到 200%,是目前国内增长最快的 Agent 记忆基础设施。

在近期记忆张量(MemTensor)创始人兼 CEO 熊飞宇的技术分享演讲中,系统阐述了记忆系统在 AGI 时代的重要性、技术演进路径,以及 MemOS 框架与企业级产品 ClawForce 的实践方案。

主要内容包括以下几个部分:

  1. 记忆:从效率工具到 Agent 落地的生死关键
  2. 两条技术路径:模型驱动与应用驱动
  3. MemOS 系统框架:五层架构与三层记忆协同
  4. 平台规模与生态
  5. MemOS 增强 OpenClaw:六大维度与插件方案
  6. 企业落地:ClawForce 的五层设计与三重安全机制
  7. 场景落地与一体机方案

分享嘉宾|熊飞宇 记忆张量(上海)科技有限公司创始人兼CEO上海算法创新研究院 大模型中心负责人

出品社区|DataFun


01

记忆:从效率工具到 Agent 落地的生死关键

图片

回顾记忆在 AI 系统中的演变历程,2023 年业界对记忆概念的关注尚属有限,记忆张量团队从当年下半年便开始了相关技术积累,是业界最早投入记忆方向的团队之一。真正推动业界对记忆关注度大幅提升的,有两件标志性事件:

第一是 2025 年 4 月,ChatGPT 上线个人记忆功能。用户在使用两年后发现,无需提供详细上下文或模糊指令,模型即可基于过往交互历史与个人偏好给出更精准的答案。OpenAI CEO 奥特曼在多个场合反复强调记忆对 ChatGPT 的赋能作用。其核心原因在于:记忆代表了 AGI 时代模型对每个用户的个性化理解。参照移动互联网的发展历史,个性化对应用推进的作用是决定性的。

第二是 OpenClaw 的出现。它将记忆系统从一个效率问题——降低 token 消耗、提升召回率——演进为生死攸关的问题。若缺乏良好的记忆系统,OpenClaw 这类连续型 Agent 任务将无法顺利执行。在执行长程任务时,记忆所带来的状态准确性、每步执行成功的确认,会极大提升整体任务成功率。

图片

从实践层面看,用户在单个 session 内与模型交互时,query 经过模型处理后调用各类工具和知识库,经推理返回结果。即便在单个 session 内,也包含丰富的上下文,其中的点滴都是记忆的组成部分。当视角从单个 session 扩展到 multi-session、multi-user、multi-agent 乃至 multi-apps 时,应用复杂度急剧上升。

图片

这给业界带来的启示是:需要一个独立的处理框架或单独的一层,来屏蔽这些复杂操作。开发者无需特别关心记忆的具体处理机制,而应专注于 Agent 的业务设计与理解,从而更好地达成业务目标。MemOS 正是为此设计的一个记忆增强层。

02

两条技术路径:模型驱动与应用驱动

图片

回顾业界对记忆增强型系统的实现路径,大致可分为两类。

第一类是基于模型的增强路径。从 Google 的 Memorizing Transformers,到记忆张量在 2023-2024 年训练的一系列模型,都是通过基础模型架构创新来引入记忆增强能力。但这条路径成本极高,失败风险也大。

图片

第二类是通过设计 Prompt 或 Agent 流来模拟记忆过程,从而增强模型性能。从 Mem0 到 Zep,业界主流记忆框架多采用此方式。其优点是落地轻量、实施快速,但问题在于与基模的结合不够紧密。

图片

记忆张量的做法是将模型驱动与应用驱动进行融合。记忆需要分层处理——到 2026 年,这已成为业界共识:哪些记忆交给模型处理,哪些交给系统处理。各厂商在处理记忆时基本遵循这一分层协同的方法。MemOS 在其中负责多粒度调度与统一协调管理,以实现读取效率的最优。设计思路是:模型驱动决定上限,应用驱动决定下限,需要从系统层面将两者结合。

图片

03

**MemOS ** 系统框架:五层架构与三层记忆协同

图片

一个完整的记忆系统可拆解为五个核心环节:记忆的抽取、组织、检索、更新与共享。其中某些环节特别容易受模型幻觉影响——记忆是对知识的高度总结与归纳,若在此过程中出现幻觉,将在后续环节中逐步累积。

图片

MemOS 的系统框架分为五层:

图片

记忆存储层:包含最小可打包的记忆单元 MemCube,以及可交易的记忆市场平台 MemStore,目前已可扩展至 Skill 层面。

图片

记忆治理层:由于记忆涉及全生命周期管理和消费者隐私保护,该层包含权限管理、生命周期管理、水印管理、隐私管理等多种控制机制。

图片

记忆调度层:MemOS 的核心,即多粒度记忆调度系统。通过明文记忆、激活记忆、参数记忆三种核心记忆类型,控制记忆在三层之间的流转。

图片

编解码层与应用层:最上层的应用与编解码层。

从技术路线上看,MemOS 是业界唯一一个从底层 Infra、记忆基模到上层应用进行全面增强的记忆系统。多数业界框架主要工作在明文记忆层面,通过 Prompt 流或 Agent 流处理记忆。而 MemOS 在参数记忆层面和 Infra 层面(GPU、KV Cache 管理)对记忆做更精细的管理。

图片

为什么需要下面两层?参数记忆层面,希望将从记忆中提炼的行业 know-how 通过后训练注入推理用的大模型,增强其行业认知能力。同时,MemOS 内部自研了记忆原生模型,用于自主决定何时做记忆抽取、组织与更新。激活记忆层面涉及 KV Cache 管理,在情感陪伴、游戏、消费硬件等场景中,通过 KV Cache 管理让 Agent 运行时的缓存命中率保持在高位,从而优化终端用户体验并降低开发者的 token 消耗量。MemOS 构建了一个完整的记忆技术闭环,在参数记忆、激活记忆与明文记忆之间实现系统级协同,支撑 AI 从一次性推理走向长期演化。

04

平台规模与生态

图片

MemOS 云服务已于 2025 年底上线,目前是国内规模最大的记忆云服务平台。截至 2026 年 3 月底,单月调用量已超过 2500 万次,日均调用量稳定在 100 万次以上,月涨幅在 100% 至 200% 之间。单次请求可节省 45% 至 72% 的 token 消耗。无论是做 Agent 开发的团队、OpenClaw 工具型开发者,还是游戏、陪伴类、端侧硬件厂商,都在广泛使用 MemOS 的云服务。

图片

MemOS 同时全面支持开源,截至整体开源框架在 GitHub 上已有近 8.5k Star,社区活跃用户超过 1.2 万,涵盖大型企业到个人开发者。由记忆张量发起的开源技术社区,OpenMem 社区已有超过 6 家企业单位和 12 家学术单位参与,定期举行线上线下活动。

05

**MemOS ** 增强 OpenClaw:六大维度与插件方案

图片

在我们的实践过程中发现,OpenClaw 本身的记忆系统存在以下几个核心核心问题:

第一,运作逻辑过于 Agentic,完全交由模型处理。简单任务上问题不大,但复杂场景或企业场景下,随着任务变复杂,记忆系统容易出现漂移,所记录的内容会逐渐偏离预期,根源在于缺少层次化、结构化的约束。。

第二,记忆与上下文的分离设计在实际中难以完全落地。OpenClaw 做了清晰的边界划分——记忆负责检索,Context Engine 负责上下文管理——但检索出的内容未必进入上下文,上下文压缩后的长期记忆也未必能正确沉淀,正向循环未能有效建立。

第三,存在过度依赖压缩的倾向。一些细节若未被记录而直接被压缩,在代码开发等场景下将无法基于原有代码仓库进行持续开发。

第四,当先的实现更加接近文件检索而非真正的记忆系统,复杂场景难以高效处理。

图片

MemOS 的记忆插件从六个方向全面增强 OpenClaw:存储类型、检索(多路召回、多样性处理、时间衰减、去重)、进化(让 OpenClaw 越用越聪明,将 Memory 自主转化为 Skill)、可视化(帮助初级开发者理解和掌握 OpenClaw)、协作(通过 Hub 功能实现单个 OpenClaw 多 Agent 协同)。

图片

图片

MemOS 提供云插件和本地化插件两种形式。云插件基于 MemOS 云平台服务,一键接入、轻量化,适合大规模 SaaS 化产品与快速验证。本地化插件更符合 OpenClaw 的设计思想,适合企业私有化部署,对隐私和数据有更高要求的场景可选用。两者均支持两步接入、一键安装。

图片

在设计理念上,本地插件通过一键接入做到无感配置,主要利用 Context Engine 的六个 hook 做全链路可编程,实现无侵入的记忆增强。重点优化了去重漏斗,通过三级去重(SHA-256 精确去重、向量余弦相似度、LLM Judge 矛盾检测与智能合并),平均压缩比达到 75% 以上。

图片

新增核心能力 Mem2Skill:从对话碎片中提取内容,结构化后形成参数化技能,完成从“记住”到“学会”的跃迁。核心理念是:记忆不止于被搜到,而是内化为能力。

图片

本地化管理面板让记忆可视化,并配有专门的质量看板和溯源追踪功能,帮助开发者在初次开发 Agent 任务时清楚了解在何种情况下调用了哪条记忆。团队协同 Hub 则解决知识孤岛、经验蒸发和重复踩坑的问题。

图片

以一个实际案例说明:K8s 内存泄露问题排查中,经验丰富的开发者可通过自身经验进行排查。整个排查过程可被结构化为 Skill,通过 Hub Server 传递给其他 Agent 使用者。其他开发者再遇到类似 OOM 问题时,排查时间可从 2 小时缩短至 10 分钟,无需具备丰富的容器化排查经验。

图片

从数据角度看,接入 MemOS 后,LLM Judge 评分(回答质量)有显著提升,单次上下文成本节省 30% 以上,交互轮次下降一半以上。这说明记忆系统带来的状态准确性使 OpenClaw 无需反复试错,能够用更少的交互轮次完成任务,最终 token 消耗量降低近 50%。

06

企业落地:ClawForce 的五层设计与三重安全机制

图片

即使拥有了 MemOS 的记忆能力,企业要将 AI Agent 从“能用”变为“敢用、好用、持续用”,仍需解决五个共性痛点。

一是部署难。单机 OpenClaw 部署已是不少开发者的障碍,涉及集群部署更需要专门技术团队。二是经验散。老员工离职后,组织经验难以跨岗位沉淀和复用。三是响应易遗漏。四是落地场景受限,很多情况下止步于对话和检索,处理 Office、CRM、OA 等操作难以进入真实工作流。五是数据边界不清晰、操作不可追溯。

图片

ClawForce 产品的整体架构以智能中枢为核心,包含记忆层、Skill 引擎、事件监听和工具链接。管理端让企业管理员能够看得见、管得住、追得回,将人员接入、组织架构、Agent 推荐、AI 推荐方案、人审批下发、AI 持续优化的流程自动化、智能化。使用端让企业员工做到开箱即用。

从配置流程看,定义好 OpenClaw 的基本信息后,其 Skill、Agents 等 MD 文件可实现全链路智能化生成。管理员审核后一键下发,包括模型配置、能力挂载、IM 系统接入等环节均可 AI 自动化完成。配置完成后,员工在其 IM 中即可自动看到相应 Agent 并进行操作。

图片

Skill 沉淀与回流方面,员工与 Agent 交互过程中,系统可自动检测到能够对原有 Skill 进行优化的输入,一键入库。同时设有基于模型的质量打分系统,Skill 的变化可做白盒化处理,经管理员审视后进入企业 Skill 库。

图片

安全机制分为事前、事中、事后三层。事前做到整体安全隔离;事中进行端侧脱敏(手机号、身份证号等),对网络流转信息加密,并提供丰富的安全配置策略;事后所有员工与 Agent 的操作均可审计。

多 Agent 协同方面,从员工内部的多个 Agent 联动(如新闻追踪 Agent 与商务 Agent 协同),到跨员工的 Agent 协同(商务 Agent 与产品经理 Agent 联动),只需用户一步确认即可自动化完成商机评估与分析。

07

场景落地与一体机方案

图片

ClawForce 已在多个行业场景落地。研发场景实现从飞书提需求到 AI 自动编码、仿真验证、生产线的全链路自动化;电商运营实现 7×24 小时数据监控、异常预警、策略建议与报表生成;公文写作减少 85% 起草耗时,确保格式规范与政策合规;销售场景实现客户触达量翻倍,团队最佳 Skill 自动回流提升商机转化率。更多场景如客服、招聘、财务、法务、HRBP、数据分析、市场、项目管理、供应链、行政、合规、培训等正在持续拓展。

图片

记忆张量同时提供两大一体机方案,包括与英伟达合作的 DGX 一体机。展台上展示的一台小型设备具备 128G 显存与内存共享机制,可推动现有主流量化模型。与中国电信合作的国产算力方案也提供了灵活配置选项。

图片

从 MemOS 框架到 ClawForce 产品,记忆张量正在探索一条从开源框架到企业级产品的完整路径。在记忆系统这一 AI Agent 的关键基础设施上,记忆张量致力于让记忆成为 Agent 与 AI 共享的个性化基础设施,助力千行百业开发更智能的产品。智能始于记忆,记忆链接未来。

以上就是本次分享的内容,谢谢大家。