Robert

80后程序员 · 北邮本硕 · 信息与计算机专业

在代码与诗意之间寻找平衡

斯坦福小镇：Generative Agents 记忆架构解析

斯坦福的“小镇”项目（即论文 “Generative Agents: Interactive Simulacra of Human Behavior”）是 Agent Memory 领域的里程碑式工作。 ^C9vThOS0 对于做 Agent Infra 来说，这篇论文提供了一个非常完整的记忆架构原型。它几乎覆盖了记忆系统的所有核心生命周期（存储、检索、演化、应用）。具体来说，它涉及了 Agent Memory 系统中的以下关键部分： 1. 核心数据结构：记忆流 (Memory Stream) 这是整个系统的基石，对应于存储层。机制：一个包含所有观察（Observations）的综合列表。每个元素都包含时间戳和自然语言描述。涉及的记忆类型：事实记忆 (Factual Memory)：记录环境中的客观事实（如“冰箱是空的”）。情景记忆 (Episodic Memory)：记录 Agent 自身的经历和行为序列（如“我昨天去散步了”）。 Infra 启示：在 Infra 层面，这需要一个支持高并发写入、带有时间索引的日志型数据库（Log-structured storage）。 2. 记忆检索机制 (Retrieval) 这是让记忆“可用”的关键，对应于动态 (Dynamics) - 检索。斯坦福小镇并没有简单地使用向量检索，而是提出了一个混合评分机制，这是 Infra 设计中非常值得参考的策略：相关性 (Relevance)：基于 Embedding 的语义相似度（这是目前 RAG 的标配）。新近性 (Recency)：基于指数衰减函数，越新的记忆权重越高（模拟人类的工作记忆特性）。重要性 (Importance)：区分“吃早饭”和“与恋人分手”的区别。通过 LLM 给记忆打分（1-10分），重要的记忆更难被遗忘。 Infra 启示：在设计检索接口时，不能只做 Vector Search，必须支持混合排序 (Hybrid Ranking)，允许业务逻辑（如时间、重要性权重）干预检索结果。 3. 记忆演化：反思 (Reflection) 这是该论文最核心的创新点，对应于经验记忆 (Experiential Memory) - 洞察与抽象。 ...

Agent Memory 论文综述

概述 Agent Memory（智能体记忆）是构建基础模型智能体的核心支柱，支撑着智能体执行长程推理、持续学习和与复杂环境有效交互的能力。本综述基于复旦大学研究团队的 Agent-Memory-Paper-List 仓库，系统梳理了这一快速发展领域的研究脉络。与相关概念的区别 Agent Memory 与以下概念存在本质区别：概念核心特征与 Agent Memory 的区别 LLM Memory LLM 自身的参数化知识 Agent Memory 是显式的外部记忆系统 RAG 检索增强生成，基于外部知识库 RAG 是静态检索，Agent Memory 支持动态更新和演化 Context Engineering 优化输入上下文 Agent Memory 关注跨会话的长期记忆保持统一分类框架该领域研究通过三个维度进行组织： 1. 形式 (Forms) - 记忆载体 Token-level: 显式、离散的自然语言表示 Parametric: 隐式的模型参数权重 Latent: 隐藏状态表征 2. 功能 (Functions) - 记忆用途 Factual Memory (事实记忆): 存储知识和事实信息 Experiential Memory (经验记忆): 记录洞察、技能和经验 Working Memory (工作记忆): 主动上下文管理 3. 动态 (Dynamics) - 记忆演化 Formation (形成): 信息提取和编码 Evolution (演化): 巩固与遗忘机制 Retrieval (检索): 访问策略发展脉络第一阶段：基础探索期 (2021-2023) 核心特征: 从知识编辑和模型编辑技术起步，逐步探索如何让 LLM 具备长期记忆能力。 ...

Agent Memory: 事实记忆 (Factual Memory)

概述事实记忆 (Factual Memory) 负责存储和管理智能体的知识性信息，包括：世界知识 (事实、概念、关系) 用户特定信息 (偏好、历史、个人资料) 任务相关知识 (领域知识、规则) 与 RAG 的静态知识库不同，Agent 的事实记忆支持动态更新和个性化演化。 Token-level 事实记忆核心思想: 使用自然语言等离散符号显式存储记忆，便于人类理解和干预。代表性论文 1. Generative Agents (2023) 论文: Generative Agents: Interactive Simulacra of Human Behavior 链接: arXiv:2304.03442 核心思想: 提出完整的生成式智能体架构记忆流 (Memory Stream): 记录所有观察和经历的完整日志反思 (Reflection): 将记忆综合成高层次的推理规划 (Planning): 将反思转化为行为计划意义: 开创了基于自然语言记忆的智能体架构，被后续大量工作引用 2. MemGPT (2023) 论文: MemGPT: Towards LLMs as Operating Systems 链接: arXiv:2310.08560 核心思想: 将 LLM 比作操作系统，引入分层存储管理区分主上下文 (有限) 和外部上下文 (无限) 通过函数调用在两层之间移动数据意义: 解决了 LLM 上下文长度限制问题，实现了"无限"上下文 3. HippoRAG (2024) 论文: HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models 链接: arXiv:2405.14831 核心思想: 受海马体 (Hippocampus) 记忆理论启发结合语义词索引和拓扑图索引模仿人脑的情景记忆和语义记忆双系统意义: 将认知神经科学理论引入 LLM 记忆设计 4. Mem0 (2025) 论文: Mem0: Building production-ready ai agents with scalable long-term memory 链接: arXiv:2504.19413 核心思想: 生产级可扩展长期记忆系统自适应个性化，跨应用保持一致性支持多层级存储 (向量、键值、图数据库) 意义: 第一个面向生产环境的开源记忆框架 5. Memory-R1 (2025) 论文: Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning 链接: arXiv:2508.19828 核心思想: 使用强化学习训练记忆管理策略智能体学习何时存储、更新、检索和遗忘通过奖励信号优化记忆操作意义: 将 RL 引入记忆管理，实现自适应记忆策略 6. A-MEM (2025) 论文: A-MEM: Agentic Memory for LLM Agents 链接: arXiv:2502.12110 核心思想: 将记忆管理建模为智能体任务记忆智能体与任务智能体协作支持复杂的多跳记忆检索意义: 记忆系统本身也采用智能体架构 7. MAGMA (2026) 论文: MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents 链接: arXiv:2601.03236 核心思想: 基于多图结构的记忆架构语义图、情景图、实体图分离图神经网络增强记忆检索意义: 结构化表示提升记忆的组织性和检索效率 8. Memoria (2025) 论文: Memoria: A Scalable Agentic Memory Framework for Personalized Conversational AI 链接: arXiv:2512.12686 核心思想: 面向个性化对话的可扩展记忆框架多层级记忆抽象 (原始、摘要、知识) 增量式记忆更新机制意义: 解决了长期对话中的记忆可扩展性问题 Parametric 事实记忆核心思想: 将知识编码到模型参数中，实现隐式存储。 ...

Agent Memory: 工作记忆 (Working Memory)

概述工作记忆 (Working Memory) 对应认知心理学中的短期记忆概念，负责：主动上下文管理: 维护当前任务相关的信息注意力调控: 决定关注哪些信息信息整合: 结合短期和长期记忆进行推理认知负荷管理: 处理有限容量的注意力资源与长期记忆的区别: 工作记忆: 容量有限 (受上下文长度限制)，访问快速，临时存储长期记忆: 容量几乎无限，访问需要检索，持久存储 Token-level 工作记忆核心思想: 通过文本压缩和选择管理上下文。代表性论文 1. Agent S (2024) 论文: Agent S: An Open Agentic Framework That Uses Computers Like a Human 链接: arXiv:2410.08164 核心思想: 模拟人类使用计算机的认知过程分层工作记忆: 视觉记忆 + 动作记忆 + 语义记忆动态切换注意力焦点意义: 人类认知架构在智能体设计中的应用 2. AgentFold (2025) 论文: AgentFold: Long-Horizon Web Agents with Proactive Context Management 链接: arXiv:2510.24699 核心思想: 主动上下文管理: 预测未来需要的信息折叠 (Fold) 和展开 (Unfold) 上下文细节根据任务进度动态调整上下文粒度意义: 长程任务中的上下文生命周期管理 3. MemSearcher (2025) 论文: MemSearcher: Training LLMs to Reason, Search and Manage Memory 链接: arXiv:2511.02805 核心思想: 端到端强化学习训练记忆管理智能体学习何时搜索、保留或丢弃信息统一推理和记忆管理意义: 强化学习驱动的主动记忆策略 4. ACON (2025) 论文: ACON: Optimizing Context Compression for Long-Horizon LLM Agents 链接: arXiv:2510.00615 核心思想: 面向长程任务的上下文压缩优化保持任务关键信息的同时压缩冗余可学习的压缩策略意义: 智能体场景的上下文压缩专用方法 5. PRIME (2025) 论文: PRIME: Planning and Retrieval-Integrated Memory for Enhanced Reasoning 链接: arXiv:2509.22315 核心思想: 规划与检索集成的工作记忆根据计划动态组织记忆支持复杂多步推理意义: 工作记忆与规划的深度耦合 6. ReSum (2025) 论文: ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization 链接: arXiv:2509.13313 核心思想: 通过上下文摘要解锁长程搜索智能累积式摘要保持历史信息层次化摘要结构意义: 摘要技术在工作记忆中的应用 7. Agentic Memory (2026) 论文: Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management 链接: arXiv:2601.01885 核心思想: 统一的长短期记忆管理端到端学习记忆操作无缝切换工作记忆和长期记忆意义: 统一记忆架构的里程碑 8. Memory as Action (2025) 论文: Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks 链接: arXiv:2510.12635 核心思想: 将记忆管理视为动作序列自主策划上下文内容学习最优的上下文组织策略意义: 记忆管理动作化的创新视角 Parametric 工作记忆核心思想: 通过架构设计或参数调整优化上下文处理能力。 ...

Agent Memory: 经验记忆 (Experiential Memory)

概述经验记忆 (Experiential Memory) 存储智能体从交互中学习到的技能、洞察和策略，而非静态事实。它使智能体能够：从失败和成功中学习 (强化学习) 积累和复用技能 (程序性记忆) 通过反思改进行为 (元认知) 跨任务迁移经验 (迁移学习) 与事实记忆的区别: 事实记忆: “北京是中国的首都” (静态知识) 经验记忆: “当用户抱怨时，先道歉再解决问题” (习得策略) Token-level 经验记忆核心思想: 用自然语言显式记录经验、技能和策略。代表性论文 1. Reflexion (2023) 论文: Reflexion: Language agents with verbal reinforcement learning 链接: arXiv:2303.11366 核心思想: 语言强化学习: 使用自然语言反馈替代数值奖励智能体通过自我反思总结失败原因将反思结果存入经验记忆，指导下一次尝试关键创新: 不需要模型微调，纯提示工程实现经验以人类可读的形式存储支持多轮迭代改进意义: 开创了语言化经验学习的先河 2. ExpeL (2023) 论文: ExpeL: LLM Agents Are Experiential Learners 链接: AAAI 2024 核心思想: 从经验中提取成功和失败的案例构建经验库支持少样本学习新任务时检索相似经验作为参考关键机制: 经验编码: 将执行轨迹转化为可复用的知识经验检索: 基于任务相似度匹配相关经验经验应用: 将检索到的经验注入提示意义: 证明了经验积累对智能体性能的显著提升 3. SkillWeaver (2025) 论文: SkillWeaver: Web Agents can Self-Improve by Discovering and Honing Skills 链接: arXiv:2504.07079 核心思想: 技能发现: 自动从网页交互中识别可复用技能技能精炼: 通过多次执行优化技能描述技能库: 维护结构化的技能集合技能表示: 技能名称: 登录网站前置条件: 需要用户名和密码执行步骤: 1. 点击登录按钮 2. 输入凭证 3. 提交预期结果: 进入用户主页意义: 实现网页智能体的持续自我改进 4. Agent Workflow Memory (2024) 论文: Agent Workflow Memory 链接: OpenReview 核心思想: 将复杂任务分解为工作流学习并存储任务工作流模式新任务时复用或改编已有工作流工作流记忆: 节点: 子任务或操作边: 执行顺序和依赖关系条件: 分支决策规则意义: 结构化经验表示支持复杂任务规划 5. MemEvolve (2025) 论文: MemEvolve: Meta-Evolution of Agent Memory Systems 链接: arXiv:2512.18746 核心思想: 元进化: 不仅进化记忆内容，还进化记忆机制记忆系统本身作为优化目标自动发现最佳记忆结构意义: 从固定架构走向自适应记忆系统 6. Hindsight is 20/20 (2025) 论文: Hindsight is 20/20: Building Agent Memory that Retains, Recalls, and Reflects 链接: arXiv:2512.12818 核心思想: 三R框架: 保持(Retain)、回忆(Recall)、反思(Reflect) 事后反思 (Hindsight) 优化决策构建可解释的经验记忆意义: 系统化的经验记忆管理框架 7. Remember Me, Refine Me (2025) 论文: Remember Me, Refine Me: A Dynamic Procedural Memory Framework 链接: arXiv:2512.10696 核心思想: 动态程序性记忆: 持续改进技能表示保留技能历史版本根据执行反馈选择最优版本意义: 程序性记忆的版本控制和进化 8. MemRL (2026) 论文: MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory 链接: arXiv:2601.03192 核心思想: 基于情景记忆的运行时强化学习从记忆中采样经验进行离线学习实时更新策略而不中断服务意义: 实现终身学习的经验积累 Parametric 经验记忆核心思想: 将经验编码到模型参数中，通过持续学习更新。 ...

Cursor长时间运行 Agent 的工程方法论

原文来源：https://mp.weixin.qq.com/s/FHdGHztSOOItttUYwA9dQw Cursor长时间运行 Agent 的工程方法论引言 Cursor 在做一件很明确、也很少有人把它“工程化讲清楚”的事：让编码 Agent 以周为单位持续自主工作，并把并发扩展到数百级，观察系统在真实代码库里如何推进、如何失效、如何恢复。本文不做内容复述，重点分析 Cursor 的关键行为与工程选择：他们如何从平权协作的失败中抽象出分层结构，如何把质量控制外置到评估闭环，如何用重启机制对抗漂移，以及这些选择对工程团队意味着什么。太长不看版核心行为链：单 Agent 在复杂项目里变慢 → 平权协作失败（锁/脆弱/空转）→ 分层流水线（Planner/Worker/Judge）→ 用“重启 + 评估”对抗漂移 → 在多组长跑实验中获得可行性证据。并发扩展的最大阻力集中在三处：协作机制、收敛信号（评估闭环）、漂移控制。缺一项都会把成本放大到吞噬吞吐。工程关键选择集中在“外部化质量控制”：把质量与收敛交给 CI/基准/扫描等门禁，减少串行集成瓶颈。提示体系承担了“组织制度”的作用，需要版本化、可审计、可回滚；Cursor 在实践中把提示的影响放在了很高优先级。浏览器等大体量实验更适合作为边界证明，不适合作为评价指标。评价指标应围绕可构建、可验证、可演进展开。 1. 工程术语：长跑、漂移与收敛信号为了避免讨论停留在口号层面，先把三个概念明确化。 1）长时间运行（Long-running）同一目标跨多轮迭代持续推进（小时/天/周），并在多次上下文刷新后保持约束一致性。这里的难点主要落在“约束保持”和“收敛判据”上。 2）漂移（Drift）目标、约束或策略在长时间运行中发生偏移，常见症状包括：反复重写、低价值优化、偏离验收标准、只修表象不修根因。 3）收敛信号（Evaluation Signals）能客观判断“是否更接近目标”的证据，例如：构建产物、测试通过率、回归基准、崩溃率趋势、安全扫描结果、性能指标曲线。落地时，团队需要优先回答两个问题：交付目标能否被表达为可检查的约束与可度量的验收信号。失败能否被快速分类为“可重试/需重启/需人工介入/需降级方案”。 2. 单个 Agent 的局限：并发扩展的动机 Cursor 的出发点很务实：Agent 做小任务表现不错，复杂项目推进速度会明显下降。并行运行多个 Agent 是自然选择，但“如何协调”本身会变成主成本。这里有一个容易忽略的细节：作者没有把“先做一套完备规划”当作默认解法。原因在于大型项目的路径并不明确，早期拆分也很难一次到位。于是系统从动态协调入手，让 Agent 根据其他 Agent 当前在做的事情决定下一步。工程含义很直接：任务拆解与协作策略会持续演化，系统需要允许“边跑边重写计划”，并为这种变化提供机制支撑。 3. 学习如何协同：锁、乐观并发控制与空转最有价值的部分之一，是把失败过程公开出来。 3.1 平权协作 + 共享状态 + 锁所有 Agent 地位相同，通过共享文件查看状态、认领任务并更新状态。为了避免抢占，引入锁机制。 ...

从 Skill 的渐进式加载得到的启发

原文来源：https://mp.weixin.qq.com/s/WZWZsMCQHXKUGJKOS-VXDA 做RAG交付快2年了，一直被困扰就是各种Chunk，前一段时间开源的PageIndex给了我一些思考。直到最近爆火的Skill技术出现，让我想到了另一种实现思路，RAG问答是否可以采用 Skill 的渐进式加载方式呢？在 Cursor / Claude 的 Skill 机制里，模型不会一上来把 SKILL.md 和所有 references 全塞进上下文，而是需要用到这个能力时再加载：先根据描述判断要不要用这个 Skill，用到了才去读 SKILL.md，遇到 PDF/Excel 再按规则去读 pdf_reading.md、excel_reading.md 这类参考文档。按需读、分层读、用到哪读到哪。我就在想，知识库检索能不能也这么干？不要一上来就全量切块、向量检索、一次 top-k 塞进上下文，而是先判断该看哪，再一点一点把需要的内容加载进来。于是有了这套「分层索引导航 + 渐进式检索」的本地知识库 Skill，和传统 RAG 走的是两条路。从 Skill 的渐进式加载得到的启发 Skill 的用法是这样：模型先看 Skill 的简短描述，决定要不要激活；激活后才读 SKILL.md 里的流程和规则。规则里会写「处理 PDF 前必须先读 references/pdf_reading.md」，所以只有真要动 PDF 时才会去读那篇文档。结果就是不会一次性把所有材料都灌进上下文，而是按步骤、按类型、需要什么加载什么。把同样的思路挪到知识库上：分层加载：先读根目录的 FileIndex.md，知道有几大块（安全、财报、电商、AI 报告……），根据问题只进相关的那几块。进到子目录再读该层的 FileIndex.md，只加载可能用到的文件说明。用多级「小索引」代替一次把整库的向量都考虑进来。按类型、按需加载：确定要查某类文件（比如 PDF）之后，才去读「怎么处理 PDF」的 references，再用学到的方法提取、检索，只把命中的片段读进上下文。Excel、Markdown 同理，用到再加载处理方法，再加载具体内容。按轮次、小步加载：单轮只做一次定位加一小段上下文，不够就下一轮换关键词或换文件，最多 5 轮。每一轮都是加载一点、判断一下、再决定下一步，而不是一次 top-k 定生死。检索流程就是先导航（读索引），再按类型学方法（读 references），再在选定范围里精查（grep + 局部 read），多轮迭代。下面把这条链路写细一点，再和传统 RAG 对比。这套 Skill 在干什么：分层索引导航 + 渐进式检索不建向量库，用「目录索引 + 按类型处理 + 关键词 + 局部读取」把要用的内容一点点加载进来。 ...

AI Agents的现状与困境：MIT、剑桥、斯坦福等联合发布分析报告

原文来源：https://mp.weixin.qq.com/s/ELL82iAQSkLhOTMQ_lj46A 最近 AI 圈最火的一个新词，叫"SaaSpocalypse"，SaaS 末日。这两周，Claude Code 上了个 COBOL 现代化功能，IBM 当天暴跌 13%；又上了个安全扫描功能，一口气翻出 500 多个此前藏了几十年的高危漏洞，网安股集体跳水。彭博社甚至专门做了一期播客讨论“哪些 SaaS 公司能活下来”。恐慌的核心逻辑只有一句话：Agent 不是 SaaS 的用户，Agent 是 SaaS 的替代者。传统 SaaS 卖的是什么，把工作流做成界面，让人坐在那里点。收费逻辑是按座位数——你有多少员工用，就收多少钱。 Agent 出来之后，这件事变了：Agent 可以直接调 API，自动完成任务，根本不需要有人打开界面。给人用的界面的价值就压缩了。市场的恐慌不是空穴来风。这是一张 AI Agent 领域从 2020 年到 2026 年初的态势统计图。蓝色柱状图——每月新增的 Agent 相关搜索词数量。从 2023 年逐步上涨，2025 年中达到峰值（单月接近 80 个新词）。粉色折线——Google Scholar 上每年关于 Agent 的论文数量。从 2024 年开始陡峭上升，到 2025-2026 年已接近每年 1800 篇。。三种圆点——标注了各类 Agent 产品的实际发布节点。可以看到 2024 年下半年到 2025 年是集中爆发期，各类 Agent 产品密集上线。（具体看下面这张图） ...

OpenClaw（Clawdbot）架构拆解：把 Agent 系统做得更稳、更可控

原文来源：https://mp.weixin.qq.com/s/tp9H0IR9a4SWBioLMCDehA 架构师（JiaGouX）｜我们都是架构师！架构未来，你来不来？最近半年写/用 Agent 的人，大概率都踩过同一类坑：模型未必是瓶颈，系统一"动手"，工程侧立刻露馅。并发乱、状态飘、日志不可读、工具权限没边界、失败不可回放……最后你会发现，提示词再华丽，也兜不住这些问题。这篇我想把 OpenClaw（Clawdbot）的架构拆开讲清楚。我更关心的是：它怎么把这类系统做得更稳、更可控。起因是我在 X 上刷到一条关于 Clawdbot 架构的拆解帖。它不是"神话能力"，而是用一套很工程的语言，把组件边界、执行链路、可靠性取舍讲得很清楚。原帖作者 @Hesamation 的出发点很实在：他想搞清楚 Clawdbot 的记忆系统到底怎么工作、可靠性如何。最后他发现，真正值得学的不是"它能做什么"，而是"它怎么把这些事做得更稳"。太长不看版（6 条） OpenClaw 的本体是 TypeScript CLI 进程，外加一个负责多渠道接入的 Gateway Server；它不是 Web App。它把可靠性放在第一位：默认串行，显式并行（lane queue）。并发不是"性能技巧"，先是"可靠性问题"。 Agent Runner 更像一条装配线：模型选择与 Key 冷却、Prompt 组装、历史加载、上下文窗口守护，然后驱动工具循环。记忆不神秘：JSONL 转录（可回放）+ Markdown 记忆文件（可编辑）；检索用向量 + 关键词混合，落在 SQLite（FTS5）。工具调用的安全边界必须系统化：allowlist + 结构化拦截（重定向/命令替换/子 Shell/链式执行等直接拒绝），别把"自觉"当机制。浏览器不主要靠截图：用语义快照（Accessibility Tree/ARIA）把"看网页"降维成"读结构"，成本更低、成功率更稳。图 1：原始架构图（原图）图 2：OpenClaw 核心链路先把它放回正确的分类：它到底是什么很多人聊 Agent，一开口就是"自治"“多智能体"“进化”。但落地时，你更需要先回答一句话：你做的是聊天机器人，还是"能在你的机器上执行工具的系统”？ OpenClaw 的定位很明确：它是一个运行在你机器上的进程，负责三件事：接收来自不同渠道的消息（Telegram、Discord、Slack 等）。调用 LLM API（OpenAI、Anthropic、本地模型等）。在本地或受控环境里执行工具（Shell、文件、浏览器、进程），再把结果回写给你。这句话看起来朴素，但它把架构重心直接钉死了：执行的可控性、状态的可追溯性、失败的可解释性。 ...

大模型记忆工程的架构设计与实践

原文来源：https://mp.weixin.qq.com/s/jO38bghvaLpjOnQB8aY3uA 作者｜李志宇博士编辑｜Kitty 策划｜QCon 全球软件开发大会随着大模型在企业和行业场景中持续落地，“记忆"正在成为继参数调优和上下文工程之后的下一个工程化核心。短时遗忘、知识碎片化、跨任务信息无法留存等问题，正在限制大模型的个性化、推理链延展与持续演化能力。本文整理自记忆张量 CTO 李志宇博士在 2025 年 QCon 全球软件开发大会（上海站）的演讲分享。志宇博士结合他多年的研发与落地实践，系统剖析大模型记忆工程的核心技术：记忆分层管理、多粒度调度、可信更新与安全治理，并展示这些技术在金融、工业、知识管理等业务中的应用效果。通过对架构设计、实现细节和案例经验的讲解，帮助开发者与架构师全面理解如何构建具备长期留存与动态调度能力的"有记忆的 AI”，以及它在未来产业智能化演进中的角色与挑战。预告：将于 4 月 16 - 18 召开的 QCon 北京站设计了「记忆觉醒：智能体记忆系统的范式重塑与产业落地」专题，旨在重新定义企业级记忆系统的未来——聚焦非显式偏好捕捉、记忆自主演化与生命周期管理等前沿方向，探索其在高端客服、个性化助理、企业决策等场景的深层价值。如果你也有相关方向案例想要分享，欢迎提交至 https://jinshuju.com/f/Cu32l5 。以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）。大模型性能缩放曲线的演进历史我们公司名为"记忆张量"，单从名字便可看出，我们聚焦的是"记忆增强"——或者说"记忆优化"这一方向。去年十一月刚刚成立，不久前刚完成近亿元人民币的天使轮融资。之所以选择"记忆"作为主攻点，根本原因在于我们判断：在大模型的演进史中，记忆将成为与 MCP 工具并列的下一个关键增强维度。2023 年以前，业界普遍通过扩大数据规模、参数量和训练量来换取性能提升，由此催生了千问、ChatGPT 等代表性范式。进入 2024–2025 年，人们逐渐发现，单纯堆参数与规模带来的收益开始递减，于是转向"后训练"与"推理增强"，DeepSeek-R1 便是这一阶段的典型产物。当后训练也逼近瓶颈时，Sam Altman 等人开始追问：下一步的突破口究竟在哪里？在 GPT-4 的更新日志里，OpenAI 把"全局记忆"列为令团队"兴奋到失眠"的新功能；而在 GPT-5、GPT-6 的路线图中，“记忆"与"个性化"被反复提及，被视为大模型面向应用场景的核心变量。从实践层面看记忆增强的必要性若把大模型业务服务做一次抽象，可自下而上划分为：底层的数据库存储与基础 AI 引擎；中间的 MCP 增强、知识库增强；最上层的业务逻辑。再将视角切换到单个用户与大模型的交互流程，就会发现其中同时存在动态与静态两类信息。所谓动态信息，指随每次查询而变化的个性化内容：用户临时贴入的参考材料、在 prompt 里约定的偏好等。查询一旦发出，模型先进行意图理解与任务规划，再进入信息增强链路——MCP 调用各类动态工具，并返回执行结果、校验信息、汇总结果；与此同时，知识库从预先处理好的企业静态知识中抽取内容，为模型提供补充。最终，响应结果既包含推理过程（think 部分），也包含知识性内容，以及用户对本次回答的点赞或点踩。若沿着时间轴把记忆类型进一步展开，其复杂度远超直觉。假设我们在第 6 轮对话里需要引用一个月前第 2 轮的内容，又在第 5 轮里引用第 1 轮的细节，就必须保证用户在不同场景下都能准确召回、并同步更新已发生变化的记忆。再把视角拉远：大模型可能在多轮会话、多用户、多 Agent、多 App 之间穿梭，动态信息的量级与管理难度呈指数级上升。因此，我们希望在开发层面屏蔽这些复杂性，让应用开发者无需深陷动态信息的泥沼，从而显著降低落地成本。 ...

Robert

最近文章