大模型记忆工程的架构设计与实践
原文来源:https://mp.weixin.qq.com/s/jO38bghvaLpjOnQB8aY3uA 作者|李志宇 博士 编辑|Kitty 策划|QCon 全球软件开发大会 随着大模型在企业和行业场景中持续落地,“记忆"正在成为继参数调优和上下文工程之后的下一个工程化核心。短时遗忘、知识碎片化、跨任务信息无法留存等问题,正在限制大模型的个性化、推理链延展与持续演化能力。 本文整理自记忆张量 CTO 李志宇博士在 2025 年 QCon 全球软件开发大会(上海站)的演讲分享。志宇博士结合他多年的研发与落地实践,系统剖析大模型记忆工程的核心技术:记忆分层管理、多粒度调度、可信更新与安全治理,并展示这些技术在金融、工业、知识管理等业务中的应用效果。通过对架构设计、实现细节和案例经验的讲解,帮助开发者与架构师全面理解如何构建具备长期留存与动态调度能力的"有记忆的 AI”,以及它在未来产业智能化演进中的角色与挑战。 预告:将于 4 月 16 - 18 召开的 QCon 北京站设计了「记忆觉醒:智能体记忆系统的范式重塑与产业落地」专题,旨在重新定义企业级记忆系统的未来——聚焦非显式偏好捕捉、记忆自主演化与生命周期管理等前沿方向,探索其在高端客服、个性化助理、企业决策等场景的深层价值。如果你也有相关方向案例想要分享,欢迎提交至 https://jinshuju.com/f/Cu32l5 。 以下是演讲实录(经 InfoQ 进行不改变原意的编辑整理)。 大模型性能缩放曲线的演进历史 我们公司名为"记忆张量",单从名字便可看出,我们聚焦的是"记忆增强"——或者说"记忆优化"这一方向。去年十一月刚刚成立,不久前刚完成近亿元人民币的天使轮融资。 之所以选择"记忆"作为主攻点,根本原因在于我们判断:在大模型的演进史中,记忆将成为与 MCP 工具并列的下一个关键增强维度。2023 年以前,业界普遍通过扩大数据规模、参数量和训练量来换取性能提升,由此催生了千问、ChatGPT 等代表性范式。进入 2024–2025 年,人们逐渐发现,单纯堆参数与规模带来的收益开始递减,于是转向"后训练"与"推理增强",DeepSeek-R1 便是这一阶段的典型产物。当后训练也逼近瓶颈时,Sam Altman 等人开始追问:下一步的突破口究竟在哪里?在 GPT-4 的更新日志里,OpenAI 把"全局记忆"列为令团队"兴奋到失眠"的新功能;而在 GPT-5、GPT-6 的路线图中,“记忆"与"个性化"被反复提及,被视为大模型面向应用场景的核心变量。 从实践层面看记忆增强的必要性 若把大模型业务服务做一次抽象,可自下而上划分为:底层的数据库存储与基础 AI 引擎;中间的 MCP 增强、知识库增强;最上层的业务逻辑。再将视角切换到单个用户与大模型的交互流程,就会发现其中同时存在动态与静态两类信息。所谓动态信息,指随每次查询而变化的个性化内容:用户临时贴入的参考材料、在 prompt 里约定的偏好等。查询一旦发出,模型先进行意图理解与任务规划,再进入信息增强链路——MCP 调用各类动态工具,并返回执行结果、校验信息、汇总结果;与此同时,知识库从预先处理好的企业静态知识中抽取内容,为模型提供补充。最终,响应结果既包含推理过程(think 部分),也包含知识性内容,以及用户对本次回答的点赞或点踩。 若沿着时间轴把记忆类型进一步展开,其复杂度远超直觉。假设我们在第 6 轮对话里需要引用一个月前第 2 轮的内容,又在第 5 轮里引用第 1 轮的细节,就必须保证用户在不同场景下都能准确召回、并同步更新已发生变化的记忆。再把视角拉远:大模型可能在多轮会话、多用户、多 Agent、多 App 之间穿梭,动态信息的量级与管理难度呈指数级上升。因此,我们希望在开发层面屏蔽这些复杂性,让应用开发者无需深陷动态信息的泥沼,从而显著降低落地成本。 ...