Memory

斯坦福大学AI小镇论文阅读

论文: Generative Agents: Interactive Simulacra of Human Behavior 配套原文:[[斯坦福小镇论文(全文翻译+导读)]] 配套分析: 斯坦福小镇memory分析斯坦福大学 AI 小镇论文阅读 TL;DR 这篇论文提出了一种“生成虚拟人”架构，让虚拟人能在类似《模拟人生》的沙盒世界中持续生活、交流、记忆、反思和规划。[1] 其核心机制有三部分：记忆流（Memory Stream）、反思（Reflection）、规划（Plan）。[1] 记忆检索不是简单的向量搜索，而是结合了相关性、时序新近性和重要性的混合评分机制。[1] 这篇工作之所以经典，不只是因为它让 NPC 更会聊天，而是它较早完整打通了记忆存储、检索、抽象、规划与社交传播。[2] 从 Agent Memory 分类看，它是一个典型的 Token-level 记忆架构原型，对后续大量工作都有启发。[3] 一、为什么这篇论文重要在 Agent Memory 的发展脉络里，Generative Agents 通常被视为一个里程碑。它展示的不只是“单轮拟人回复”，而是一个具备长期一致性的智能体社会：虚拟人会记住经历、形成对他人和自己的理解、安排未来计划，并在环境变化时重新调整行为。[1] 更重要的是，这篇论文给出了一个非常完整的记忆系统原型：底层用记忆流做持久存储，中间用检索机制把相关记忆找回来，再通过反思把原始经历提炼成更高层次认知，最后通过规划把认知转化为行为。对于做 Agent Infra 的人来说，这基本就是一个完整的 memory blueprint。[2] 二、这篇论文到底在解决什么问题论文关注的核心问题是：大语言模型虽然已经能在单个时刻生成看起来合理的人类行为，但还不足以支撑一个长期运行、多人互动、动态演化的虚拟社会。[1] 问题主要体现在几个方面：模型容易丢失长期一致性很难在多轮经历之后持续“记住自己是谁” 很难把过去发生的事转化成稳定判断很难在一个开放世界里形成自然的信息传播、关系变化和协作行为[1] 因此，作者提出的不是“更强的对话模型”，而是一套围绕记忆组织起来的虚拟人架构。三、实验场景：Smallville 小镇作者构建了一个叫 Smallville 的沙盒小镇，里面有 25 个身份不同的虚拟人。每个虚拟人都有一段自然语言的人设描述，作为初始记忆，包括职业、性格、关系和背景。[1] 这个世界支持几类交互：虚拟人之间通过自然语言对话虚拟人与环境中的对象互动人类用户可以“附体”到某个虚拟人身上，用自然语言干预其行为用户还能直接修改环境状态，比如把炉子改成“着火”，观察角色如何反应[1] 论文最有代表性的案例是情人节派对：一开始只告诉 Isabella 她想举办派对，之后邀请、传播、协作布置、赴约等行为都在小镇中自发出现。[1] 四、核心架构总览这篇论文的架构可以概括成三部分：记忆流（Memory Stream）反思（Reflection）规划（Plan）[1] 这三个模块不是并列的小功能，而是一个循环： ...

斯坦福大学AI小镇论文（全文翻译+导读）

原文来源: https://zhuanlan.zhihu.com/p/662730929 论文标题: Generative Agents: Interactive Simulacra of Human Behavior 阅读导图: [[斯坦福大学AI小镇论文阅读]] TL;DR 这篇论文提出了一个“生成虚拟人”架构，让虚拟人能在类似《模拟人生》的沙盒世界中持续生活、交流、记忆、反思和规划。[1] 它的核心机制包括三部分：==记忆流（Memory Stream）、思考 / 反思（Reflection）、个人规划（Plan）。==[1] 系统将虚拟人的经历以自然语言写入记忆流，并通过 ==相关性、新近性、重要性== 三因素进行检索。[1] 检索到的记忆不仅用于回答当前问题，还会被进一步综合为更高层次的思考，再影响后续计划与行为。[1] 在 25 个虚拟人组成的小镇中，论文展示了信息传播、关系形成与协作等涌现行为，例如情人节派对的自主组织。[1] 导读：这篇论文为什么值得读这篇论文是 Agent Memory 方向非常经典的工作。它的重要性不在于“让 NPC 更会聊天”，而在于较早完整地展示了一套有长期记忆、会反思、能规划的 Agent 架构。[1] 如果你关心的是 Agent Memory 或 Agent Infra，最值得重点看的部分是： 4.1 记忆与检索 4.2 思考 4.3 计划和反馈[1][2] 如果你更关心交互效果和系统表现，则可以优先看： 3. 生成虚拟人的行为和交互 3.4 新兴的社交行为 8.2 未来工作和局限性 8.3 伦理和社会影响[1] 建议阅读方式只想快速理解论文核心：先读本文开头的导读，再重点看第 4 节。[2] 想理解为什么它是 Agent Memory 的经典案例：重点看记忆流、检索、思考、计划这四块。[1] 想逐段精读原文翻译：从摘要开始顺序往下读即可。想看阅读版总结：可配合 [[斯坦福大学AI小镇论文阅读]] 一起看。[3] 摘要前解读这一部分最值得注意的不是“虚拟人会生活”，而是作者在摘要里就把系统可信行为归结为三个关键因素： ...

斯坦福小镇：Generative Agents 记忆架构解析

斯坦福的“小镇”项目（即论文 “Generative Agents: Interactive Simulacra of Human Behavior”）是 Agent Memory 领域的里程碑式工作。 ^C9vThOS0 对于做 Agent Infra 来说，这篇论文提供了一个非常完整的记忆架构原型。它几乎覆盖了记忆系统的所有核心生命周期（存储、检索、演化、应用）。具体来说，它涉及了 Agent Memory 系统中的以下关键部分： 1. 核心数据结构：记忆流 (Memory Stream) 这是整个系统的基石，对应于存储层。机制：一个包含所有观察（Observations）的综合列表。每个元素都包含时间戳和自然语言描述。涉及的记忆类型：事实记忆 (Factual Memory)：记录环境中的客观事实（如“冰箱是空的”）。情景记忆 (Episodic Memory)：记录 Agent 自身的经历和行为序列（如“我昨天去散步了”）。 Infra 启示：在 Infra 层面，这需要一个支持高并发写入、带有时间索引的日志型数据库（Log-structured storage）。 2. 记忆检索机制 (Retrieval) 这是让记忆“可用”的关键，对应于动态 (Dynamics) - 检索。斯坦福小镇并没有简单地使用向量检索，而是提出了一个混合评分机制，这是 Infra 设计中非常值得参考的策略：相关性 (Relevance)：基于 Embedding 的语义相似度（这是目前 RAG 的标配）。新近性 (Recency)：基于指数衰减函数，越新的记忆权重越高（模拟人类的工作记忆特性）。重要性 (Importance)：区分“吃早饭”和“与恋人分手”的区别。通过 LLM 给记忆打分（1-10分），重要的记忆更难被遗忘。 Infra 启示：在设计检索接口时，不能只做 Vector Search，必须支持混合排序 (Hybrid Ranking)，允许业务逻辑（如时间、重要性权重）干预检索结果。 3. 记忆演化：反思 (Reflection) 这是该论文最核心的创新点，对应于经验记忆 (Experiential Memory) - 洞察与抽象。 ...

Agent Memory 论文综述

概述 Agent Memory（智能体记忆）是构建基础模型智能体的核心支柱，支撑着智能体执行长程推理、持续学习和与复杂环境有效交互的能力。本综述基于复旦大学研究团队的 Agent-Memory-Paper-List 仓库，系统梳理了这一快速发展领域的研究脉络。与相关概念的区别 Agent Memory 与以下概念存在本质区别：概念核心特征与 Agent Memory 的区别 LLM Memory LLM 自身的参数化知识 Agent Memory 是显式的外部记忆系统 RAG 检索增强生成，基于外部知识库 RAG 是静态检索，Agent Memory 支持动态更新和演化 Context Engineering 优化输入上下文 Agent Memory 关注跨会话的长期记忆保持统一分类框架该领域研究通过三个维度进行组织： 1. 形式 (Forms) - 记忆载体 Token-level: 显式、离散的自然语言表示 Parametric: 隐式的模型参数权重 Latent: 隐藏状态表征 2. 功能 (Functions) - 记忆用途 Factual Memory (事实记忆): 存储知识和事实信息 Experiential Memory (经验记忆): 记录洞察、技能和经验 Working Memory (工作记忆): 主动上下文管理 3. 动态 (Dynamics) - 记忆演化 Formation (形成): 信息提取和编码 Evolution (演化): 巩固与遗忘机制 Retrieval (检索): 访问策略发展脉络第一阶段：基础探索期 (2021-2023) 核心特征: 从知识编辑和模型编辑技术起步，逐步探索如何让 LLM 具备长期记忆能力。 ...

大模型记忆工程的架构设计与实践

原文来源：https://mp.weixin.qq.com/s/jO38bghvaLpjOnQB8aY3uA 作者｜李志宇博士编辑｜Kitty 策划｜QCon 全球软件开发大会随着大模型在企业和行业场景中持续落地，“记忆"正在成为继参数调优和上下文工程之后的下一个工程化核心。短时遗忘、知识碎片化、跨任务信息无法留存等问题，正在限制大模型的个性化、推理链延展与持续演化能力。本文整理自记忆张量 CTO 李志宇博士在 2025 年 QCon 全球软件开发大会（上海站）的演讲分享。志宇博士结合他多年的研发与落地实践，系统剖析大模型记忆工程的核心技术：记忆分层管理、多粒度调度、可信更新与安全治理，并展示这些技术在金融、工业、知识管理等业务中的应用效果。通过对架构设计、实现细节和案例经验的讲解，帮助开发者与架构师全面理解如何构建具备长期留存与动态调度能力的"有记忆的 AI”，以及它在未来产业智能化演进中的角色与挑战。预告：将于 4 月 16 - 18 召开的 QCon 北京站设计了「记忆觉醒：智能体记忆系统的范式重塑与产业落地」专题，旨在重新定义企业级记忆系统的未来——聚焦非显式偏好捕捉、记忆自主演化与生命周期管理等前沿方向，探索其在高端客服、个性化助理、企业决策等场景的深层价值。如果你也有相关方向案例想要分享，欢迎提交至 https://jinshuju.com/f/Cu32l5 。以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）。大模型性能缩放曲线的演进历史我们公司名为"记忆张量"，单从名字便可看出，我们聚焦的是"记忆增强"——或者说"记忆优化"这一方向。去年十一月刚刚成立，不久前刚完成近亿元人民币的天使轮融资。之所以选择"记忆"作为主攻点，根本原因在于我们判断：在大模型的演进史中，记忆将成为与 MCP 工具并列的下一个关键增强维度。2023 年以前，业界普遍通过扩大数据规模、参数量和训练量来换取性能提升，由此催生了千问、ChatGPT 等代表性范式。进入 2024–2025 年，人们逐渐发现，单纯堆参数与规模带来的收益开始递减，于是转向"后训练"与"推理增强"，DeepSeek-R1 便是这一阶段的典型产物。当后训练也逼近瓶颈时，Sam Altman 等人开始追问：下一步的突破口究竟在哪里？在 GPT-4 的更新日志里，OpenAI 把"全局记忆"列为令团队"兴奋到失眠"的新功能；而在 GPT-5、GPT-6 的路线图中，“记忆"与"个性化"被反复提及，被视为大模型面向应用场景的核心变量。从实践层面看记忆增强的必要性若把大模型业务服务做一次抽象，可自下而上划分为：底层的数据库存储与基础 AI 引擎；中间的 MCP 增强、知识库增强；最上层的业务逻辑。再将视角切换到单个用户与大模型的交互流程，就会发现其中同时存在动态与静态两类信息。所谓动态信息，指随每次查询而变化的个性化内容：用户临时贴入的参考材料、在 prompt 里约定的偏好等。查询一旦发出，模型先进行意图理解与任务规划，再进入信息增强链路——MCP 调用各类动态工具，并返回执行结果、校验信息、汇总结果；与此同时，知识库从预先处理好的企业静态知识中抽取内容，为模型提供补充。最终，响应结果既包含推理过程（think 部分），也包含知识性内容，以及用户对本次回答的点赞或点踩。若沿着时间轴把记忆类型进一步展开，其复杂度远超直觉。假设我们在第 6 轮对话里需要引用一个月前第 2 轮的内容，又在第 5 轮里引用第 1 轮的细节，就必须保证用户在不同场景下都能准确召回、并同步更新已发生变化的记忆。再把视角拉远：大模型可能在多轮会话、多用户、多 Agent、多 App 之间穿梭，动态信息的量级与管理难度呈指数级上升。因此，我们希望在开发层面屏蔽这些复杂性，让应用开发者无需深陷动态信息的泥沼，从而显著降低落地成本。 ...

MemGPT/Letta 记忆与上下文管理深度解析

本文档整理自 Letta 官方文档、研究论文及 GitHub 仓库原项目：MemGPT → 现名 Letta 论文：arXiv:2310.08560 📌 项目概览什么是 MemGPT/Letta？ MemGPT（Memory-GPT）是一个创新的 LLM 记忆管理系统，现更名为 Letta。它由 UC Berkeley 的研究团队开发，旨在解决大语言模型的上下文窗口限制问题。核心理念： “Teaching LLMs to manage their own memory for unbounded context” 让 LLM 学会管理自己的记忆，实现无限上下文 GitHub 数据： ⭐ 21.2k stars 🍴 2.2k forks 👥 158 位贡献者 🧠 核心问题：上下文窗口限制现有 LLM 的痛点有限上下文窗口 GPT-4: 128K tokens Claude: 200K tokens 长文档、多轮对话容易溢出无法持久化记忆每次对话都是"从头开始" 无法记住用户偏好、历史交互无法进行长期学习不能从交互中积累知识无法自我改进 🎯 解决方案：虚拟上下文管理核心创新：操作系统启发 MemGPT 借鉴了传统操作系统的虚拟内存机制： ...

Agent Infra 深度调研：Memory管理层次与架构设计

执行摘要本报告对Agent Infrastructure（Agent基础设施）领域进行了系统性深度调研，重点关注Memory管理层次模型。通过对LangChain、LangGraph、LangSmith、Zep、MemGPT等主流技术的分析，揭示了Agent Memory从简单会话存储到复杂知识图谱演进的技术脉络。 1. Agent Infra 分层架构 1.1 Agent执行动态追踪（Trace）层 LangSmith 是LangChain团队推出的LLM应用可观测性平台，截至2025年已处理超过10亿条Trace。核心架构： Frontend (UI) + Backend API + SDK (Python/TypeScript) ↓ ClickHouse (Trace存储) + PostgreSQL (元数据) + Redis (缓存) 定价模式： Developer计划：免费，5,000 traces/月 Plus计划：$39/月/席位 Enterprise计划：支持私有化部署 1.2 Agent Context管理层 Context生命周期：创建(Creation) → 传递(Transfer) → 更新(Update) → 销毁(Dispose) │ │ │ │ 初始化状态节点间流转 Reducer合并会话结束 LangGraph中的Context管理： class AgentState(TypedDict): messages: Annotated[list, add_messages] documents: list[str] counter: Annotated[int, add] 2. Memory管理深度分析（重点） 2.1 Memory层次模型基于认知科学和计算机体系结构的启发，Agent Memory采用分层架构： ┌─────────────────────────────────────────────────────────┐ │ Working Memory (工作记忆) │ │ Context Window / Active Reasoning │ │ ~4K-128K tokens │ │ ▲ │ │ │ 实时访问 │ ├───────────────────┼─────────────────────────────────────┤ │ ▼ │ │ Short-term Memory (短期记忆) │ │ Session History / Conversation Buffer │ │ ~10-100 messages │ │ ▲ │ │ │ 快速检索 │ ├───────────────────┼─────────────────────────────────────┤ │ ▼ │ │ Long-term Memory (长期记忆) │ │ ┌───────────────┬───────────────┐ │ │ │ Fixed Attr │ Fuzzy Vector │ │ │ │ Memory │ Memory │ │ │ │ (用户画像) │ (Embedding) │ │ │ └───────────────┴───────────────┘ │ └─────────────────────────────────────────────────────────┘ 2.2 短期记忆（Short-term Memory）工作记忆（Working Memory）： ...