Agent Memory: 工作记忆 (Working Memory)

概述

工作记忆 (Working Memory) 对应认知心理学中的短期记忆概念，负责：

主动上下文管理: 维护当前任务相关的信息
注意力调控: 决定关注哪些信息
信息整合: 结合短期和长期记忆进行推理
认知负荷管理: 处理有限容量的注意力资源

与长期记忆的区别:

工作记忆: 容量有限 (受上下文长度限制)，访问快速，临时存储
长期记忆: 容量几乎无限，访问需要检索，持久存储

Token-level 工作记忆

核心思想: 通过文本压缩和选择管理上下文。

代表性论文

1. Agent S (2024)

论文: Agent S: An Open Agentic Framework That Uses Computers Like a Human
链接: arXiv:2410.08164
核心思想:
- 模拟人类使用计算机的认知过程
- 分层工作记忆: 视觉记忆 + 动作记忆 + 语义记忆
- 动态切换注意力焦点
意义: 人类认知架构在智能体设计中的应用

2. AgentFold (2025)

论文: AgentFold: Long-Horizon Web Agents with Proactive Context Management
链接: arXiv:2510.24699
核心思想:
- 主动上下文管理: 预测未来需要的信息
- 折叠 (Fold) 和展开 (Unfold) 上下文细节
- 根据任务进度动态调整上下文粒度
意义: 长程任务中的上下文生命周期管理

3. MemSearcher (2025)

论文: MemSearcher: Training LLMs to Reason, Search and Manage Memory
链接: arXiv:2511.02805
核心思想:
- 端到端强化学习训练记忆管理
- 智能体学习何时搜索、保留或丢弃信息
- 统一推理和记忆管理
意义: 强化学习驱动的主动记忆策略

4. ACON (2025)

论文: ACON: Optimizing Context Compression for Long-Horizon LLM Agents
链接: arXiv:2510.00615
核心思想:
- 面向长程任务的上下文压缩优化
- 保持任务关键信息的同时压缩冗余
- 可学习的压缩策略
意义: 智能体场景的上下文压缩专用方法

5. PRIME (2025)

论文: PRIME: Planning and Retrieval-Integrated Memory for Enhanced Reasoning
链接: arXiv:2509.22315
核心思想:
- 规划与检索集成的工作记忆
- 根据计划动态组织记忆
- 支持复杂多步推理
意义: 工作记忆与规划的深度耦合

6. ReSum (2025)

论文: ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization
链接: arXiv:2509.13313
核心思想:
- 通过上下文摘要解锁长程搜索智能
- 累积式摘要保持历史信息
- 层次化摘要结构
意义: 摘要技术在工作记忆中的应用

7. Agentic Memory (2026)

论文: Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management
链接: arXiv:2601.01885
核心思想:
- 统一的长短期记忆管理
- 端到端学习记忆操作
- 无缝切换工作记忆和长期记忆
意义: 统一记忆架构的里程碑

8. Memory as Action (2025)

论文: Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks
链接: arXiv:2510.12635
核心思想:
- 将记忆管理视为动作序列
- 自主策划上下文内容
- 学习最优的上下文组织策略
意义: 记忆管理动作化的创新视角

Parametric 工作记忆

核心思想: 通过架构设计或参数调整优化上下文处理能力。

代表性论文

1. Attention Sinks (2024)

论文: Efficient Streaming Language Models with Attention Sinks
链接: ICLR 2024
核心思想:
- 注意力汇聚点 (Attention Sinks): 保留初始的几个 token
- 解决 KV Cache 驱逐导致的性能下降
- 实现流式语言模型的高效推理
关键发现:
- 初始 token 对注意力计算至关重要
- 保留这些 token 可维持模型稳定性
意义: KV Cache 管理的突破性工作

2. Lightning Attention (2024)

论文: Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention
链接: OpenReview
核心思想:
- 线性注意力机制
- 与序列长度无关的恒定计算速度
- 支持无限长上下文
意义: 突破二次复杂度的注意力瓶颈

Latent 工作记忆

核心思想: 在潜在空间中高效表示和操作上下文信息。

代表性论文

1. SnapKV (2024)

论文: SnapKV: LLM Knows What You are Looking for Before Generation
链接: NeurIPS 2024
核心思想:
- LLM 在生成前就知道需要关注什么
- 提前聚类: 在预填充阶段识别关键 KV
- 仅保留关键 KV，压缩缓存
技术细节:
- 观察注意力模式识别重要 token
- 基于观察结果压缩 KV Cache
意义: 观察驱动的 KV Cache 压缩

2. RazorAttention (2025)

论文: RazorAttention: Efficient KV Cache Compression Through Retrieval Heads
链接: OpenReview
核心思想:
- 通过检索头压缩 KV Cache
- 识别负责信息检索的注意力头
- 仅在这些头上保留完整 KV
意义: 注意力头级别的细粒度压缩

3. MemoRAG (2025)

论文: MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation
链接: arXiv:2504.09181
核心思想:
- 全局记忆增强的检索增强生成
- 双路径处理: 全局记忆编码 + 局部检索
- 潜在空间中的记忆融合
意义: RAG 与工作记忆的融合

4. LM2 (2025)

论文: LM2: Large Memory Models
链接: arXiv:2502.06049
核心思想:
- 大记忆模型架构
- 显式可学习的记忆模块
- 注意力与记忆的深度集成
意义: 原生支持记忆的模型架构

5. MEM1 (2025)

论文: MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents
链接: arXiv:2506.15841
核心思想:
- 协同记忆与推理
- 学习最优的记忆-推理权衡
- 高效的长程任务处理
意义: 记忆与推理的协同优化

6. VisMem (2025)

论文: VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models
链接: arXiv:2511.11007
核心思想:
- 面向视觉语言模型的潜在视觉记忆
- 压缩视觉信息到潜在表示
- 支持长视频理解
意义: 多模态工作记忆的扩展

7. MemoryVLA (2025)

论文: MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models
链接: arXiv:2508.19236
核心思想:
- 视觉-语言-动作模型中的感知认知记忆
- 结合感知记忆和认知记忆
- 支持机器人操作的长程记忆
意义: 具身智能中的工作记忆

8. MemGen (2025)

论文: MemGen: Weaving Generative Latent Memory for Self-Evolving Agents
链接: arXiv:2509.24704
核心思想:
- 生成式潜在记忆
- 记忆不仅存储还生成信息
- 支持自进化智能体
意义: 生成式记忆的探索

技术演进脉络

上下文压缩方向

2023: 简单截断 / 滑动窗口
    ↓
2024: SnapKV (观察驱动) → Attention Sinks (汇聚点保留)
    ↓
2025: RazorAttention (检索头) → ACON (智能体专用压缩)
    ↓
2026: Agentic Memory (端到端学习)

记忆-推理融合方向

2024: Agent S (认知架构)
    ↓
2025: PRIME (规划集成) → MEM1 (协同优化) → MemSearcher (RL驱动)
    ↓
2026: Memory as Action (记忆动作化)

关键技术对比

技术	压缩目标	压缩时机	信息损失	适用场景
SnapKV	KV Cache	预填充	低	通用长上下文
RazorAttention	KV Cache	推理时	中	注意力稀疏场景
Attention Sinks	KV Cache	流式处理	低	流式生成
ACON	文本上下文	任务执行	可控	智能体任务
MemoRAG	检索结果	检索后	低	RAG 系统

认知科学视角

工作记忆的研究深受认知科学影响：

Baddeley 工作记忆模型在 AI 中的映射

认知组件	人类功能	AI 对应	代表工作
语音环路	保持语言信息	上下文缓存	SnapKV, Attention Sinks
视觉空间画板	保持视觉信息	视觉记忆	VisMem, MemoryVLA
情景缓冲器	整合多模态信息	多模态融合	MemoRAG, MemGen
中央执行系统	注意力控制	记忆管理策略	MemSearcher, Memory as Action

应用场景

1. 长文档处理

挑战: 超过上下文长度的文档
方案: SnapKV + MemoRAG 组合
效果: 高效处理百页级文档

2. 多轮对话

挑战: 保持对话连贯性
方案: AgentFold + ReSum
效果: 支持数十轮连续对话

3. 长程任务执行

挑战: 复杂任务的信息管理
方案: Agentic Memory + MEM1
效果: 支持数百步的任务执行

4. 实时流处理

挑战: 流式数据的高效处理
方案: Attention Sinks + Lightning Attention
效果: 实时处理无限长流

概述#

Token-level 工作记忆#

代表性论文#

1. Agent S (2024)#

2. AgentFold (2025)#

3. MemSearcher (2025)#

4. ACON (2025)#

5. PRIME (2025)#

6. ReSum (2025)#

7. Agentic Memory (2026)#

8. Memory as Action (2025)#

Parametric 工作记忆#

代表性论文#

1. Attention Sinks (2024)#

2. Lightning Attention (2024)#

Latent 工作记忆#

代表性论文#

1. SnapKV (2024)#

2. RazorAttention (2025)#

3. MemoRAG (2025)#

4. LM2 (2025)#

5. MEM1 (2025)#

6. VisMem (2025)#

7. MemoryVLA (2025)#

8. MemGen (2025)#

技术演进脉络#

上下文压缩方向#

记忆-推理融合方向#

关键技术对比#

认知科学视角#

Baddeley 工作记忆模型在 AI 中的映射#

应用场景#

1. 长文档处理#

2. 多轮对话#

3. 长程任务执行#

4. 实时流处理#

推荐阅读顺序#

用户登录

用户信息

修改密码

概述

Token-level 工作记忆

代表性论文

1. Agent S (2024)

2. AgentFold (2025)

3. MemSearcher (2025)

4. ACON (2025)

5. PRIME (2025)

6. ReSum (2025)

7. Agentic Memory (2026)

8. Memory as Action (2025)

Parametric 工作记忆

代表性论文

1. Attention Sinks (2024)

2. Lightning Attention (2024)

Latent 工作记忆

代表性论文

1. SnapKV (2024)

2. RazorAttention (2025)

3. MemoRAG (2025)

4. LM2 (2025)

5. MEM1 (2025)

6. VisMem (2025)

7. MemoryVLA (2025)

8. MemGen (2025)

技术演进脉络

上下文压缩方向

记忆-推理融合方向

关键技术对比

认知科学视角

Baddeley 工作记忆模型在 AI 中的映射

应用场景

1. 长文档处理

2. 多轮对话

3. 长程任务执行

4. 实时流处理

推荐阅读顺序