Top-k Retrieval
从长期记忆中取若干最相关条目送入当前回合。
逻辑直接,容易测试与部署。
k 太小会漏,k 太大会带噪声。
第一版记忆系统与中等复杂度知识 agent。
如果说长期记忆像档案室,那工作记忆就像代理此刻真正摆在眼前、准备拿来思考的材料。材料找到了不代表就有用,关键是它有没有被按顺序摆好、有没有挤掉更重要的信息。
这一组不是“所有相关概念”,而是这个维度最核心、最值得先理解的主线。带下划线的机制可以直接点开,会弹出一个更细的解释窗。
如果只看孤立卡片,机制之间的关系会很模糊。把它们放回 pipeline 中,就能看清每一步在系统里承担什么角色,以及问题通常出在什么位置。
根据当前任务形成搜索或状态查询。
取回长期记忆、profile、状态和外部上下文。
按 relevance / recency / importance 做排序。
将不同来源的内容放入固定 prompt 槽位。
按优先级分配 token,决定谁被保留或截断。
把最终工作记忆注入当前推理回合。
从长期记忆中取若干最相关条目送入当前回合。
逻辑直接,容易测试与部署。
k 太小会漏,k 太大会带噪声。
第一版记忆系统与中等复杂度知识 agent。
用多因素排序,而不只依赖单一语义相似度。
把不同来源的记忆放入明确槽位,例如 user profile、constraints、task state。
系统从长期记忆里成功召回了用户的团队规范,但 prompt 最终被工具日志和最近闲聊挤满,规范没有真正进到模型当前上下文里。
同一轮里同时有用户画像、任务约束、检索结果和 shell 输出,如果没有明确槽位,它们会争夺 token 预算,最后谁进上下文往往变得随机。
这一部分补充的是更偏 memory system design 的视角:不只看概念本身,而是看这些机制在真实系统里应该放在哪一层、如何被组织、如何被观测。
很多人以为“查到了记忆”就万事大吉,但模型最后是按 prompt 工作的,不是按数据库工作的。真正影响输出的,是这些材料有没有被正确摆到模型眼前。
成熟系统通常会把 prompt 像工作台一样分区,而不是把所有检索结果、最近对话和约束条件胡乱拼成一大段。
长任务里,真正有用的不是把所有 action-observation 全塞进上下文,而是把和当前子目标最相关的那一小部分内容留在眼前,其余内容要么先总结,要么先放到一边。
工作记忆好不好,看的是“模型这轮有没有真的用上该用的信息”。这不只是检索质量问题,更是编排质量问题。
如果长期记忆像档案室,那工作记忆就像你此刻摊在桌面上的材料。档案室里资料再多,如果桌面上摆错了顺序、遗漏了关键页,实际做决定时还是会出错。
看记忆底层表示如何承接不同信息类型
看什么信息被允许沉淀为长期记忆