Deduplication
识别语义重复或结构化重复,避免同一信息被多次写入。
降低长期层噪声,提高检索效率。
过度去重会误删有差异但相似的有效信息。
任何持续运行的长期记忆系统。
污染治理可以理解成代理记忆系统的“清洁和秩序”。如果长期没人整理,记忆里会越来越多重复内容、旧信息、相互矛盾的事实,最后代理虽然记得很多,却越来越不靠谱。
这一组不是“所有相关概念”,而是这个维度最核心、最值得先理解的主线。带下划线的机制可以直接点开,会弹出一个更细的解释窗。
如果只看孤立卡片,机制之间的关系会很模糊。把它们放回 pipeline 中,就能看清每一步在系统里承担什么角色,以及问题通常出在什么位置。
识别重复、冲突、过期与跨作用域污染信号。
在 user / session / task / project 等边界内隔离记忆。
对重复和冲突内容执行去重、覆盖或版本化。
通过 TTL 和 decay 降低陈旧记忆的影响力。
保留来源、时间戳和版本信息,支持回溯与纠错。
识别语义重复或结构化重复,避免同一信息被多次写入。
降低长期层噪声,提高检索效率。
过度去重会误删有差异但相似的有效信息。
任何持续运行的长期记忆系统。
当新旧记忆冲突时,决定覆盖、版本化、并存还是人工确认。
通过时间衰减、访问频次、TTL 等方式降低陈旧记忆影响力。
按 user / session / task / project / org 分层隔离记忆边界。
用户半年前喜欢某种写作风格,但现在已经明确改口。如果系统没有 decay 或版本更新,旧偏好仍然可能在检索里排第一。
用户上午在 A 项目里讨论数据库迁移,下午在 B 项目里问接口问题。如果作用域没隔离,系统可能把 A 项目的迁移状态错带进 B 项目。
这一部分补充的是更偏 memory system design 的视角:不只看概念本身,而是看这些机制在真实系统里应该放在哪一层、如何被组织、如何被观测。
污染不是某一个单独的 bug,而是一堆小问题慢慢积累出来的偏差。刚开始看不明显,时间一长就会越来越难收拾。
没有治理的 memory,前期看起来往往很聪明,因为它确实“记住了很多”。但时间一长,系统会因为记得太杂、太旧、太乱而越来越不可信。
真实系统很少只靠一种治理机制。更常见的做法,是在写入、存储、检索三个环节都加一点保护。
很多 memory 问题不是一轮就爆炸,而是积累几十轮、几百轮之后才慢慢显形。也正因为这样,治理不能只看单次检索,还要看系统会不会随着时间越跑越偏。
如果写入策略是决定“什么进档案室”,那污染治理就是决定“档案室如何一直保持有序”。否则文件会越来越多,但真正想找的东西反而越来越难找。
看什么信息被允许沉淀为长期记忆
看整套记忆最终为哪类能力服务