2026 年 5 月 · 10 分钟阅读 · Fran Olivares,OlivaresAI 创始人
仅持久记忆库本身什么也做不了。它必须被查询、评分,并塑形为适合模型上下文窗口的系统提示,然后下一条用户消息才会到来。那一步——上下文组装——是「我们有一个记忆数据库」和「AI 记得」之间的差异。本指南是 /docs/context-assembly 技术参考的长篇配套,讲解管线的每个阶段、Alma 默认使用的数字以及你可以调整的权衡。
因为模型只看到提示中的内容。一个有一万条条目的记忆库对模型来说是不可见的,除非有东西为本轮选出正确的三十条。如果选择错误,模型会错过相关事实并产出通用回答。如果选择过宽,提示会超出上下文窗口,或在噪声上浪费 tokens。组装是看门人——一个用户从未看到的安静步骤,但「AI 记得」的整体感受都依赖于它的质量。
组装也要满足严格的延迟预算。用户在等待;高于约 100 ms 的任何东西,在模型流式输出第一个 token 之前就开始让人感觉迟钝。这就是为什么组装依赖索引搜索而非全表扫描、为什么评分是加权和(而非 LLM 调用)、为什么每层 token 预算是预先计算的而非动态协商的。
在所有三个记忆层——记忆、情景、流程——上进行混合搜索,同时使用关键词和语义信号。用户的查询用索引记忆库时所用的同一模型(Alma 默认配置为 bge-m3 1024 维)进行嵌入,该嵌入在向量索引上运行以浮现语义相似的条目。并行地,关键词搜索在关系索引上运行,捕获语义搜索有时会错过的精确匹配(专有名词、代码标识符、罕见的技术术语)。
两个结果集合并、去重,并限制在候选预算内(默认每层 100 条——底层向量索引每次查询所支持的最大值)。候选池就是流入评分的内容;此阶段之后没有任何东西能挽救搜索未浮现的条目。
在生产评分函数中,五个信号按以下权重加权:
权重经过有意调优:相关性占主导,但在相关性平局时(在密集记忆库中经常发生)次级信号才重要。代码库中这些权重是不可侵犯的不变量——修改需要 A/B 基准,因为「AI 是否记住了正确的事」的用户感知质量恰好取决于这一组合。
每层(记忆、情景、流程、Soul 区块)都有自己的 token 预算。默认值:记忆约 2 K tokens,情景约 1 K,流程约 500,Soul 区块约 500。总计约 4 K——远低于任何现代模型的上下文窗口,小到足以保持缓存友好。在每层内,评分后的条目按排序顺序添加,直到预算用尽。
预算的存在有两个原因。第一,如果你把模型的有效上下文塞到一定密度以上,它就会缩小——100K-token 提示底部的相关内容对注意力模式来说事实上是不可见的。第二,提示缓存只有在缓存的前缀稳定时才有效;用低信号记忆撑大提示会破坏缓存,使每轮都为全价 tokens 付费。紧凑的预算让质量和经济性都保持一致。
一个结构化的系统提示,包含五个部分(按此顺序):身份(渲染为 XML 的活跃 Soul 区块)、偏好(标记为偏好的高重要性记忆条目)、相关事实(此次查询的最高得分记忆)、近期上下文(最高得分情景)、工作流(最高得分流程)。结构很重要:把身份放在顶部意味着它获得完整注意力;把工作流放在底部意味着仅在模型判定查询是程序性时才查阅它们。
然后将用户消息作为下一轮附加。模型接收组装好的提示 + 用户消息并产生响应。从用户视角看,AI 只是回答了。在幕后,组装悄悄查阅了数千条记忆,并向模型展示了正确的三十条。
在 Alma 的生产部署中,典型用户(几百条记忆、十几个情景)的端到端组装延迟在 30-80 ms 范围内。向量搜索占主导(约 20-40 ms),关键词搜索并行运行(约 5-10 ms),评分是个位数 ms,提示构建几乎不占成本。即便对于拥有数千条记忆的用户,100 ms 目标也能宽裕达成——候选上限和层级预算让工作量随记忆库增长而受限。
在评分之前,候选池上的矛盾检测遍历会标记 0.75-0.92 相似度范围内语义冲突的对。较新的条目默认获胜;较旧的被标记为被取代,并从此轮的候选集合中移除(并在下次合并遍历中全局移除)。这防止模型同时收到「你说 X」和「你说非 X」,并即兴合成用户从未同意的内容。
完整生命周期(去重、取代、衰减)记录在完整持久记忆指南中;组装只是这些生命周期决策在查询时出现的地方。
架构上相似(两者都检索、都排序、都注入提示)但语料库和生命周期不同。RAG 从一次撰写、按计划重新索引的外部文档语料库中检索;条目通常不演化。记忆组装则从用户自己持续增长的库中检索,条目会矛盾、合并和衰减。评分权重也不同——RAG 主要按相似度和文档权威排序;记忆组装更看重重要性、新近度和频次,因为这些信号在库是个人化时更重要。请在持久记忆与 RAG中查看更深入的比较。
可以。POST /api/v1/context/assemble 端点接受对每层预算、最小评分阈值、候选上限以及类别标签提升权重的覆盖(因此 PM 代理可以提升决策,写作者代理可以提升声音规则)。大多数团队保持默认值——它们经过调优以开箱即用——但杠杆为专门垂直行业而存在。
在 alma.olivares.ai 开始,填充关于你关心的某个项目的二三十条记忆,然后开始一段聊天。模型在新对话中的第一个响应将引用你记忆库中的具体事实——那就是组装,只是隐藏在面向用户的聊天背后。对于直接集成的开发者:REST API 暴露原始组装好的提示,以便你可以检视每次查询究竟选择了什么。
相关阅读:上下文组装技术参考 · 三层记忆架构 · AI 持久记忆:2026 完整指南 · 持久记忆与 RAG · Soul Engine 详解。