AI 记忆系统中的上下文组装是什么?

上下文组装是支持记忆的 AI 为下一条用户消息构建系统提示的步骤:它通过跨记忆层的混合搜索检索候选项,按相关性、重要性、新近度、频次和置信度的加权组合对它们评分,将排名最高的条目放入每层 token 预算中,并在 100 ms 内将结构化提示返回给模型。

上下文组装与 RAG 有何不同?

架构上相似但语料库和生命周期不同。RAG 从一次撰写、定期重新索引的外部文档语料库中检索。记忆组装则从用户自己持续增长的库中检索,条目会矛盾、合并和衰减。评分权重也不同——记忆更看重重要性、新近度和频次,因为它们在库是个人化时更重要。

我可以调优组装权重或预算吗?

可以。/context/assemble 端点接受对每层预算、最小评分阈值、候选上限和类别提升权重的覆盖。大多数团队保持默认值;杠杆为专门垂直行业(如项目管理或写作)而存在,分别提升决策或声音规则可获得更好的召回。

上下文组装详解:AI 如何从记忆构建智能提示

Q: 实际中上下文组装有多快?

典型用户(几百条记忆、十几个情景)的端到端组装延迟在 30-80 ms 范围内。向量搜索占主导,20-40 ms;关键词搜索并行运行,5-10 ms;评分和提示构建是个位数 ms。即便对于拥有数千条记忆的用户,得益于候选上限和层级预算,100 ms 目标也能保持。

2026 年 5 月 · 10 分钟阅读 · Fran Olivares,OlivaresAI 创始人

上下文组装是支持记忆的 AI 为下一条用户消息构建系统提示的步骤:它在记忆库上运行混合关键词 + 语义搜索,按相关性、重要性、新近度、频次和置信度的加权组合对结果评分,将排名最高的条目与活跃身份区块一起放入每层 token 预算中,并将结构化上下文返回给模型——全部在 100 ms 内完成。没有它,持久记忆只是一个数据库;有了它,模型表现得就像它能记住一样,因为每一轮它面前都摆着正确的记忆切片。

仅持久记忆库本身什么也做不了。它必须被查询、评分,并塑形为适合模型上下文窗口的系统提示,然后下一条用户消息才会到来。那一步——上下文组装——是「我们有一个记忆数据库」和「AI 记得」之间的差异。本指南是 /docs/context-assembly 技术参考的长篇配套,讲解管线的每个阶段、Alma 默认使用的数字以及你可以调整的权衡。

为什么上下文组装是关键步骤?

因为模型只看到提示中的内容。一个有一万条条目的记忆库对模型来说是不可见的,除非有东西为本轮选出正确的三十条。如果选择错误,模型会错过相关事实并产出通用回答。如果选择过宽,提示会超出上下文窗口,或在噪声上浪费 tokens。组装是看门人——一个用户从未看到的安静步骤,但「AI 记得」的整体感受都依赖于它的质量。

组装也要满足严格的延迟预算。用户在等待;高于约 100 ms 的任何东西,在模型流式输出第一个 token 之前就开始让人感觉迟钝。这就是为什么组装依赖索引搜索而非全表扫描、为什么评分是加权和(而非 LLM 调用)、为什么每层 token 预算是预先计算的而非动态协商的。

组装器如何检索候选项?

在所有三个记忆层——记忆、情景、流程——上进行混合搜索,同时使用关键词和语义信号。用户的查询用索引记忆库时所用的同一模型(Alma 默认配置为 bge-m3 1024 维)进行嵌入,该嵌入在向量索引上运行以浮现语义相似的条目。并行地,关键词搜索在关系索引上运行,捕获语义搜索有时会错过的精确匹配(专有名词、代码标识符、罕见的技术术语)。

两个结果集合并、去重,并限制在候选预算内(默认每层 100 条——底层向量索引每次查询所支持的最大值)。候选池就是流入评分的内容;此阶段之后没有任何东西能挽救搜索未浮现的条目。

Alma 使用什么信号对记忆候选项评分?

在生产评分函数中,五个信号按以下权重加权:

相关性——50 %。候选项 embedding 与查询 embedding 的余弦相似度。有意占主导:在错误时间出现的正确记忆比没有记忆更糟。
重要性——15 %。用户(或提取器)在写入时分配的 0.0-1.0 分数。即便相关性处于临界,高重要性的记忆在检索中也会位居高位。
置信度——15 %。用户陈述的事实为 1.0,LLM 推断为 0.7,观察为 0.5。防止低置信度的猜测取代高置信度的事实。
新近度——10 %。衰减分数,使今天创建的记忆在平局中胜过同样相关但六个月前的记忆。防止过时数据淹没近期状态。
频次——10 %。提升经常被读取或引用的记忆。「你不断谈论的事」上升得比一次性事实更快。

权重经过有意调优:相关性占主导,但在相关性平局时(在密集记忆库中经常发生)次级信号才重要。代码库中这些权重是不可侵犯的不变量——修改需要 A/B 基准,因为「AI 是否记住了正确的事」的用户感知质量恰好取决于这一组合。

组装器如何决定什么能放进去?

每层(记忆、情景、流程、Soul 区块)都有自己的 token 预算。默认值:记忆约 2 K tokens,情景约 1 K,流程约 500,Soul 区块约 500。总计约 4 K——远低于任何现代模型的上下文窗口,小到足以保持缓存友好。在每层内,评分后的条目按排序顺序添加,直到预算用尽。

预算的存在有两个原因。第一,如果你把模型的有效上下文塞到一定密度以上,它就会缩小——100K-token 提示底部的相关内容对注意力模式来说事实上是不可见的。第二,提示缓存只有在缓存的前缀稳定时才有效;用低信号记忆撑大提示会破坏缓存,使每轮都为全价 tokens 付费。紧凑的预算让质量和经济性都保持一致。

最终组装的提示是什么样子?

一个结构化的系统提示,包含五个部分(按此顺序):身份(渲染为 XML 的活跃 Soul 区块)、偏好(标记为偏好的高重要性记忆条目)、相关事实(此次查询的最高得分记忆)、近期上下文(最高得分情景)、工作流(最高得分流程)。结构很重要:把身份放在顶部意味着它获得完整注意力;把工作流放在底部意味着仅在模型判定查询是程序性时才查阅它们。

然后将用户消息作为下一轮附加。模型接收组装好的提示 + 用户消息并产生响应。从用户视角看,AI 只是回答了。在幕后,组装悄悄查阅了数千条记忆,并向模型展示了正确的三十条。

实际中上下文组装有多快?

在 Alma 的生产部署中,典型用户(几百条记忆、十几个情景)的端到端组装延迟在 30-80 ms 范围内。向量搜索占主导(约 20-40 ms),关键词搜索并行运行(约 5-10 ms),评分是个位数 ms,提示构建几乎不占成本。即便对于拥有数千条记忆的用户,100 ms 目标也能宽裕达成——候选上限和层级预算让工作量随记忆库增长而受限。

组装器如何处理冲突记忆?

在评分之前,候选池上的矛盾检测遍历会标记 0.75-0.92 相似度范围内语义冲突的对。较新的条目默认获胜;较旧的被标记为被取代,并从此轮的候选集合中移除(并在下次合并遍历中全局移除)。这防止模型同时收到「你说 X」和「你说非 X」,并即兴合成用户从未同意的内容。

完整生命周期(去重、取代、衰减)记录在完整持久记忆指南中;组装只是这些生命周期决策在查询时出现的地方。

上下文组装和 RAG 是一回事吗?

架构上相似(两者都检索、都排序、都注入提示)但语料库和生命周期不同。RAG 从一次撰写、按计划重新索引的外部文档语料库中检索;条目通常不演化。记忆组装则从用户自己持续增长的库中检索,条目会矛盾、合并和衰减。评分权重也不同——RAG 主要按相似度和文档权威排序;记忆组装更看重重要性、新近度和频次,因为这些信号在库是个人化时更重要。请在持久记忆与 RAG中查看更深入的比较。

我可以为我的工作负载调优组装吗?

可以。POST /api/v1/context/assemble 端点接受对每层预算、最小评分阈值、候选上限以及类别标签提升权重的覆盖(因此 PM 代理可以提升决策,写作者代理可以提升声音规则)。大多数团队保持默认值——它们经过调优以开箱即用——但杠杆为专门垂直行业而存在。

如何看到上下文组装的实际效果?

在 alma.olivares.ai 开始,填充关于你关心的某个项目的二三十条记忆,然后开始一段聊天。模型在新对话中的第一个响应将引用你记忆库中的具体事实——那就是组装,只是隐藏在面向用户的聊天背后。对于直接集成的开发者:REST API 暴露原始组装好的提示,以便你可以检视每次查询究竟选择了什么。

See plans