支持记忆的助手需要什么?

五项能力:自动提取(在没有显式「记住这个」的情况下捕获事实)、结构化存储(元数据 + embeddings,而非原始文本)、智能检索(语义 + 关键词 + 多因子评分)、上下文组装(在 token 预算内格式化正确的记忆)以及身份持久化(Soul Engine——人格、规则、专长跨会话存续)。

哪条集成路径最快?

MCP server。安装 @olivaresai/alma-mcp,将其用 API 密钥添加到你的 Claude Desktop / Cursor / Windsurf 配置中,重启——五分钟搞定。AI 无需编写任何代码即可获得用于记忆、上下文组装和 Soul Engine 的 35 个工具。

使用 JavaScript SDK(@olivaresai/alma-sdk)。标准模式:在 LLM 调用前调用 client.context.assemble({query}) 以丰富系统提示,然后在调用后调用 client.memories.extract({text}) 以保存新事实。适用于任何 LLM 供应商——Alma 保持解耦。

如果我不使用 JavaScript 呢?

直接使用 REST API。140+ 个端点覆盖每个记忆操作。关键端点:POST /context/assemble、POST /memories、GET /memories/search?mode=hybrid、POST /memories/extract、POST /blocks。X-API-Key 头——可从 Python、Go、Rust 等任何支持 HTTP 的语言使用。

构建能记住一切的 AI 助手

2026 年 4 月 · 11 分钟阅读 · Fran Olivares,OlivaresAI 创始人

通过将持久记忆视为头等架构组件而非外挂,构建支持记忆的 AI 助手。该模式需要五件事:自动提取、结构化存储、智能检索、上下文组装和身份持久化。最快的路径是 Alma MCP server(Claude Desktop / Cursor / Windsurf 仅需 5 分钟)、用于自定义应用的 JavaScript SDK 或适用于任何语言的 REST API。

大多数 AI 助手是无状态的。它们处理一个提示,生成一个响应,然后忘记一切。如果你正在构建使用 AI 的产品——编码工具、客户支持机器人、研究助手、个人导师——这种无状态是你最大的限制。你的用户将提出相同的问题、提供相同的上下文,并在 AI 每次未能记住明显事项时失去信任。本文讲解如何构建真正能够记住的 AI 助手,将持久记忆作为头等架构组件。

为什么大多数 AI 助手无法记住?

开发者初次尝试为 AI 助手添加记忆时,通常会采用两种方法之一:把所有内容塞入系统提示,或构建 RAG(检索增强生成)管线。两者都有严重的局限。

系统提示方法在规模化时失败。上下文窗口是有限的——即便是 200K tokens,你也无法包含每个相关事实、对话和偏好。而且你在每次请求中都要为系统提示中的每个 token 付费。

RAG 更好但不完整。它解决了文档检索,但没有处理 AI 记忆的完整生命周期:提取、评分、去重、合并和过期。RAG 检索文本块。记忆理解事实、偏好、决策和行为模式。这些是根本不同的问题。(参见我们的详细对比:持久记忆与 RAG。)

支持记忆的 AI 助手需要什么?

一个真正有用的具备持久记忆的 AI 助手需要五项能力:

自动提取——系统应在用户未明确保存任何内容的情况下,从对话中提取事实、偏好和决策。
结构化存储——不仅仅是文本块。记忆需要元数据:类别、重要性、置信度、来源、时间戳以及向量 embeddings。
智能检索——给定一段新对话,系统必须使用语义搜索、关键词匹配和多因子评分找到最相关的记忆。
上下文组装——检索到的记忆必须以有用且不浪费 tokens 的方式格式化并注入 AI 上下文。
身份持久化——除事实外,AI 还需要跨会话保留一致的人格、沟通风格和一组行为规则。

如何通过 Alma MCP server 添加记忆?

为 AI 助手添加持久记忆的最快方式是通过 Model Context Protocol(MCP)。如果你的助手运行在 Claude Desktop、Cursor、Windsurf 或任何兼容 MCP 的客户端中,你可以在 5 分钟内添加记忆。

全局安装该 server:npm install -g @olivaresai/alma-mcp。然后用你的 API 密钥将其添加到 MCP 客户端配置。该 server 暴露 35 个工具,包括 alma_remember(保存记忆)、alma_recall(搜索记忆)、alma_assemble(构建完整上下文)和 alma_extract(从文本中提取记忆)。

一旦连接,AI 助手自动获得对持久记忆的访问。它可以在对话期间保存重要事实,并在未来会话中检索它们。记忆存储在 Alma 的服务端——独立于 AI 模型、客户端或对话。

如何使用 JavaScript SDK 添加记忆?

对于自定义应用,JavaScript SDK(@olivaresai/alma-sdk)提供完全的编程控制。典型的集成模式如下所示:

AI 调用前——调用 client.context.assemble({ query: userMessage }) 以获取相关记忆、情景和灵魂区块,格式化为系统提示。
AI 调用中——将组装好的上下文作为系统提示传给你的 LLM 供应商(Anthropic、OpenAI 或任何其他)。
AI 调用后——调用 client.memories.extract({ text: conversation }) 以保存对话中的新事实。

此模式适用于任何 LLM 供应商。你的记忆层与模型解耦——从 Claude 切换到 GPT-4 而不丢失任何记忆。

如何通过 REST API 添加记忆?

REST API 提供 140+ 个端点,可从任何语言或平台进行完整的记忆管理。构建支持记忆的助手的关键端点:

POST /api/v1/context/assemble——从记忆、情景、流程和灵魂区块组装上下文。
POST /api/v1/memories——使用内容、类别、重要性和置信度创建记忆。
GET /api/v1/memories/search?q=query&mode=hybrid——按关键词、语义相似度或两者搜索记忆。
POST /api/v1/memories/extract——使用 LLM 分析从文本中提取记忆。
POST /api/v1/blocks——配置 AI 身份和人格的灵魂区块。

为什么身份持久化与记忆不同?

仅靠记忆是不够的。一个记住事实但没有一致人格的 AI 助手感觉机械化。Alma 的 Soul Engine 提供结构化的身份区块——不是会被埋没的单一系统提示,而是为身份、人格、专长、沟通风格、规则和上下文组织的部分。这些区块经过版本化、始终以高优先级注入,并可按环境配置。

例如:你可以定义 AI 在你的「工作」环境中应当简洁且技术性,在「学习」环境中则应对话且解释性。相同的记忆,不同的人格。这就是让 AI 助手感觉像真正的协作者而非通用聊天机器人的原因。

构建支持记忆的 AI 时常见的错误有哪些?

构建支持记忆的助手时的常见错误:

不要存储原始对话转录——它们嘈杂、冗余,搜索成本高。而是提取结构化事实。
不要在每个提示中注入所有记忆——这会浪费 tokens 并混淆模型。使用语义搜索仅选择相关上下文。
不要忽视记忆质量——没有置信度评分和去重,你的记忆会充满矛盾和噪声。
不要将记忆锁定到一个模型——用户会切换模型。团队会为不同任务使用不同模型。记忆应当与模型无关。

如何开始构建支持记忆的 AI 助手?

最快路径:在 alma.olivares.ai 注册,从设置中获取 API 密钥,并通过 MCP、SDK 或 REST API 连接。Starter 套餐($14/mo)包含完整 API 访问——足以在规模化前进行原型验证。

See plans