使用 Claude API 和持久记忆构建 PM 代理

2026 年 5 月 · 11 分钟阅读 · Fran Olivares,OlivaresAI 创始人

基于 Claude API 和 Alma 持久记忆构建的项目管理代理跨天和跨周追踪利益相关者、决策、SLA 和站会笔记,而不丢失上下文。架构由四部分组成:一个 Claude 对话循环、一个按项目实体键控的记忆库、一个从每次聊天中提取结构化记录的提取器,以及一个将正确切片注入每个提示的上下文组装器。持久记忆将 Claude 从一个聪明的草拟工具转变为一个记得团队上周二决定了什么的代理。

项目管理大多是记忆工作。谁负责这条线?我们就迁移窗口达成了什么共识?为什么我们把限流器去除范围?什么时候法律审查会阻塞发布?每天早上必须重新询问这些问题的代理不是代理——它只是一个稍快的实习生。改变这一点的方法是给模型一个持久记忆层,它可以在轮次之间读写,并由对话自动填充。本指南讲解参考架构和集成代码,使用 Anthropic Claude API 作为 LLM,使用 Alma REST API 作为记忆层。

为什么 PM 代理特别需要持久记忆?

三个结构性原因。第一,PM 追踪的实体(人员、决策、可交付物、SLA、风险)本身就是长期存在的——它们按定义就比任何单次对话更长寿。第二,对话风格是高频且低投入:简短的站会消息、快速澄清、「我们就 X 说了什么?」这类问题。便宜地加载正确的上下文切片很重要。第三,遗忘的代价很高:漏掉的决策会变成漏掉的发布,被遗忘的依赖会成为阻塞项。

无状态的 Claude 对话能很好地处理单次规划会议。用户想要连续性时(「昨天我们同意…」、「本周阻塞 auth 团队的是什么?」),对话必须要么将完整历史重放进上下文窗口(昂贵,最终不可能),要么依赖模型之外的记忆层。

参考架构是什么样子?

四个活动部件:

如何为 PM 代理构建记忆类别?

五个类别覆盖大多数团队:stakeholder(带角色 + 职责的人员)、decision(达成什么、何时、由谁、附理由)、sla(对其他团队或客户的承诺)、risk(带负责人 + 缓解措施的未决问题)、milestone(目标日期 + 范围 + 状态)。每条记忆带有重要性评分,以便组装器在检索中优先考虑高风险项。

类别不仅用于组织——它是检索信号的一部分。当用户问「我们决定了什么?」时,组装器对 decision 类别的记忆赋予更高权重。当他们问「谁被阻塞了?」时,risk 类别的记忆排名上升。Alma 的上下文组装正是为此暴露了每类别提升权重。

实际代码中的集成循环是什么?

每条用户消息三个阶段。下面的伪代码使用 Node.js 配 Alma SDK 和 Anthropic SDK,但相同形状在 Python 或任何其他技术栈中都能工作:

阶段 3 在后台运行——用户立即看到流式响应,提取在接下来的约 1 s 内进行,不阻塞。新记忆被去重,矛盾与现有条目进行检测,库自动保持干净。完整 SDK 参考:@olivaresai/alma-sdk;HTTP 等效项见 REST API 文档

代理如何处理多项目隔离?

使用 Alma 环境:每个项目一个环境。每个环境拥有自己的记忆、情景、流程和 Soul 区块,与其他环境完全隔离。代理在每次记忆调用上传递 environmentId;API 强制执行边界。在没有显式环境切换的情况下根本不可能进行跨项目查询——这正是 PM 工具的正确默认值,因为将项目 A 的决策泄露到项目 B 是一个真实问题。

对于团队级 PM 代理(多个人与同一代理交互),使用 Alma 的 teams 资源:每个团队都有所有成员可见的共享记忆,加上每个用户的个人偏好记忆。基于角色的访问控制控制谁可以写什么。

端到端的每日站会轮次是什么样子?

用户消息:「站会:后端团队,Maria 今天解阻塞迁移,José 在做限流器;我们决定把 GA 发布推到周五,因为法律仍在审查 DPA」。代理的流程:

需要记住的常见工作流

决策考古学。「为什么我们去除了限流器的范围?」——代理检索决策记忆加上周围情景以及它引用的风险记忆。返回答案,附记录引用,以便用户在需要时深入到对话中。

利益相关者查找。「谁负责迁移?」——直接对 stakeholder 类别进行记忆查询,返回记录。如果答案已过时(角色上周改变),矛盾检测会在下次提及新负责人的对话中捕获它。

定期报告生成。「生成本周 auth 线的状态报告」——代理组装为该线标记的情景、决策和风险的上下文窗口,然后从该策划切片起草报告。这比让 Claude 概述原始聊天历史显著更便宜、更准确。

如何在保持有根据的同时让系统提示保持小?

组装器中的默认 token 预算:记忆约 2 K tokens,情景约 1 K,流程约 500,Soul 区块约 500。总计约 4 K——远低于任何模型的上下文预算,缓存命中在对话中摊销。如果你的项目很小(<100 条活跃记忆),你可以进一步降低预算。如果它很大(10 K+ 记忆),组装器保持在约 4 K,因为即使库很大,检索也会限制包含的记录数。

两件事在运营上很重要:Soul 区块(代理的身份)应当作为稳定的系统提示前缀缓存,以便重复调用不会重新支付输入 tokens;动态上下文(记忆 + 情景)应当位于缓存断点之后,以便每次调用仅重新上传更改的部分。Anthropic 的提示缓存文档涵盖断点放置。

实际中这要花多少钱?

在典型的 PM 团队流程中(每用户每天约 20 条消息,主要是站会 + 澄清),边际成本由 LLM 调用本身主导。记忆层增加:一次组装调用(几 KB 读取 + 检索,约 30 ms)、一次提取调用(Haiku,每轮约 $0.001)。每活跃用户每天的总记忆开销:远低于一美分。与 PM 团队不丢失决策的价值相比——账自然清楚。

如何开始原型?

Alma 的 Starter 套餐($14/mo)是入门层,包含持久记忆层。在 alma.olivares.ai 注册,在设置中生成 API 密钥,并从开发者页面克隆 SDK 启动器。在你的代理代码中接入三阶段循环,将其指向一个测试项目,运行一周。库将自然从对话中填充;你将看到决策、利益相关者和风险在无人工数据录入的情况下累积。从那里只是加大类别和调优组装器。

相关阅读:AI 持久记忆:2026 完整指南 · 如何为 AI 提供持久记忆 · 三层记忆架构 · 上下文组装文档 · 环境

See plans