Computer Use 与持久记忆:何时需要动作,何时需要回忆

2026 年 5 月 · 9 分钟阅读 · Fran Olivares,OlivaresAI 创始人

Anthropic Computer Use 和 Alma 持久记忆解决不同的问题。Computer Use 让模型在屏幕上执行动作——点击、输入、导航应用。Alma 保留一个长期存活的事实、偏好、决策和流程库,使模型在每次会话中行为一致。它们不是竞争者;最有用的代理同时使用两者——Computer Use 在世界上行动,持久记忆记住上次决定的「为什么」和「什么」。

搜索流量和开发者讨论常将两者混淆,因为两者都在 2024-2025 年作为让 AI「更有能力」的方法出现,但它们扩展的维度是正交的。本指南讲解每一项实际做什么、各自回答什么问题,以及组合它们的架构,以便你为正在构建的代理选择正确的工具——或正确的组合。

Anthropic Computer Use 实际做什么?

Computer Use 是 Claude API 的一项能力,模型接收桌面或浏览器的截图,并以结构化工具调用响应,描述要执行的动作:将鼠标移到 (x, y)、点击、输入一个字符串、再截图一次。应用循环在真实(或虚拟化)机器上执行这些动作,并将下一张截图反馈回来。模型实际上是在像人一样驱动计算机——通过像素、点击和按键——而不是通过 API。

这解锁了过去若没有自定义集成或人在回路中就不可能的任务:在没有 API 的遗留 SaaS 中填写表单、导航内部工具、抓取受保护的仪表板、网页应用的端到端 QA、「帮我报税」工作流、跨三个不同网站的多步研究。代价是延迟(每一轮都是一次截图往返)、成本(图像输入 tokens 加得很快)以及可靠性(模型偶尔会在密集 UI 上点错地方)。

Alma 持久记忆实际做什么?

Alma 是在每次 AI 会话中保留事实、偏好、决策和对话上下文的层——使助手作为一个连续的协作者运作,而不是在每轮重置。记忆是有类型且结构化的(偏好、决策、项目笔记、身份规则),通过向量 embeddings 进行语义索引,并通过 Alma 的上下文组装在 100 ms 内组装到每次新对话的系统提示中。

与 Computer Use 不同,Alma 不在世界上行动。它不点击、输入、滚动或导航。它做的是让你使用的任何模型——Claude、ChatGPT、Gemini、你的自定义代理——意识到用户是谁以及之前决定了什么的一个连贯长弧。请在AI 持久记忆:2026 完整指南中阅读深入分析。

为什么它们会被混淆?

两个原因。第一,两者都以「让 AI 更有能力」作为头条上线,这将每个能力维度都坍缩到一个搜索框中。第二,两者底层都依赖工具使用——Computer Use 暴露计算机控制工具,Alma 暴露记忆控制工具——因此从开发者集成的角度看,API 表面看起来表面上相似(系统提示 + 工具 + 循环)。在底层,失败模式、延迟特征和价值主张完全不同。

最简洁的心智模型:Computer Use 是关于。持久记忆是关于知道。一个能做但不知道的代理会在每次会话中重复相同的设置步骤。一个知道但无法做的代理可以建议但不能执行。一个真正的生产代理通常两者都需要。

什么时候你特别需要 Computer Use?

当工作发生在模型无法通过 API 触及的界面内时,使用 Computer Use。具体例子:在遗留企业软件中填写时间表、从供应商门户下载报告、在桌面应用内操作电子表格、导航有意没有公共 API 的 SaaS、跨多个浏览器标签运行复杂点击序列。如果用户请求中的一句话是「去 X 网站,点击 Y,复制值,粘贴到 Z」,那就是 Computer Use 的领地。

不应使用它的时候:任何有真实 API 的东西。直接调用 GitHub API 比让 Claude 登录 GitHub 仪表板并到处点击要快得多、便宜得多、可靠得多。Computer Use 是为没有正式集成的长尾工具准备的兜底方案,而不是对那些有集成的工具的首选路径。

什么时候你特别需要持久记忆?

每当用户希望 AI 像一个记得过去对话、偏好和决策的同事一样行事——而不是每次都从空白开始时,使用持久记忆。具体例子:一个记住你技术栈、linter 规则、你上周做出的架构决策、你团队上个 sprint 同意的规范的编程副驾驶。一个记住你声音、受众和项目工作标题的写作助手。一个跨天追踪利益相关者、SLA 和风险的项目管理代理。请在使用 Claude API 和持久记忆构建 PM 代理中查看完整分解。

不应使用它的时候:没有什么值得记住的一次性事务性查询。「澳大利亚的首都是什么?」按定义就是无状态的。持久记忆有开销——即便是少量开销——只有当有一个长弧值得记住时它才有回报。

你能在一个代理中组合它们吗?

能——这正是 2026 年最有趣的代理架构所在之处。模式很简单:持久记忆保存长期上下文(这个用户是谁、他们跨会话试图做什么、上次我们达成了什么共识),而 Computer Use 是当下一个具体动作需要与 UI 交互时代理伸手去拿的工具。记忆层告知系统提示;Computer Use 循环在被告知的上下文中执行具体任务。

一个有效的例子:一个个人「帮我处理行政事务」的代理。持久记忆保存用户的银行、税号、定期供应商、月度支出类别、关于取消哪些订阅的过往决策等。当用户说「处理本月的发票」时,代理组装上下文(知道供应商、分类规则、银行),然后使用 Computer Use 登录银行门户、SaaS 计费工具和会计的网页应用,执行多步骤工作流。没有记忆,代理每月都会重新询问每个细节。没有 Computer Use,代理只能描述要做什么,而不能去做。

如何架构一个同时使用两者的代理?

三层,自上而下:

记忆和 Computer Use 循环不干扰彼此。它们是代理可挑选的独立工具。记忆层让代理更聪明;Computer Use 让代理能够完成工作。

组合代理中的成本和延迟如何?

记忆便宜且快速。上下文组装约 30-80 ms,每千次调用几美分。Computer Use 昂贵且缓慢——图像输入 tokens 主导成本,每轮都等待一张截图。一个典型的 Computer Use 任务是 10-30 轮,每轮回流约 2-5 秒。一个 2 分钟的 Computer Use 任务可能花费 $0.10-$0.50 的 API 费用;一个 10 分钟的可能超过 $1。

实际含义:设计代理时让记忆为已知内容承担重活,Computer Use 保留给真正需要 UI 交互的部分。如果代理伸手用 Computer Use 查找记忆中已有的数据,你就在为一个几美分的查询支付截图费率。架构应当始终优先记忆回忆而非重新发现。

Alma 是 Anthropic 的竞争者吗?

不是。Alma 构建在 Anthropic 的 API 之上——Claude 是驱动聊天、提取、Alma 网页应用内助手、写作工具、代理循环的 LLM。Alma 是让 Anthropic 的模型在被个人或团队大规模使用时更有用的记忆层。Computer Use 是 Anthropic 的另一项能力,与记忆互补。正确的框架是 Alma + Anthropic Claude(带或不带 Computer Use)是一个技术栈,而非对比。

如何开始实验?

如果你的兴趣在记忆:在 alma.olivares.ai 开始,在 Claude Desktop 中安装 MCP server,你将在五分钟内拥有持久记忆——参见如何将 MCP 用于 AI 记忆:5 分钟设置。如果你的兴趣在 Computer Use:它由 Anthropic 控制,在 Claude API 的 beta 头之后;他们的文档会带你完成设置。如果你正在构建两者:先原型化记忆(集成更简单,且价值在每次会话中复利),然后在其上叠加 Computer Use,用于代理需要执行的具体动作。

相关阅读:AI 持久记忆:2026 完整指南 · 使用 Claude API 和持久记忆构建 PM 代理 · 三层记忆架构 · Alma 对比 Claude Memory · Alma REST API

See plans