2026 年 5 月 · 9 分钟阅读 · Fran Olivares,OlivaresAI 创始人
搜索流量和开发者讨论常将两者混淆,因为两者都在 2024-2025 年作为让 AI「更有能力」的方法出现,但它们扩展的维度是正交的。本指南讲解每一项实际做什么、各自回答什么问题,以及组合它们的架构,以便你为正在构建的代理选择正确的工具——或正确的组合。
Computer Use 是 Claude API 的一项能力,模型接收桌面或浏览器的截图,并以结构化工具调用响应,描述要执行的动作:将鼠标移到 (x, y)、点击、输入一个字符串、再截图一次。应用循环在真实(或虚拟化)机器上执行这些动作,并将下一张截图反馈回来。模型实际上是在像人一样驱动计算机——通过像素、点击和按键——而不是通过 API。
这解锁了过去若没有自定义集成或人在回路中就不可能的任务:在没有 API 的遗留 SaaS 中填写表单、导航内部工具、抓取受保护的仪表板、网页应用的端到端 QA、「帮我报税」工作流、跨三个不同网站的多步研究。代价是延迟(每一轮都是一次截图往返)、成本(图像输入 tokens 加得很快)以及可靠性(模型偶尔会在密集 UI 上点错地方)。
Alma 是在每次 AI 会话中保留事实、偏好、决策和对话上下文的层——使助手作为一个连续的协作者运作,而不是在每轮重置。记忆是有类型且结构化的(偏好、决策、项目笔记、身份规则),通过向量 embeddings 进行语义索引,并通过 Alma 的上下文组装在 100 ms 内组装到每次新对话的系统提示中。
与 Computer Use 不同,Alma 不在世界上行动。它不点击、输入、滚动或导航。它做的是让你使用的任何模型——Claude、ChatGPT、Gemini、你的自定义代理——意识到用户是谁以及之前决定了什么的一个连贯长弧。请在AI 持久记忆:2026 完整指南中阅读深入分析。
两个原因。第一,两者都以「让 AI 更有能力」作为头条上线,这将每个能力维度都坍缩到一个搜索框中。第二,两者底层都依赖工具使用——Computer Use 暴露计算机控制工具,Alma 暴露记忆控制工具——因此从开发者集成的角度看,API 表面看起来表面上相似(系统提示 + 工具 + 循环)。在底层,失败模式、延迟特征和价值主张完全不同。
最简洁的心智模型:Computer Use 是关于做。持久记忆是关于知道。一个能做但不知道的代理会在每次会话中重复相同的设置步骤。一个知道但无法做的代理可以建议但不能执行。一个真正的生产代理通常两者都需要。
当工作发生在模型无法通过 API 触及的界面内时,使用 Computer Use。具体例子:在遗留企业软件中填写时间表、从供应商门户下载报告、在桌面应用内操作电子表格、导航有意没有公共 API 的 SaaS、跨多个浏览器标签运行复杂点击序列。如果用户请求中的一句话是「去 X 网站,点击 Y,复制值,粘贴到 Z」,那就是 Computer Use 的领地。
不应使用它的时候:任何有真实 API 的东西。直接调用 GitHub API 比让 Claude 登录 GitHub 仪表板并到处点击要快得多、便宜得多、可靠得多。Computer Use 是为没有正式集成的长尾工具准备的兜底方案,而不是对那些有集成的工具的首选路径。
每当用户希望 AI 像一个记得过去对话、偏好和决策的同事一样行事——而不是每次都从空白开始时,使用持久记忆。具体例子:一个记住你技术栈、linter 规则、你上周做出的架构决策、你团队上个 sprint 同意的规范的编程副驾驶。一个记住你声音、受众和项目工作标题的写作助手。一个跨天追踪利益相关者、SLA 和风险的项目管理代理。请在使用 Claude API 和持久记忆构建 PM 代理中查看完整分解。
不应使用它的时候:没有什么值得记住的一次性事务性查询。「澳大利亚的首都是什么?」按定义就是无状态的。持久记忆有开销——即便是少量开销——只有当有一个长弧值得记住时它才有回报。
能——这正是 2026 年最有趣的代理架构所在之处。模式很简单:持久记忆保存长期上下文(这个用户是谁、他们跨会话试图做什么、上次我们达成了什么共识),而 Computer Use 是当下一个具体动作需要与 UI 交互时代理伸手去拿的工具。记忆层告知系统提示;Computer Use 循环在被告知的上下文中执行具体任务。
一个有效的例子:一个个人「帮我处理行政事务」的代理。持久记忆保存用户的银行、税号、定期供应商、月度支出类别、关于取消哪些订阅的过往决策等。当用户说「处理本月的发票」时,代理组装上下文(知道供应商、分类规则、银行),然后使用 Computer Use 登录银行门户、SaaS 计费工具和会计的网页应用,执行多步骤工作流。没有记忆,代理每月都会重新询问每个细节。没有 Computer Use,代理只能描述要做什么,而不能去做。
三层,自上而下:
POST /api/v1/context/assemble 以构建一个由相关记忆、情景、流程和 Soul 区块所丰富的系统提示。LLM 调用之后,调用 POST /api/v1/memories/extract 以从对话中挖掘新事实。记忆层独立于 LLM 供应商——与 Claude、GPT 或 Gemini 一样工作。computer_use_20250124 工具定义。每一轮,模型接收组装好的系统提示 + 用户的请求 + 最新截图(如果先前的 Computer Use 调用返回了一张)。它要么用文本响应,要么用结构化工具调用响应(computer.screenshot、computer.click、computer.type 等)。记忆和 Computer Use 循环不干扰彼此。它们是代理可挑选的独立工具。记忆层让代理更聪明;Computer Use 让代理能够完成工作。
记忆便宜且快速。上下文组装约 30-80 ms,每千次调用几美分。Computer Use 昂贵且缓慢——图像输入 tokens 主导成本,每轮都等待一张截图。一个典型的 Computer Use 任务是 10-30 轮,每轮回流约 2-5 秒。一个 2 分钟的 Computer Use 任务可能花费 $0.10-$0.50 的 API 费用;一个 10 分钟的可能超过 $1。
实际含义:设计代理时让记忆为已知内容承担重活,Computer Use 保留给真正需要 UI 交互的部分。如果代理伸手用 Computer Use 查找记忆中已有的数据,你就在为一个几美分的查询支付截图费率。架构应当始终优先记忆回忆而非重新发现。
不是。Alma 构建在 Anthropic 的 API 之上——Claude 是驱动聊天、提取、Alma 网页应用内助手、写作工具、代理循环的 LLM。Alma 是让 Anthropic 的模型在被个人或团队大规模使用时更有用的记忆层。Computer Use 是 Anthropic 的另一项能力,与记忆互补。正确的框架是 Alma + Anthropic Claude(带或不带 Computer Use)是一个技术栈,而非对比。
如果你的兴趣在记忆:在 alma.olivares.ai 开始,在 Claude Desktop 中安装 MCP server,你将在五分钟内拥有持久记忆——参见如何将 MCP 用于 AI 记忆:5 分钟设置。如果你的兴趣在 Computer Use:它由 Anthropic 控制,在 Claude API 的 beta 头之后;他们的文档会带你完成设置。如果你正在构建两者:先原型化记忆(集成更简单,且价值在每次会话中复利),然后在其上叠加 Computer Use,用于代理需要执行的具体动作。
相关阅读:AI 持久记忆:2026 完整指南 · 使用 Claude API 和持久记忆构建 PM 代理 · 三层记忆架构 · Alma 对比 Claude Memory · Alma REST API。