Mai 2026 · 9 Min. Lesezeit · Fran Olivares, Gründer von OlivaresAI
Suchverkehr und Entwicklergespräche vermischen die beiden oft, weil beide 2024-2025 als Wege auftauchten, KI „leistungsfähiger" zu machen, aber die Dimensionen, die sie erweitern, sind orthogonal. Dieser Leitfaden zeigt, was jede der beiden tatsächlich tut, welche Fragen jede beantwortet und welche Architekturen sie kombinieren, sodass Sie das richtige Tool wählen können — oder das richtige Paar — für den Agenten, den Sie bauen.
Computer Use ist eine Fähigkeit der Claude API, bei der das Modell Screenshots eines Desktops oder Browsers empfängt und mit strukturierten Tool-Aufrufen antwortet, die Aktionen beschreiben: Maus zu (x, y) bewegen, klicken, einen String tippen, einen weiteren Screenshot machen. Die Anwendungs-Schleife führt diese Aktionen auf einer realen (oder virtualisierten) Maschine aus und liefert den nächsten Screenshot zurück. Das Modell steuert effektiv einen Computer auf dieselbe Weise, wie es ein Mensch tun würde — über Pixel, Klicks und Tastenanschläge — statt über APIs.
Das schaltet Aufgaben frei, die zuvor ohne entweder eine eigene Integration oder einen Menschen im Loop unmöglich waren: Formulare in Legacy-SaaS ohne API ausfüllen, durch interne Tools navigieren, geschützte Dashboards scrapen, End-to-End-QA einer Web-App, „Mach meine Steuer"-Workflows, mehrstufige Recherche über drei verschiedene Sites hinweg. Der Trade-off sind Latenz (jeder Zug ist ein Screenshot-Roundtrip), Kosten (Bild-Input-Tokens summieren sich schnell) und Zuverlässigkeit (das Modell klickt gelegentlich auf das Falsche bei dichten UIs).
Alma ist die Schicht, die Fakten, Präferenzen, Entscheidungen und Konversationskontext über jede KI-Sitzung hinweg bewahrt — sodass sich der Assistent wie ein durchgehender Mitarbeiter verhält, statt bei jedem Zug zurückgesetzt zu werden. Erinnerungen sind typisiert und strukturiert (Präferenzen, Entscheidungen, Projektnotizen, Identitätsregeln), semantisch mit Vektor-Embeddings indexiert und in unter 100 ms über Almas Kontext-Assemblierung in den System-Prompt jeder neuen Konversation eingespeist.
Im Gegensatz zu Computer Use wirkt Alma nicht auf die Welt ein. Es klickt nicht, tippt nicht, scrollt nicht und navigiert nicht. Was es tut, ist, dem Modell, das Sie nutzen — Claude, ChatGPT, Gemini, Ihren eigenen Agenten — eine kohärente lange Bogenform davon bewusst zu machen, wer der Nutzer ist und was bereits entschieden wurde. Lesen Sie den tiefen Einblick in Persistenter Speicher für KI: Vollständiger Leitfaden 2026.
Zwei Gründe. Erstens werden beide mit der Schlagzeile „mache KI leistungsfähiger" ausgeliefert, was jede Dimension von Fähigkeit in einem Suchfeld zusammenkollabiert. Zweitens stützen sich beide unter der Haube auf Tool-Use — Computer Use stellt Computer-Steuerungs-Tools bereit, Alma stellt Memory-Steuerungs-Tools bereit — sodass die API-Oberfläche aus Sicht der Entwicklerintegration oberflächlich ähnlich aussieht (System-Prompt + Tools + Loop). Darunter sind die Fehlermodi, Latenzprofile und Wertversprechen vollständig unterschiedlich.
Das sauberste Mentalmodell: Computer Use geht es um Tun. Persistenter Speicher geht es um Wissen. Ein Agent, der tun kann, ohne zu wissen, wiederholt in jeder Sitzung dieselben Setup-Schritte. Ein Agent, der weiß, ohne tun zu können, kann beraten, aber nicht ausführen. Ein echter Produktivagent braucht oft beides.
Nutzen Sie Computer Use, wenn die Arbeit in einer Oberfläche stattfindet, die das Modell nicht per API erreichen kann. Konkrete Beispiele: Stundenzettel in Legacy-Enterprise-Software ausfüllen, Berichte von einem Vendor-Portal herunterladen, eine Tabelle innerhalb einer Desktop-App manipulieren, durch eine SaaS navigieren, die absichtlich keine öffentliche API hat, eine komplexe Sequenz von Klicks über mehrere Browser-Tabs hinweg ausführen. Wenn ein Satz in der Nutzeranfrage „geh zu Site X, klick Y, kopier den Wert, füg ihn in Z ein" ist, ist das Computer-Use-Territorium.
Wann es NICHT zu nutzen: alles, was eine echte API hat. Die GitHub-API direkt aufzurufen ist dramatisch schneller, günstiger und zuverlässiger, als Claude zu bitten, sich ins GitHub-Dashboard einzuloggen und herumzuklicken. Computer Use ist der Fallback für den langen Schwanz von Tools ohne ordentliche Integrationen, nicht der primäre Pfad für die, die welche haben.
Nutzen Sie persistenten Speicher, wann immer der Nutzer möchte, dass sich die KI wie ein Kollege verhält, der sich an frühere Konversationen, Präferenzen und Entscheidungen erinnert — statt jedes Mal von einer leeren Tafel zu starten. Konkrete Beispiele: ein Coding-Copilot, der sich an Ihren Stack erinnert, an Ihre Linter-Regeln, die architektonischen Entscheidungen, die Sie letzte Woche getroffen haben, die Konventionen, auf die sich Ihr Team letzten Sprint geeinigt hat. Ein Schreibassistent, der sich an Ihre Stimme, Ihre Zielgruppe und die Arbeitstitel Ihrer Projekte erinnert. Ein Projektmanagement-Agent, der Stakeholder, SLAs und Risiken über Tage hinweg verfolgt. Siehe die vollständige Aufschlüsselung in Einen PM-Agenten mit Claude API und persistentem Speicher bauen.
Wann es NICHT zu nutzen: einmalige transaktionale Anfragen, bei denen es nichts gibt, woran zu erinnern wäre. „Was ist die Hauptstadt Australiens?" ist per Definition zustandslos. Persistenter Speicher hat Overhead — wenn auch kleinen Overhead — und er zahlt sich nur aus, wenn es einen langen Bogen an Arbeit gibt, woran man sich erinnern müsste.
Ja — und hier sitzen die interessantesten Agenten-Architekturen 2026. Das Pattern ist geradlinig: persistenter Speicher hält den langlebigen Kontext (wer ist dieser Nutzer, was versucht er sitzungsübergreifend zu erreichen, was haben wir letztes Mal vereinbart), und Computer Use ist das Tool, zu dem der Agent greift, wenn die nächste konkrete Aktion eine Interaktion mit einer UI erfordert. Die Speicherschicht informiert den System-Prompt; die Computer-Use-Schleife führt spezifische Aufgaben innerhalb dieses informierten Kontexts aus.
Ein durchgearbeitetes Beispiel: ein persönlicher „Erledige meinen Papierkram"-Agent. Persistenter Speicher hält die Bank des Nutzers, die Steuer-ID, wiederkehrende Anbieter, monatliche Ausgabenkategorien, frühere Entscheidungen, welche Abonnements zu kündigen sind usw. Wenn der Nutzer sagt „verarbeite die Rechnungen dieses Monats", assembliert der Agent den Kontext (kennt die Anbieter, die Kategorisierungsregeln, die Bank) und nutzt dann Computer Use, um sich ins Bankportal, das SaaS-Abrechnungstool und die Web-App des Buchhalters einzuloggen, um den mehrstufigen Workflow zu erledigen. Ohne Speicher fragt der Agent jeden Monat jedes Detail neu. Ohne Computer Use kann der Agent nur beschreiben, was zu tun ist, es aber nicht tun.
Drei Schichten, von oben nach unten:
POST /api/v1/context/assemble auf, um einen mit relevanten Memories, Episodes, Procedures und Soul-Blöcken angereicherten System-Prompt aufzubauen. Rufen Sie nach dem LLM-Aufruf POST /api/v1/memories/extract auf, um neue Fakten aus der Konversation zu gewinnen. Die Speicherschicht ist unabhängig vom LLM-Anbieter — sie funktioniert gleich mit Claude, GPT oder Gemini.computer_use_20250124-Tool-Definition. Pro Zug empfängt das Modell den assemblierten System-Prompt + die Anfrage des Nutzers + den neuesten Screenshot (falls ein vorheriger Computer-Use-Aufruf einen zurückgegeben hat). Es antwortet entweder mit Text oder mit einem strukturierten Tool-Aufruf (computer.screenshot, computer.click, computer.type usw.).Die Memory- und Computer-Use-Schleifen stören sich nicht. Sie sind unabhängige Tools, aus denen der Agent wählt. Die Speicherschicht macht den Agenten klüger; Computer Use macht den Agenten fähig, die Arbeit zu beenden.
Speicher ist günstig und schnell. Kontext-Assemblierung dauert ~30-80 ms und kostet ein paar Cent pro tausend Aufrufen. Computer Use ist teuer und langsam — Bild-Input-Tokens dominieren die Kosten, und jeder Zug wartet auf einen Screenshot. Eine typische Computer-Use-Aufgabe sind 10-30 Züge, jeder Zug streamt ~2-5 Sekunden zurück. Eine 2-Minuten-Computer-Use-Aufgabe könnte $0,10-$0,50 an API-Gebühren kosten; eine 10-Minuten-Aufgabe kann $1 überschreiten.
Praktische Implikation: Gestalten Sie den Agenten so, dass der Speicher die Hauptarbeit bei dem leistet, was bereits bekannt ist, und Computer Use für die Teile reserviert ist, die wirklich UI-Interaktion erfordern. Wenn der Agent zu Computer Use greift, um Daten nachzuschlagen, die im Speicher sind, bezahlen Sie Screenshot-Raten für eine Cent-Raten-Anfrage. Die Architektur sollte stets Memory-Recall der Wiederentdeckung vorziehen.
Nein. Alma ist auf Anthropics API aufgebaut — Claude ist das LLM, das Chat, Extraktion, den Assistenten innerhalb der Alma-Web-App, die Schreibtools, die Agenten-Loops antreibt. Alma ist die Speicherschicht, die Anthropics Modelle nützlicher macht, wenn sie maßstabsweit von Einzelpersonen oder Teams genutzt werden. Computer Use ist eine der anderen Fähigkeiten von Anthropic, komplementär zum Speicher. Die richtige Rahmung ist, dass Alma + Anthropic Claude (mit oder ohne Computer Use) ein Stack ist, kein Versus-Vergleich.
Wenn Ihr Interesse beim Speicher liegt: Starten Sie unter alma.olivares.ai, installieren Sie den MCP-Server in Claude Desktop, und Sie haben persistenten Speicher in fünf Minuten — siehe Wie man MCP für KI-Speicher nutzt: 5-Minuten-Setup. Wenn Ihr Interesse bei Computer Use liegt: Es ist von Anthropic gated und liegt hinter einem Beta-Header der Claude API; deren Dokumentation führt durch das Setup. Wenn Sie beides bauen: Prototypisieren Sie zuerst Speicher (die Integration ist einfacher, und der Wert vervielfacht sich über jede Sitzung), dann legen Sie Computer Use darüber für die spezifischen Aktionen, die der Agent ausführen muss.
Verwandte Lektüre: Persistenter Speicher für KI: Vollständiger Leitfaden 2026 · Einen PM-Agenten mit Claude API und persistentem Speicher bauen · Dreistufige Speicherarchitektur · Alma vs. Claude Memory Vergleich · Alma REST API.