Maggio 2026 · lettura 9 min · Fran Olivares, Founder di OlivaresAI
Il traffico di ricerca e le chiacchiere degli sviluppatori spesso confondono i due perché entrambi sono emersi nel 2024-2025 come modi per rendere l'AI «più capace», ma le dimensioni che estendono sono ortogonali. Questa guida illustra cosa fa davvero ciascuno, le domande a cui risponde ciascuno e le architetture che li combinano in modo che Lei possa scegliere lo strumento giusto — o la coppia giusta — per l'agente che sta costruendo.
Computer Use è una capacità dell'API Claude in cui il modello riceve screenshot di un desktop o browser e risponde con chiamate di strumento strutturate che descrivono le azioni da compiere: muovere il mouse su (x, y), cliccare, digitare una stringa, fare un altro screenshot. Il loop dell'applicazione esegue quelle azioni su una macchina reale (o virtualizzata) e restituisce il prossimo screenshot. Il modello sta, in effetti, guidando un computer nello stesso modo in cui lo farebbe un umano — attraverso pixel, click e tasti — invece che tramite API.
Questo sblocca attività che prima erano impossibili senza un'integrazione personalizzata o un umano nel loop: compilare moduli in SaaS legacy senza API, navigare strumenti interni, fare scraping di dashboard protetti, QA end-to-end di una web app, workflow «fai le mie tasse», ricerche multi-step che attraversano tre siti diversi. Il trade-off è la latenza (ogni turno è un round-trip di screenshot), il costo (i token di input immagine si accumulano in fretta) e l'affidabilità (il modello occasionalmente clicca la cosa sbagliata su UI dense).
Alma è il livello che conserva fatti, preferenze, decisioni e contesto delle conversazioni tra ogni sessione AI, in modo che l'assistente si comporti come un unico collaboratore continuativo invece di resettarsi a ogni turno. Le memorie sono tipizzate e strutturate (preferenze, decisioni, note di progetto, regole di identità), indicizzate semanticamente con vector embeddings e assemblate nel system prompt di ogni nuova conversazione in meno di 100 ms tramite l'assemblaggio del contesto di Alma.
A differenza di Computer Use, Alma non agisce sul mondo. Non clicca, digita, scorre o naviga. Ciò che fa è rendere qualsiasi modello Lei usi — Claude, ChatGPT, Gemini, il Suo agente personalizzato — consapevole di un arco lungo e coerente di chi è l'utente e di cosa è già stato deciso. Legga l'approfondimento in Memoria persistente per l'AI: guida completa 2026.
Due ragioni. Primo, entrambi vengono lanciati con il titolo «rendi l'AI più capace», che collassa ogni dimensione di capacità in una singola casella di ricerca. Secondo, entrambi si basano sul tool use sotto il cofano — Computer Use espone strumenti di controllo del computer, Alma espone strumenti di controllo della memoria — quindi dal punto di vista dell'integrazione per sviluppatori la superficie API sembra superficialmente simile (system prompt + strumenti + loop). Sotto, le modalità di fallimento, i profili di latenza e le proposte di valore sono completamente diversi.
Il modello mentale più pulito: Computer Use riguarda il fare. La memoria persistente riguarda il sapere. Un agente che può fare senza sapere ripete gli stessi passi di setup in ogni sessione. Un agente che sa senza poter fare può consigliare ma non eseguire. Un vero agente di produzione spesso ha bisogno di entrambi.
Usi Computer Use quando il lavoro si svolge dentro un'interfaccia che il modello non può raggiungere tramite API. Esempi concreti: compilare timesheet in software aziendale legacy, scaricare report da un portale fornitori, manipolare un foglio di calcolo dentro un'app desktop, navigare un SaaS che intenzionalmente non ha API pubblica, eseguire una sequenza complessa di click attraverso più schede del browser. Se una frase nella richiesta dell'utente è «vai sul sito X, clicca Y, copia il valore, incollalo in Z», questo è territorio Computer Use.
Quando NON usarlo: qualsiasi cosa che abbia un'API reale. Chiamare l'API GitHub direttamente è drasticamente più veloce, più economico e più affidabile che chiedere a Claude di accedere al dashboard GitHub e cliccare in giro. Computer Use è il fallback per la lunga coda di strumenti senza integrazioni adeguate, non il percorso primario per quelli che le hanno.
Usi la memoria persistente ogni volta che l'utente vuole che l'AI si comporti come un collega che ricorda conversazioni passate, preferenze e decisioni, invece di partire da zero ogni volta. Esempi concreti: un copilot di programmazione che ricorda il Suo stack, le regole del linter, le decisioni architetturali che ha preso la settimana scorsa, le convenzioni concordate dal team nell'ultimo sprint. Un assistente di scrittura che ricorda la Sua voce, il Suo pubblico e i titoli di lavoro dei Suoi progetti. Un agente di project management che traccia stakeholder, SLA e rischi tra giorni. Vedi il dettaglio completo in Costruire un agente PM con Claude API e memoria persistente.
Quando NON usarla: query transazionali una tantum in cui non c'è nulla che valga la pena ricordare. «Qual è la capitale dell'Australia?» è stateless per definizione. La memoria persistente ha overhead — anche se piccolo — e si ripaga solo quando c'è un arco lungo di lavoro da ricordare.
Sì, ed è qui che si collocano le architetture di agente più interessanti del 2026. Lo schema è semplice: la memoria persistente contiene il contesto di lunga durata (chi è questo utente, cosa sta cercando di fare tra le sessioni, cosa abbiamo concordato l'ultima volta), e Computer Use è lo strumento a cui l'agente attinge quando la prossima azione concreta richiede l'interazione con un'UI. Il livello di memoria informa il system prompt; il loop Computer Use esegue compiti specifici all'interno di quel contesto informato.
Un esempio elaborato: un agente «fai i miei adempimenti» personale. La memoria persistente contiene la banca dell'utente, il codice fiscale, i fornitori ricorrenti, le categorie di spesa mensili, le decisioni passate su quali abbonamenti cancellare, ecc. Quando l'utente dice «processa le fatture di questo mese», l'agente assembla il contesto (conosce i fornitori, le regole di categorizzazione, la banca), poi usa Computer Use per accedere al portale bancario, allo strumento di fatturazione SaaS e alla web app del commercialista per eseguire il workflow multi-step. Senza memoria, l'agente richiede ogni dettaglio ogni mese. Senza Computer Use, l'agente può solo descrivere cosa fare, non farlo.
Tre livelli, dall'alto in basso:
POST /api/v1/context/assemble per costruire un system prompt arricchito con memorie, episodi, procedure e blocchi Soul rilevanti. Dopo la chiamata LLM, chiami POST /api/v1/memories/extract per estrarre nuovi fatti dalla conversazione. Il livello di memoria è indipendente dal fornitore LLM: funziona allo stesso modo con Claude, GPT o Gemini.computer_use_20250124 di Anthropic. A ogni turno, il modello riceve il system prompt assemblato + la richiesta dell'utente + l'ultimo screenshot (se una chiamata Computer Use precedente ne ha restituito uno). Risponde con testo o con una chiamata di strumento strutturata (computer.screenshot, computer.click, computer.type, ecc.).I loop di memoria e Computer Use non interferiscono. Sono strumenti indipendenti tra cui l'agente sceglie. Il livello di memoria rende l'agente più intelligente; Computer Use rende l'agente capace di finire il lavoro.
La memoria è economica e veloce. L'assemblaggio del contesto è ~30-80 ms e pochi centesimi per migliaia di chiamate. Computer Use è costoso e lento: i token di input immagine dominano il costo, e ogni turno aspetta uno screenshot. Un tipico compito Computer Use è 10-30 turni, ogni turno streama in 2-5 secondi. Un compito Computer Use di 2 minuti potrebbe costare $0,10-$0,50 in spese API; uno di 10 minuti può superare $1.
Implicazione pratica: progetti l'agente in modo che la memoria faccia il lavoro pesante su ciò che è già noto e Computer Use sia riservato alle parti che richiedono davvero interazione con l'UI. Se l'agente ricorre a Computer Use per cercare dati che sono in memoria, sta pagando a tariffa screenshot per una query a tariffa centesimi. L'architettura dovrebbe sempre preferire il richiamo della memoria alla ri-scoperta.
No. Alma è costruito sopra l'API di Anthropic: Claude è l'LLM che alimenta la chat, l'estrazione, l'assistente dentro la web app Alma, gli strumenti di scrittura, i loop dell'agente. Alma è il livello di memoria che rende i modelli di Anthropic più utili quando usati su larga scala da individui o team. Computer Use è una delle altre capacità di Anthropic, complementare alla memoria. L'inquadramento giusto è che Alma + Anthropic Claude (con o senza Computer Use) è uno stack, non un confronto «vs».
Se il Suo interesse è nella memoria: inizi su alma.olivares.ai, installi il server MCP in Claude Desktop, e ha la memoria persistente in cinque minuti — vedi Come usare MCP per la memoria AI: configurazione in 5 minuti. Se il Suo interesse è in Computer Use: è gated da Anthropic e vive dietro un header beta sull'API Claude; la loro documentazione illustra la configurazione. Se sta costruendo entrambi: prototipi prima la memoria (l'integrazione è più semplice e il valore si compone in ogni sessione), poi sovrapponga Computer Use per le azioni specifiche che l'agente deve compiere.
Letture correlate: Memoria persistente per l'AI: guida completa 2026 · Costruire un agente PM con Claude API e memoria persistente · Architettura di memoria a tre livelli · Confronto Alma vs Claude Memory · REST API di Alma.