Aprile 2026 · lettura 11 min · Fran Olivares, Founder di OlivaresAI
La maggior parte degli assistenti AI è stateless. Elaborano un prompt, generano una risposta e dimenticano tutto. Se sta costruendo un prodotto che usa AI — uno strumento di programmazione, un bot di assistenza clienti, un assistente di ricerca, un tutor personale — questa statelessness è la Sua più grande limitazione. I Suoi utenti faranno le stesse domande, forniranno lo stesso contesto e perderanno fiducia ogni volta che l'AI non riesce a ricordare qualcosa di ovvio. Questo articolo illustra come costruire assistenti AI che ricordano davvero, usando la memoria persistente come componente architetturale di prima classe.
Quando gli sviluppatori provano per la prima volta ad aggiungere memoria a un assistente AI, di solito ricorrono a uno di due approcci: inserire tutto nel system prompt o costruire una pipeline RAG (Retrieval-Augmented Generation). Entrambi hanno serie limitazioni.
L'approccio del system prompt fallisce su larga scala. Le finestre di contesto sono finite: anche con 200K token, non può includere ogni fatto, conversazione e preferenza rilevante. E sta pagando per ogni token nel system prompt a ogni singola richiesta.
RAG è meglio ma incompleto. Risolve il recupero dei documenti ma non gestisce il ciclo di vita completo della memoria AI: estrazione, scoring, deduplicazione, consolidamento e scadenza. RAG recupera frammenti di testo. La memoria comprende fatti, preferenze, decisioni e schemi comportamentali. Sono problemi fondamentalmente diversi. (Vedi il nostro confronto dettagliato: Memoria persistente vs RAG.)
Un assistente AI veramente utile con memoria persistente ha bisogno di cinque capacità:
Il modo più rapido per aggiungere memoria persistente a un assistente AI è tramite il Model Context Protocol (MCP). Se il Suo assistente funziona in Claude Desktop, Cursor, Windsurf o qualsiasi client compatibile con MCP, può aggiungere memoria in meno di 5 minuti.
Installi il server globalmente: npm install -g @olivaresai/alma-mcp. Poi lo aggiunga alla configurazione del Suo client MCP con la Sua API key. Il server espone 35 strumenti tra cui alma_remember (salva una memoria), alma_recall (cerca memorie), alma_assemble (costruisce il contesto completo) e alma_extract (estrae memorie dal testo).
Una volta collegato, l'assistente AI ha automaticamente accesso alla memoria persistente. Può salvare fatti importanti durante le conversazioni e recuperarli nelle sessioni future. La memoria è memorizzata lato server in Alma, indipendentemente dal modello AI, dal client o dalla conversazione.
Per applicazioni personalizzate, il JavaScript SDK (@olivaresai/alma-sdk) Le offre pieno controllo programmatico. Il pattern tipico di integrazione è il seguente:
client.context.assemble({ query: userMessage }) per ottenere memorie, episodi e blocchi soul rilevanti formattati come system prompt.client.memories.extract({ text: conversation }) per salvare nuovi fatti dalla conversazione.Questo pattern funziona con qualsiasi fornitore LLM. Il Suo livello di memoria è disaccoppiato dal modello: cambi da Claude a GPT-4 senza perdere una singola memoria.
La REST API fornisce 140+ endpoint per la gestione completa della memoria da qualsiasi linguaggio o piattaforma. Endpoint principali per costruire un assistente con memoria:
POST /api/v1/context/assemble — Assembla il contesto da memorie, episodi, procedure e blocchi soul.POST /api/v1/memories — Crea una memoria con contenuto, categoria, importanza e confidenza.GET /api/v1/memories/search?q=query&mode=hybrid — Cerca memorie per parola chiave, similarità semantica o entrambe.POST /api/v1/memories/extract — Estrae memorie dal testo usando analisi LLM.POST /api/v1/blocks — Configura i blocchi soul per identità e personalità AI.La memoria da sola non basta. Un assistente AI che ricorda fatti ma non ha una personalità coerente sembra meccanico. Il Soul Engine di Alma fornisce blocchi di identità strutturati: non un singolo system prompt che viene sepolto, ma sezioni organizzate per identità, personalità, competenze, stile di comunicazione, regole e contesto. Questi blocchi sono versionati, sempre iniettati con priorità e configurabili per ambiente.
Per esempio: può definire che l'AI debba essere concisa e tecnica nel Suo ambiente «lavoro», ma conversazionale ed esplicativa nel Suo ambiente «apprendimento». Stesse memorie, personalità diverse. Questo è ciò che fa sembrare un assistente AI un vero collaboratore invece di un chatbot generico.
Errori comuni nel costruire assistenti con memoria:
Il percorso più rapido: si registri su alma.olivares.ai, ottenga una API key da Impostazioni e si colleghi tramite MCP, SDK o REST API. Il piano Starter ($14/mese) include accesso API completo: abbastanza per prototipare e validare prima di scalare.