Aprile 2026 · lettura 10 min · Fran Olivares, Founder di OlivaresAI
Retrieval-Augmented Generation (RAG) e memoria persistente sono entrambi approcci per dare ai sistemi AI accesso a conoscenza esterna. Sono spesso confusi perché condividono alcuni componenti: vector database, modelli di embedding, pipeline di recupero. Ma risolvono problemi fondamentalmente diversi, e comprendere la differenza è critico per chiunque costruisca prodotti AI nel 2026.
Il RAG è uno schema per iniettare documenti rilevanti nel contesto di un'AI al momento della query. La pipeline tipica: dividere in frammenti un corpus documentale, incorporare i frammenti in un vector database e, al momento della query, incorporare la domanda dell'utente, trovare frammenti simili e includerli nel prompt. L'AI genera una risposta fondata sui documenti recuperati.
Il RAG è eccellente per casi d'uso specifici: rispondere a domande su una knowledge base, cercare nella documentazione, analizzare un corpus di articoli di ricerca. Tratta la conoscenza come documenti statici che esistono indipendentemente dall'utente e dalla conversazione.
La memoria persistente è un sistema per accumulare, organizzare e recuperare conoscenza specifica dell'utente che evolve nel tempo. Non si tratta di documenti, ma di fatti, preferenze, decisioni, schemi e identità. La conoscenza viene estratta dalle interazioni, valutata per rilevanza e importanza, deduplicata, consolidata e infine fatta scadere quando diventa obsoleta.
La memoria persistente risponde a una domanda diversa dal RAG. Il RAG chiede: quali informazioni esistono in questo corpus documentale? La memoria persistente chiede: cosa sa l'AI su questo utente specifico, e come dovrebbe comportarsi sulla base di tutto ciò che ha imparato?
| Dimensione | RAG | Memoria persistente |
|---|---|---|
| Fonte della conoscenza | Documenti preesistenti | Estratta da conversazioni + input utente |
| Tipo di conoscenza | Frammenti di testo | Fatti strutturati, preferenze, decisioni, procedure |
| Ciclo di vita della conoscenza | Statico (re-indicizzato al cambio del documento) | Dinamico (creato, aggiornato, consolidato, scaduto) |
| Personalizzazione | Uguale per tutti gli utenti (corpus condiviso) | Per utente (profilo cognitivo individuale) |
| Scoring | Solo similarità | Multi-fattore: rilevanza, importanza, confidenza, attualità, frequenza |
| Identità | Nessuna | Soul Engine (personalità, regole, competenze, stile di comunicazione) |
| Livelli di memoria | Singolo (frammenti di documenti) | Tre (memorie, episodi, procedure) |
| Deduplicazione | A livello di frammento (basilare) | Semantica (similarità di Jaccard + sovrapposizione di parole chiave) |
Il RAG è ideale quando ha un corpus definito di conoscenza che gli utenti devono interrogare: documentazione di prodotto, contratti legali, database di ricerca, wiki interne. La conoscenza esiste prima che l'utente interagisca con essa, e utenti diversi solitamente hanno bisogno di accedere alle stesse informazioni. Se il Suo obiettivo principale è «rispondere a domande su questi documenti», RAG è l'architettura corretta.
La memoria persistente è la scelta giusta quando l'AI deve imparare dall'utente nel tempo. Assistenti di programmazione che ricordano il Suo stack e le Sue convenzioni. AI personale che conosce il Suo stile di comunicazione e le Sue preferenze. Bot di assistenza clienti che ricordano la cronologia di un utente e i dettagli del suo account. Assistenti di ricerca che costruiscono contesto nel corso di settimane di indagine. Qualsiasi caso d'uso in cui l'AI dovrebbe migliorare più la usa richiede memoria persistente, non RAG.
I sistemi AI più potenti combinano entrambi. Il RAG fornisce accesso a una knowledge base condivisa. La memoria persistente fornisce contesto specifico dell'utente, preferenze e comportamenti appresi. Nell'architettura di Alma, l'assemblaggio del contesto combina già memorie (conoscenza persistente), episodi (cronologia delle conversazioni), procedure (workflow appresi) e blocchi soul (identità) in un singolo system prompt. Aggiungere RAG come ulteriore fonte di conoscenza è un'estensione naturale.
L'architettura di memoria a tre livelli di Alma è stata progettata specificamente per il caso d'uso della memoria persistente. Le memorie memorizzano fatti. Gli episodi memorizzano cronologie compresse di conversazione. Le procedure memorizzano workflow appresi. Il Soul Engine fornisce identità AI coerente. Insieme, danno alla Sua AI qualcosa che il RAG da solo non può: la capacità di conoscere l'utente e migliorare nel tempo.
RAG e memoria persistente sono complementari, non concorrenti. Se sta costruendo un prodotto AI e cerca di decidere tra i due, si chieda: l'AI deve interrogare un corpus documentale o deve imparare e ricordare gli utenti individuali? La maggior parte delle applicazioni reali richiede entrambi. Inizi con quello che risolve il Suo problema più immediato e aggiunga l'altro quando ne avrà bisogno.
Se la memoria persistente è ciò di cui ha bisogno, Alma la fornisce pronta all'uso: API, server MCP e SDK completi.