Cosa serve a un assistente con memoria?

Cinque capacità: estrazione automatica (cattura i fatti senza un esplicito «ricorda questo»), archiviazione strutturata (metadati + embeddings, non testo grezzo), recupero intelligente (semantico + parole chiave + scoring multi-fattore), assemblaggio del contesto (formatta le memorie giuste entro il budget di token) e persistenza dell'identità (Soul Engine: personalità, regole, competenze che sopravvivono tra le sessioni).

Quale percorso di integrazione è più rapido?

Il server MCP. Installi @olivaresai/alma-mcp, lo aggiunga alla Sua configurazione Claude Desktop / Cursor / Windsurf con una API key, riavvii: fatto in cinque minuti. L'AI ottiene 35 strumenti per memoria, assemblaggio del contesto e Soul Engine senza scrivere codice.

E le applicazioni personalizzate?

Usi il JavaScript SDK (@olivaresai/alma-sdk). Pattern standard: client.context.assemble({query}) prima della chiamata LLM per arricchire il system prompt, poi client.memories.extract({text}) dopo per salvare nuovi fatti. Funziona con qualsiasi fornitore LLM: Alma rimane disaccoppiato.

E se non uso JavaScript?

Usi direttamente la REST API. 140+ endpoint coprono ogni operazione di memoria. Principali: POST /context/assemble, POST /memories, GET /memories/search?mode=hybrid, POST /memories/extract, POST /blocks. Header X-API-Key: funziona da Python, Go, Rust, qualsiasi cosa parli HTTP.

Costruire assistenti AI che ricordano tutto

Aprile 2026 · lettura 11 min · Fran Olivares, Founder di OlivaresAI

Costruisca assistenti AI con memoria trattando la memoria persistente come un componente architetturale di prima classe, non come un'aggiunta. Lo schema richiede cinque cose: estrazione automatica, archiviazione strutturata, recupero intelligente, assemblaggio del contesto e persistenza dell'identità. Il percorso più rapido è il server MCP di Alma (5 minuti per Claude Desktop / Cursor / Windsurf), il JavaScript SDK per app personalizzate o la REST API per qualsiasi linguaggio.

La maggior parte degli assistenti AI è stateless. Elaborano un prompt, generano una risposta e dimenticano tutto. Se sta costruendo un prodotto che usa AI — uno strumento di programmazione, un bot di assistenza clienti, un assistente di ricerca, un tutor personale — questa statelessness è la Sua più grande limitazione. I Suoi utenti faranno le stesse domande, forniranno lo stesso contesto e perderanno fiducia ogni volta che l'AI non riesce a ricordare qualcosa di ovvio. Questo articolo illustra come costruire assistenti AI che ricordano davvero, usando la memoria persistente come componente architetturale di prima classe.

Perché la maggior parte degli assistenti AI non riesce a ricordare?

Quando gli sviluppatori provano per la prima volta ad aggiungere memoria a un assistente AI, di solito ricorrono a uno di due approcci: inserire tutto nel system prompt o costruire una pipeline RAG (Retrieval-Augmented Generation). Entrambi hanno serie limitazioni.

L'approccio del system prompt fallisce su larga scala. Le finestre di contesto sono finite: anche con 200K token, non può includere ogni fatto, conversazione e preferenza rilevante. E sta pagando per ogni token nel system prompt a ogni singola richiesta.

RAG è meglio ma incompleto. Risolve il recupero dei documenti ma non gestisce il ciclo di vita completo della memoria AI: estrazione, scoring, deduplicazione, consolidamento e scadenza. RAG recupera frammenti di testo. La memoria comprende fatti, preferenze, decisioni e schemi comportamentali. Sono problemi fondamentalmente diversi. (Vedi il nostro confronto dettagliato: Memoria persistente vs RAG.)

Cosa serve a un assistente AI con memoria?

Un assistente AI veramente utile con memoria persistente ha bisogno di cinque capacità:

Estrazione automatica — Il sistema dovrebbe estrarre fatti, preferenze e decisioni dalle conversazioni senza che l'utente salvi esplicitamente nulla.
Archiviazione strutturata — Non solo frammenti di testo. Le memorie hanno bisogno di metadati: categoria, importanza, confidenza, fonte, timestamp e vector embeddings.
Recupero intelligente — Data una nuova conversazione, il sistema deve trovare le memorie più rilevanti usando ricerca semantica, corrispondenza per parole chiave e scoring multi-fattore.
Assemblaggio del contesto — Le memorie recuperate devono essere formattate e iniettate nel contesto dell'AI in modo utile e senza sprecare token.
Persistenza dell'identità — Oltre ai fatti, l'AI ha bisogno di una personalità coerente, di uno stile di comunicazione e di un insieme di regole comportamentali che sopravvivono alle sessioni.

Come aggiungo memoria tramite il server MCP di Alma?

Il modo più rapido per aggiungere memoria persistente a un assistente AI è tramite il Model Context Protocol (MCP). Se il Suo assistente funziona in Claude Desktop, Cursor, Windsurf o qualsiasi client compatibile con MCP, può aggiungere memoria in meno di 5 minuti.

Installi il server globalmente: npm install -g @olivaresai/alma-mcp. Poi lo aggiunga alla configurazione del Suo client MCP con la Sua API key. Il server espone 35 strumenti tra cui alma_remember (salva una memoria), alma_recall (cerca memorie), alma_assemble (costruisce il contesto completo) e alma_extract (estrae memorie dal testo).

Una volta collegato, l'assistente AI ha automaticamente accesso alla memoria persistente. Può salvare fatti importanti durante le conversazioni e recuperarli nelle sessioni future. La memoria è memorizzata lato server in Alma, indipendentemente dal modello AI, dal client o dalla conversazione.

Come aggiungo memoria con il JavaScript SDK?

Per applicazioni personalizzate, il JavaScript SDK (@olivaresai/alma-sdk) Le offre pieno controllo programmatico. Il pattern tipico di integrazione è il seguente:

Prima della chiamata AI — Chiami client.context.assemble({ query: userMessage }) per ottenere memorie, episodi e blocchi soul rilevanti formattati come system prompt.
Durante la chiamata AI — Passi il contesto assemblato come system prompt al Suo fornitore LLM (Anthropic, OpenAI o altri).
Dopo la chiamata AI — Chiami client.memories.extract({ text: conversation }) per salvare nuovi fatti dalla conversazione.

Questo pattern funziona con qualsiasi fornitore LLM. Il Suo livello di memoria è disaccoppiato dal modello: cambi da Claude a GPT-4 senza perdere una singola memoria.

Come aggiungo memoria tramite REST API?

La REST API fornisce 140+ endpoint per la gestione completa della memoria da qualsiasi linguaggio o piattaforma. Endpoint principali per costruire un assistente con memoria:

POST /api/v1/context/assemble — Assembla il contesto da memorie, episodi, procedure e blocchi soul.
POST /api/v1/memories — Crea una memoria con contenuto, categoria, importanza e confidenza.
GET /api/v1/memories/search?q=query&mode=hybrid — Cerca memorie per parola chiave, similarità semantica o entrambe.
POST /api/v1/memories/extract — Estrae memorie dal testo usando analisi LLM.
POST /api/v1/blocks — Configura i blocchi soul per identità e personalità AI.

Perché la persistenza dell'identità è diversa dalla memoria?

La memoria da sola non basta. Un assistente AI che ricorda fatti ma non ha una personalità coerente sembra meccanico. Il Soul Engine di Alma fornisce blocchi di identità strutturati: non un singolo system prompt che viene sepolto, ma sezioni organizzate per identità, personalità, competenze, stile di comunicazione, regole e contesto. Questi blocchi sono versionati, sempre iniettati con priorità e configurabili per ambiente.

Per esempio: può definire che l'AI debba essere concisa e tecnica nel Suo ambiente «lavoro», ma conversazionale ed esplicativa nel Suo ambiente «apprendimento». Stesse memorie, personalità diverse. Questo è ciò che fa sembrare un assistente AI un vero collaboratore invece di un chatbot generico.

Quali sono gli errori comuni nel costruire AI con memoria?

Errori comuni nel costruire assistenti con memoria:

Non memorizzi trascrizioni di conversazione grezze — Sono rumorose, ridondanti e costose da cercare. Estragga invece fatti strutturati.
Non inietti tutte le memorie in ogni prompt — Spreca token e confonde il modello. Usi la ricerca semantica per selezionare solo il contesto rilevante.
Non ignori la qualità della memoria — Senza punteggio di confidenza e deduplicazione, la Sua memoria si riempie di contraddizioni e rumore.
Non vincoli la memoria a un solo modello — Gli utenti cambiano modello. I team usano modelli diversi per compiti diversi. La memoria dovrebbe essere model-agnostic.

Come inizio a costruire un assistente AI con memoria?

Il percorso più rapido: si registri su alma.olivares.ai, ottenga una API key da Impostazioni e si colleghi tramite MCP, SDK o REST API. Il piano Starter ($14/mese) include accesso API completo: abbastanza per prototipare e validare prima di scalare.

See plans