April 2026 · 11 min leestijd · Fran Olivares, oprichter van OlivaresAI
De meeste AI-assistenten zijn stateless. Ze verwerken een prompt, genereren een reactie en vergeten alles. Als u een product bouwt dat AI gebruikt — een coderingstool, een klantenondersteuningsbot, een onderzoeksassistent, een persoonlijke tutor — is deze statelessness uw grootste beperking. Uw gebruikers zullen dezelfde vragen stellen, dezelfde context geven en vertrouwen verliezen telkens als de AI iets vanzelfsprekends niet kan onthouden. Dit artikel doorloopt hoe u AI-assistenten bouwt die echt onthouden, met permanent geheugen als eerste-klas architecturaal component.
Wanneer ontwikkelaars voor het eerst proberen geheugen toe te voegen aan een AI-assistent, grijpen ze meestal naar een van twee benaderingen: alles in de systeemprompt proppen of een RAG-pipeline (Retrieval-Augmented Generation) bouwen. Beide hebben ernstige beperkingen.
De systeempromptaanpak faalt op schaal. Contextvensters zijn eindig — zelfs met 200K tokens kunt u niet elk relevant feit, gesprek en voorkeur opnemen. En u betaalt voor elke token in de systeemprompt bij elke afzonderlijke aanvraag.
RAG is beter, maar onvolledig. Het lost retrieval van documenten op, maar behandelt niet de volledige levenscyclus van AI-geheugen: extractie, scoring, deduplicatie, consolidatie en vervaldatum. RAG haalt tekstchunks op. Geheugen begrijpt feiten, voorkeuren, beslissingen en gedragspatronen. Dit zijn fundamenteel verschillende problemen. (Zie onze gedetailleerde vergelijking: Permanent geheugen vs RAG.)
Een echt nuttige AI-assistent met permanent geheugen heeft vijf mogelijkheden nodig:
De snelste manier om permanent geheugen toe te voegen aan een AI-assistent is via het Model Context Protocol (MCP). Als uw assistent draait in Claude Desktop, Cursor, Windsurf of een MCP-compatibele client, kunt u in minder dan 5 minuten geheugen toevoegen.
Installeer de server globaal: npm install -g @olivaresai/alma-mcp. Voeg deze vervolgens toe aan uw MCP-clientconfiguratie met uw API-sleutel. De server biedt 35 tools waaronder alma_remember (sla een herinnering op), alma_recall (zoek herinneringen), alma_assemble (bouw volledige context op) en alma_extract (extraheer herinneringen uit tekst).
Eenmaal verbonden heeft de AI-assistent automatisch toegang tot permanent geheugen. Hij kan belangrijke feiten tijdens gesprekken opslaan en ze in toekomstige sessies ophalen. Het geheugen wordt opgeslagen aan de serverkant in Alma — onafhankelijk van het AI-model, de client of het gesprek.
Voor aangepaste toepassingen geeft de JavaScript SDK (@olivaresai/alma-sdk) u volledige programmatische controle. Het typische integratiepatroon ziet er als volgt uit:
client.context.assemble({ query: userMessage }) aan om relevante herinneringen, episodes en Soul-blokken op te halen, geformatteerd als systeemprompt.client.memories.extract({ text: conversation }) aan om nieuwe feiten uit het gesprek op te slaan.Dit patroon werkt met elke LLM-provider. Uw geheugenlaag is losgekoppeld van het model — wissel van Claude naar GPT-4 zonder ook maar één herinnering te verliezen.
De REST API biedt 140+ eindpunten voor volledig geheugenbeheer vanuit elke taal of platform. Belangrijkste eindpunten voor het bouwen van een assistent met geheugen:
POST /api/v1/context/assemble — Stelt context samen uit herinneringen, episodes, procedures en Soul-blokken.POST /api/v1/memories — Maak een herinnering aan met inhoud, categorie, belangrijkheid en vertrouwen.GET /api/v1/memories/search?q=query&mode=hybrid — Zoek herinneringen op keyword, semantische similariteit of beide.POST /api/v1/memories/extract — Extraheer herinneringen uit tekst met LLM-analyse.POST /api/v1/blocks — Configureer Soul-blokken voor AI-identiteit en -persoonlijkheid.Geheugen alleen is niet genoeg. Een AI-assistent die feiten onthoudt maar geen consistente persoonlijkheid heeft, voelt mechanisch aan. De Soul Engine van Alma biedt gestructureerde identiteitsblokken — geen enkele systeemprompt die ondergesneeuwd raakt, maar georganiseerde secties voor identiteit, persoonlijkheid, expertise, communicatiestijl, regels en context. Deze blokken zijn geversioneerd, altijd met prioriteit ingevoegd en per omgeving configureerbaar.
Bijvoorbeeld: u kunt definiëren dat de AI beknopt en technisch moet zijn in uw „werk"-omgeving, maar gesprekkelijk en uitleggend in uw „leer"-omgeving. Dezelfde herinneringen, andere persoonlijkheid. Dit is wat een AI-assistent doet aanvoelen als een echte collaborateur in plaats van een generieke chatbot.
Veelvoorkomende fouten bij het bouwen van assistenten met geheugen:
De snelste weg: registreer u op alma.olivares.ai, haal een API-sleutel op via Instellingen en verbind via MCP, SDK of REST API. Het Starter-abonnement ($14/maand) bevat volledige API-toegang — genoeg om te prototypen en te valideren voordat u opschaalt.