Is permanent geheugen hetzelfde als RAG?

Nee. RAG haalt op uit een extern corpus (docs, papers, kennisbanken) dat eenmaal is opgesteld en in batch is geïndexeerd. Permanent geheugen vangt op wat de gebruiker zelf heeft gezegd, besloten of gewenst, en verzamelt dat in de loop van de tijd. RAG en permanent geheugen delen infrastructuur maar lossen verschillende problemen op en worden typisch samen gebruikt in productie-AI-assistenten.

Moet ik code schrijven om permanent geheugen aan AI toe te voegen?

Niet als u het Model Context Protocol gebruikt. Installeer een MCP-server zoals @olivaresai/alma-mcp in Claude Desktop, Cursor of Windsurf, plak uw API-sleutel in de JSON-configuratie en de AI krijgt direct geheugentools. Voor aangepaste apps roept u de SDK of REST API aan in twee stappen: stel context samen voor de LLM-aanroep, extraheer herinneringen erna.

Hoe blijven permanente herinneringen accuraat in de loop van de tijd?

Drie achtergrondmechanismen draaien continu: deduplicatie via Jaccard- en embedding-similariteit, contradictiedetectie in het 0,75-0,92 similariteitsbereik die verouderde items vervangt, en verval dat herinneringen onder een belangrijkheidsdrempel verwijdert na ongeveer 120 dagen inactiviteit. De gebruiker kan altijd alles inspecteren, bewerken of herstellen vanaf het geheugendashboard.

Permanent geheugen voor AI: complete gids 2026

Q: Wat is permanent geheugen voor AI?

Permanent geheugen voor AI is een laag die feiten, voorkeuren, beslissingen en gesprekscontext bewaart over sessies, modellen en applicaties heen, zodat een assistent zich gedraagt als één doorlopende collaborateur in plaats van bij elk verzoek te resetten. Het leeft in een database naast het model, is op verzoek doorzoekbaar en is eigendom van de gebruiker.

Mei 2026 · 14 min leestijd · Fran Olivares, oprichter van OlivaresAI

Permanent geheugen voor AI is de laag die feiten, voorkeuren, beslissingen en gesprekscontext bewaart over sessies, modellen en applicaties heen, zodat een assistent zich gedraagt als één doorlopende collaborateur in plaats van bij elk verzoek te resetten. In 2026 combineren de praktische implementaties een gestructureerde geheugenopslag, een semantische retrieval-laag, een extractor die nieuwe feiten uit elk gesprek mijnt, en een identiteitslaag die persoonlijkheid en regels vasthoudt. Alma levert alle vier achter één API en werkt met Claude, ChatGPT, Gemini, MCP-clients, aangepaste apps en de VSCode-editor.

Stateless modellen hebben een plafond bereikt. Frontier LLM's zijn nu slim genoeg om productiecode te schrijven, contracten op te stellen, reizen te plannen en juridische dossiers samen te vatten — maar elke interactie begint vanaf een lege lei. De gebruiker legt opnieuw uit wie hij is, welke stack hij gebruikt, wat hij vorige week heeft besloten, welke toon hij wil, welke onderwerpen verboden zijn. De AI bouwt nooit een echt beeld op van de persoon, het project of de lange boog van het werk. Dit is wat permanent geheugen oplost: het geeft het model continuïteit zonder de hele geschiedenis in elke prompt te slepen.

Deze gids is de lange-vorm metgezel bij Hoe u AI permanent geheugen geeft en AI-geheugenbeheer: complete gids 2026. Waar die posts zich richten op integratiepaden, behandelt deze de onderliggende architectuur, de afwegingen tussen benaderingen en wat operationeel verandert wanneer u permanent geheugen in productie levert.

Wat is permanent geheugen voor AI precies?

Permanent geheugen is alles wat het model kan lezen of schrijven dat het einde van een gesprek overleeft. De klassieke grens is het contextvenster van het model — zodra een sessie sluit, is alles binnen dat venster weg. Een permanente geheugenlaag zit naast het model: de applicatie schrijft feiten en gespreksamenvattingen erin tijdens of na een sessie, en leest relevante items terug in de prompt aan het begin van de volgende. Het model heeft nooit directe toegang tot de opslag; de applicatie orkestreert de flow.

Het cruciale onderscheid is tussen sessiegeheugen (gespreksgeschiedenis gescrold in de prompt voor deze beurt) en permanent geheugen (een aparte opslag die in een database leeft, semantisch geïndexeerd, op elk moment doorzoekbaar, eigendom van de gebruiker). Sessiegeheugen wordt begrensd door contextlengte en is per definitie kortstondig. Permanent geheugen is onbegrensd en duurzaam.

Een nuttig mentaal model: permanent geheugen is voor een LLM wat een notitieboek is voor een mens. U draagt niet elke pagina van elk gesprek in uw hoofd. U raadpleegt het notitieboek wanneer het onderwerp ter sprake komt, en de relevante pagina's worden geladen in uw werkgeheugen alleen voor dat moment. Alma's contextsamenstelling doet deze laadstap in minder dan 100 ms.

Waarom voelt stateless AI zo beperkend aan in 2026?

Drie redenen. Ten eerste het productiviteitsplafond: elke terugkerende taak begint met dezelfde installatiekosten (stack opnieuw uitleggen, voorkeuren opnieuw stellen, AI opnieuw aarden in het project). Over een jaar tellen die minuten op tot dagen verspilde uitleg. Ten tweede het kwaliteitsplafond: een AI die uw codebase-conventies, uw toon, uw eerdere beslissingen of uw domeinbeperkingen niet kent, produceert generieke output die u moet herschrijven. Ten derde het vertrouwensplafond: een model dat zichzelf tegenspreekt over gesprekken heen of vermelde voorkeuren vergeet, ondermijnt het geloof van de gebruiker dat het echt aandacht besteedt.

Platformgebonden geheugenfuncties (ChatGPT Memory, Claude Projects) helpen, maar zijn beperkt in capaciteit, gebonden aan één platform en bieden geen ontwikkelaars-API. Als u een AI-gestuurd product bouwt — chatbot, copilot, onderzoeksassistent, agent — heeft u een onafhankelijke geheugenlaag nodig die u controleert, die een echte API beschikbaar stelt en die de gebruiker volgt door welk model of welke client zij ook kiezen.

Welke architecturen werken eigenlijk voor permanent geheugen in 2026?

Vier bouwstenen zijn gestabiliseerd in de leidende systemen:

Een gestructureerde geheugenopslag. Discrete getypte records — feiten, voorkeuren, beslissingen, projectnotities — met metadata (belangrijkheid, vertrouwen, bron, tijdstempel). Geen vrije-vorm blob. Structuur is wat u in staat stelt te scoren, filteren en snoeien.
Een semantische retrieval-laag. Vector embeddings over elk record zodat een natuurlijke taal-query de meest relevante items kan ophalen, zelfs als de bewoording verschilt. Hybride zoeken (semantisch + keyword) vangt zowel geparafraseerde als exacte-term opzoekingen.
Een automatische extractor. Een kleine LLM-aanroep die het recente gesprek leest en nieuwe herinneringen voorstelt om aan de opslag toe te voegen. Zonder automatische extractie wordt permanent geheugen een handmatige klus en valt de adoptie na de eerste week weg.
Een identiteitslaag. Persoonlijkheid, expertise, communicatiestijl, harde regels. Apart van feiten omdat identiteit stabieler is dan herinneringen en met prioriteit in elke prompt moet worden geïnjecteerd. Alma noemt dit de Soul Engine.

De meeste productiesystemen voegen ook toe: een lus voor contradictiedetectie (zodat twee conflicterende herinneringen een samenvoeging of supersessie triggeren), een deduplicatie-pass (Jaccard- of embedding-similariteit boven een drempel valt samen tot één item) en vertrouwens-bewust verval (laag-belangrijkheid herinneringen die in maanden niet zijn aangeraakt vervallen automatisch). De Alma drielaagse architectuur scheidt de geheugenopslag zelf in memories (atomaire feiten), episodes (gecomprimeerde gespreksamenvattingen) en procedures (geleerde stapsgewijze workflows) zodat elke laag onafhankelijk kan worden opgehaald.

Hoe verschilt permanent geheugen van RAG?

RAG (Retrieval-Augmented Generation) en permanent geheugen delen infrastructuur (embeddings, vector DB's, retrieval) maar lossen verschillende problemen op. RAG is voor het aarden van antwoorden in een corpus dat de gebruiker niet zelf heeft geschreven — documentatie, onderzoekspapers, interne wiki's, kennisbanken. Het corpus wordt eenmaal opgesteld, geïndexeerd en op verzoek opgehaald. Permanent geheugen is voor het vastleggen van wat de gebruiker zelf heeft gezegd, besloten of gewenst, dat in de loop van de tijd verzamelen en terugleen. Het corpus is de eigen geschiedenis van de gebruiker; het groeit continu.

Praktisch landen de verschillen op drie plaatsen: schrijfpad (RAG slokt externe documenten in batch op; geheugen-schrijfacties worden vanuit elk gesprek gestreamd), scoring (RAG rangschikt op semantische similariteit; geheugen voegt belangrijkheid, recentheid en frequentie toe aan de score) en levenscyclus (RAG-documenten worden af en toe geversioneerd; herinneringen evolueren, spreken elkaar tegen, voegen samen en vervallen). De meeste productie-AI-assistenten in 2026 gebruiken beide: RAG voor het documentcorpus, permanent geheugen voor de gebruikersspecifieke laag. Zie Permanent geheugen vs RAG voor een diepere vergelijking.

Welke integratiepaden bestaan vandaag?

Het pad dat u kiest hangt af van of u de AI-client, de AI-applicatie of alleen een bestaande assistent gebruikt. Drie patronen domineren in 2026:

Model Context Protocol (MCP). Als uw eindgebruikers Claude Desktop, Cursor, Windsurf, Claude Code of een andere MCP-compatibele client gebruiken, is een MCP-server het pad met de laagste wrijving. De gebruiker installeert de server (een enkel npm-pakket), voegt zijn API-sleutel toe aan een JSON-configuratie en de AI krijgt direct een set tools (remember, recall, assemble_context, extract, enz.) die hij autonoom kan aanroepen. Geen codewijzigingen vereist aan de gebruikerskant. Alma levert @olivaresai/alma-mcp met 35 tools — zie Hoe u MCP gebruikt voor AI-geheugen: installatie in 5 minuten.
SDK of REST API. Als u een aangepaste AI-app bouwt, roept u de geheugen-API rechtstreeks aan. Het patroon is consistent: voor de LLM-aanroep, haal en stel context samen; na de LLM-aanroep, extraheer nieuwe herinneringen. Beide kunnen parallel draaien met de voor de gebruiker zichtbare reactie. De JavaScript SDK van Alma omvat 140+ eindpunten; de REST API is aanroepbaar vanuit elke taal.
Editor / shell-extensie. Voor AI gericht op ontwikkelaars houdt een speciale extensie het geheugen gekoppeld aan de werkruimte. Alma levert een VSCode-extensie die dezelfde geheugenopslag beschikbaar stelt die de MCP-server en SDK gebruiken. Eén geheugen, elk oppervlak.

Veelvoorkomende workflows die afhankelijk zijn van permanent geheugen

Engineering-copilots. Een codeerassistent die uw stack, uw linter-regels, uw geprefereerde error-handling stijl, het architectuurdiagram van uw systeem, de conventies die uw team vorige sprint heeft afgesproken onthoudt. Memories worden geëxtraheerd uit chatsessies en code review-threads; procedures leggen multi-step workflows vast zoals „voer altijd typecheck uit voordat je wijzigingen voorstelt". Resultaat: minder herhaalde uitleg per sessie, minder suggesties die u moet overschrijven.

Projectmanagement-agents. Een agent die stakeholders, sprintdoelen, blokkers en beslissingen tijdens stand-ups volgt. De gespreksgeschiedenis comprimeert tot episodes; gestructureerde stakeholder-records leven als memories. Wanneer de gebruiker vraagt „wat hebben we besloten over de migratietijdlijn?", haalt retrieval de relevante episodes plus de beslissings-herinnering op. Zie het uitgewerkte voorbeeld in Een PM-agent bouwen met Claude API en permanent geheugen.

Schrijf- en creatieve tools. Een AI-editor die uw stem, uw publiek, de werktitels van uw projecten, de stijlgids die u drie maanden geleden hebt geschreven, de namen van terugkerende personages onthoudt. Toonconsistentie over lang-vorm werk was het meest moeilijke UX-probleem in stateless schrijftools; permanent geheugen maakt het hanteerbaar. Zie de use-case voor schrijvers.

Hoe ziet contextsamenstelling er in de praktijk uit?

Wanneer een nieuw gebruikersbericht binnenkomt, roept de applicatie POST /api/v1/context/assemble aan met de query en eventuele sessiemetadata. De geheugenlaag voert hybride zoeken uit over de drie lagen (memories, episodes, procedures), scoort resultaten op een gewogen combinatie van relevantie, belangrijkheid, recentheid, frequentie en vertrouwen, en retourneert een gestructureerde reactie met de hoogst gerangschikte context plus de actieve Soul-blokken. De applicatie formatteert dit in de systeemprompt en stuurt het naar de LLM samen met het gebruikersbericht. End-to-end latentie is typisch 30–80 ms; ruim onder elke door de gebruiker waarneembare drempel.

Afstembare parameters omvatten het aantal op te halen herinneringen (standaard 15), de minimale scoredrempel (standaard ~0,55 cosine voor memories, lager voor procedures) en het per-tier tokenbudget (zodat de samengestelde context nooit voorbij het effectieve venster van het model blaast). De meeste teams blijven bij standaarden; het systeem is ontworpen om kant-en-klaar nuttig te zijn en vereist alleen afstemming bij opschalen voorbij tienduizenden herinneringen per gebruiker.

Hoe blijven herinneringen fris en accuraat in de loop van de tijd?

Drie mechanismen draaien continu op de achtergrond. Deduplicatie: wanneer een nieuwe herinnering de opslag binnenkomt, wordt deze vergeleken met bestaande met behulp van Jaccard-similariteit (60% drempel) en embedding-similariteit (0,92). Matches worden samengevoegd in het bestaande record met een vertrouwens-boost. Contradictiedetectie: paren in het 0,75-0,92 similariteitsbereik worden gecontroleerd op semantisch conflict; conflicten triggeren een supersessie (de oudere herinnering wordt als verouderd gemarkeerd, de nieuwere behoudt de plaats). Verval: herinneringen met belangrijkheid onder 0,1 die in 120 dagen niet zijn gelezen of geschreven, worden gemarkeerd voor verwijdering. De gebruiker kan altijd alles inspecteren, bewerken of herstellen vanaf het geheugendashboard.

In de praktijk betekent dit dat een gebruiker die van frontend naar backend pivotteert geleidelijk frontend-herinneringen gedeprioriteerd ziet; een gebruiker die een beslissing omkeert ziet de oude als opgevolgd gemarkeerd; en een lange staart van eenmalige feiten uit willekeurige sessies zwelt de opslag niet oneindig op. De gebruiker behoudt signaal, laat ruis los.

Hoe zit het met privacy, encryptie en data-eigendom?

Permanent geheugen is de meest persoonlijke datalaag in elk AI-product. De minimale lat in 2026: encryptie in rust, volledige export op elk moment, harde verwijdering op verzoek, een duidelijke addendum voor gegevensverwerking en een werkend incident-responsproces. Alma versleutelt BYOK-sleutels met AES-256-GCM, hasht API-sleutels met HMAC-SHA256 in rust, ondersteunt AVG-conforme export over elke laag (memories, episodes, procedures, gesprekken, bestanden) en biedt een one-click account-verwijderingsstroom die de hele opslag wist inclusief embeddings. De privacy-post gaat dieper in, en de beveiligingspagina documenteert de controls.

Welke providers leveren permanent geheugen in 2026?

Het landschap heeft zich geconsolideerd. Vergelijkingsoverzichten: Alma vs ChatGPT Memory, Alma vs Claude Memory, Alma vs Mem0, Alma vs Zep, Alma vs Letta / MemGPT. Kort gezegd: ChatGPT- en Claude-geheugens zijn geweldig als uw gebruikers volledig binnen één platform leven; Mem0 en Zep zijn open-source geheugenlagen die u zelf host en integreert via SDK; Letta (voorheen MemGPT) leunt naar agent-frameworks; Alma zit in de consumenten/prosumer-positie met web-app, MCP-server, VSCode-extensie, SDK en REST API achter één account.

Hoe begin ik permanent geheugen toe te voegen aan mijn eigen AI-product?

Als u een eindgebruiker bent die uw bestaande AI geheugen wil geven: installeer de MCP-server in vijf minuten — zie de stap-voor-stap in Hoe u MCP gebruikt voor AI-geheugen. Als u een ontwikkelaar bent die een AI-app bouwt: begin met de SDK op het Starter-abonnement, bewijs de voor-LLM context assemble + na-LLM extract lus in uw codebase, en groei vervolgens uit naar een betaald abonnement wanneer u de volumedrempel passeert. De REST API is opgenomen in het Max-abonnement als u de voorkeur geeft aan rauwe HTTP vanuit een niet-JS-stack.

Welk pad u ook kiest, het rendement is hetzelfde: de AI stopt zich te gedragen als een stateless tool en begint zich te gedragen als een collega die onthoudt wat u gisteren, vorige week en drie maanden geleden hebt gedaan — zonder dat u iets daarvan hoeft te herhalen.

Verwante lectuur: Waarom AI permanent geheugen nodig heeft in 2026 · AI-geheugenbeheer: complete gids · Drielaagse geheugenarchitectuur · Soul Engine uitgelegd · Alma documentatie.

See plans