Mei 2026 · 14 min leestijd · Fran Olivares, oprichter van OlivaresAI
Stateless modellen hebben een plafond bereikt. Frontier LLM's zijn nu slim genoeg om productiecode te schrijven, contracten op te stellen, reizen te plannen en juridische dossiers samen te vatten — maar elke interactie begint vanaf een lege lei. De gebruiker legt opnieuw uit wie hij is, welke stack hij gebruikt, wat hij vorige week heeft besloten, welke toon hij wil, welke onderwerpen verboden zijn. De AI bouwt nooit een echt beeld op van de persoon, het project of de lange boog van het werk. Dit is wat permanent geheugen oplost: het geeft het model continuïteit zonder de hele geschiedenis in elke prompt te slepen.
Deze gids is de lange-vorm metgezel bij Hoe u AI permanent geheugen geeft en AI-geheugenbeheer: complete gids 2026. Waar die posts zich richten op integratiepaden, behandelt deze de onderliggende architectuur, de afwegingen tussen benaderingen en wat operationeel verandert wanneer u permanent geheugen in productie levert.
Permanent geheugen is alles wat het model kan lezen of schrijven dat het einde van een gesprek overleeft. De klassieke grens is het contextvenster van het model — zodra een sessie sluit, is alles binnen dat venster weg. Een permanente geheugenlaag zit naast het model: de applicatie schrijft feiten en gespreksamenvattingen erin tijdens of na een sessie, en leest relevante items terug in de prompt aan het begin van de volgende. Het model heeft nooit directe toegang tot de opslag; de applicatie orkestreert de flow.
Het cruciale onderscheid is tussen sessiegeheugen (gespreksgeschiedenis gescrold in de prompt voor deze beurt) en permanent geheugen (een aparte opslag die in een database leeft, semantisch geïndexeerd, op elk moment doorzoekbaar, eigendom van de gebruiker). Sessiegeheugen wordt begrensd door contextlengte en is per definitie kortstondig. Permanent geheugen is onbegrensd en duurzaam.
Een nuttig mentaal model: permanent geheugen is voor een LLM wat een notitieboek is voor een mens. U draagt niet elke pagina van elk gesprek in uw hoofd. U raadpleegt het notitieboek wanneer het onderwerp ter sprake komt, en de relevante pagina's worden geladen in uw werkgeheugen alleen voor dat moment. Alma's contextsamenstelling doet deze laadstap in minder dan 100 ms.
Drie redenen. Ten eerste het productiviteitsplafond: elke terugkerende taak begint met dezelfde installatiekosten (stack opnieuw uitleggen, voorkeuren opnieuw stellen, AI opnieuw aarden in het project). Over een jaar tellen die minuten op tot dagen verspilde uitleg. Ten tweede het kwaliteitsplafond: een AI die uw codebase-conventies, uw toon, uw eerdere beslissingen of uw domeinbeperkingen niet kent, produceert generieke output die u moet herschrijven. Ten derde het vertrouwensplafond: een model dat zichzelf tegenspreekt over gesprekken heen of vermelde voorkeuren vergeet, ondermijnt het geloof van de gebruiker dat het echt aandacht besteedt.
Platformgebonden geheugenfuncties (ChatGPT Memory, Claude Projects) helpen, maar zijn beperkt in capaciteit, gebonden aan één platform en bieden geen ontwikkelaars-API. Als u een AI-gestuurd product bouwt — chatbot, copilot, onderzoeksassistent, agent — heeft u een onafhankelijke geheugenlaag nodig die u controleert, die een echte API beschikbaar stelt en die de gebruiker volgt door welk model of welke client zij ook kiezen.
Vier bouwstenen zijn gestabiliseerd in de leidende systemen:
De meeste productiesystemen voegen ook toe: een lus voor contradictiedetectie (zodat twee conflicterende herinneringen een samenvoeging of supersessie triggeren), een deduplicatie-pass (Jaccard- of embedding-similariteit boven een drempel valt samen tot één item) en vertrouwens-bewust verval (laag-belangrijkheid herinneringen die in maanden niet zijn aangeraakt vervallen automatisch). De Alma drielaagse architectuur scheidt de geheugenopslag zelf in memories (atomaire feiten), episodes (gecomprimeerde gespreksamenvattingen) en procedures (geleerde stapsgewijze workflows) zodat elke laag onafhankelijk kan worden opgehaald.
RAG (Retrieval-Augmented Generation) en permanent geheugen delen infrastructuur (embeddings, vector DB's, retrieval) maar lossen verschillende problemen op. RAG is voor het aarden van antwoorden in een corpus dat de gebruiker niet zelf heeft geschreven — documentatie, onderzoekspapers, interne wiki's, kennisbanken. Het corpus wordt eenmaal opgesteld, geïndexeerd en op verzoek opgehaald. Permanent geheugen is voor het vastleggen van wat de gebruiker zelf heeft gezegd, besloten of gewenst, dat in de loop van de tijd verzamelen en terugleen. Het corpus is de eigen geschiedenis van de gebruiker; het groeit continu.
Praktisch landen de verschillen op drie plaatsen: schrijfpad (RAG slokt externe documenten in batch op; geheugen-schrijfacties worden vanuit elk gesprek gestreamd), scoring (RAG rangschikt op semantische similariteit; geheugen voegt belangrijkheid, recentheid en frequentie toe aan de score) en levenscyclus (RAG-documenten worden af en toe geversioneerd; herinneringen evolueren, spreken elkaar tegen, voegen samen en vervallen). De meeste productie-AI-assistenten in 2026 gebruiken beide: RAG voor het documentcorpus, permanent geheugen voor de gebruikersspecifieke laag. Zie Permanent geheugen vs RAG voor een diepere vergelijking.
Het pad dat u kiest hangt af van of u de AI-client, de AI-applicatie of alleen een bestaande assistent gebruikt. Drie patronen domineren in 2026:
remember, recall, assemble_context, extract, enz.) die hij autonoom kan aanroepen. Geen codewijzigingen vereist aan de gebruikerskant. Alma levert @olivaresai/alma-mcp met 35 tools — zie Hoe u MCP gebruikt voor AI-geheugen: installatie in 5 minuten.Engineering-copilots. Een codeerassistent die uw stack, uw linter-regels, uw geprefereerde error-handling stijl, het architectuurdiagram van uw systeem, de conventies die uw team vorige sprint heeft afgesproken onthoudt. Memories worden geëxtraheerd uit chatsessies en code review-threads; procedures leggen multi-step workflows vast zoals „voer altijd typecheck uit voordat je wijzigingen voorstelt". Resultaat: minder herhaalde uitleg per sessie, minder suggesties die u moet overschrijven.
Projectmanagement-agents. Een agent die stakeholders, sprintdoelen, blokkers en beslissingen tijdens stand-ups volgt. De gespreksgeschiedenis comprimeert tot episodes; gestructureerde stakeholder-records leven als memories. Wanneer de gebruiker vraagt „wat hebben we besloten over de migratietijdlijn?", haalt retrieval de relevante episodes plus de beslissings-herinnering op. Zie het uitgewerkte voorbeeld in Een PM-agent bouwen met Claude API en permanent geheugen.
Schrijf- en creatieve tools. Een AI-editor die uw stem, uw publiek, de werktitels van uw projecten, de stijlgids die u drie maanden geleden hebt geschreven, de namen van terugkerende personages onthoudt. Toonconsistentie over lang-vorm werk was het meest moeilijke UX-probleem in stateless schrijftools; permanent geheugen maakt het hanteerbaar. Zie de use-case voor schrijvers.
Wanneer een nieuw gebruikersbericht binnenkomt, roept de applicatie POST /api/v1/context/assemble aan met de query en eventuele sessiemetadata. De geheugenlaag voert hybride zoeken uit over de drie lagen (memories, episodes, procedures), scoort resultaten op een gewogen combinatie van relevantie, belangrijkheid, recentheid, frequentie en vertrouwen, en retourneert een gestructureerde reactie met de hoogst gerangschikte context plus de actieve Soul-blokken. De applicatie formatteert dit in de systeemprompt en stuurt het naar de LLM samen met het gebruikersbericht. End-to-end latentie is typisch 30–80 ms; ruim onder elke door de gebruiker waarneembare drempel.
Afstembare parameters omvatten het aantal op te halen herinneringen (standaard 15), de minimale scoredrempel (standaard ~0,55 cosine voor memories, lager voor procedures) en het per-tier tokenbudget (zodat de samengestelde context nooit voorbij het effectieve venster van het model blaast). De meeste teams blijven bij standaarden; het systeem is ontworpen om kant-en-klaar nuttig te zijn en vereist alleen afstemming bij opschalen voorbij tienduizenden herinneringen per gebruiker.
Drie mechanismen draaien continu op de achtergrond. Deduplicatie: wanneer een nieuwe herinnering de opslag binnenkomt, wordt deze vergeleken met bestaande met behulp van Jaccard-similariteit (60% drempel) en embedding-similariteit (0,92). Matches worden samengevoegd in het bestaande record met een vertrouwens-boost. Contradictiedetectie: paren in het 0,75-0,92 similariteitsbereik worden gecontroleerd op semantisch conflict; conflicten triggeren een supersessie (de oudere herinnering wordt als verouderd gemarkeerd, de nieuwere behoudt de plaats). Verval: herinneringen met belangrijkheid onder 0,1 die in 120 dagen niet zijn gelezen of geschreven, worden gemarkeerd voor verwijdering. De gebruiker kan altijd alles inspecteren, bewerken of herstellen vanaf het geheugendashboard.
In de praktijk betekent dit dat een gebruiker die van frontend naar backend pivotteert geleidelijk frontend-herinneringen gedeprioriteerd ziet; een gebruiker die een beslissing omkeert ziet de oude als opgevolgd gemarkeerd; en een lange staart van eenmalige feiten uit willekeurige sessies zwelt de opslag niet oneindig op. De gebruiker behoudt signaal, laat ruis los.
Permanent geheugen is de meest persoonlijke datalaag in elk AI-product. De minimale lat in 2026: encryptie in rust, volledige export op elk moment, harde verwijdering op verzoek, een duidelijke addendum voor gegevensverwerking en een werkend incident-responsproces. Alma versleutelt BYOK-sleutels met AES-256-GCM, hasht API-sleutels met HMAC-SHA256 in rust, ondersteunt AVG-conforme export over elke laag (memories, episodes, procedures, gesprekken, bestanden) en biedt een one-click account-verwijderingsstroom die de hele opslag wist inclusief embeddings. De privacy-post gaat dieper in, en de beveiligingspagina documenteert de controls.
Het landschap heeft zich geconsolideerd. Vergelijkingsoverzichten: Alma vs ChatGPT Memory, Alma vs Claude Memory, Alma vs Mem0, Alma vs Zep, Alma vs Letta / MemGPT. Kort gezegd: ChatGPT- en Claude-geheugens zijn geweldig als uw gebruikers volledig binnen één platform leven; Mem0 en Zep zijn open-source geheugenlagen die u zelf host en integreert via SDK; Letta (voorheen MemGPT) leunt naar agent-frameworks; Alma zit in de consumenten/prosumer-positie met web-app, MCP-server, VSCode-extensie, SDK en REST API achter één account.
Als u een eindgebruiker bent die uw bestaande AI geheugen wil geven: installeer de MCP-server in vijf minuten — zie de stap-voor-stap in Hoe u MCP gebruikt voor AI-geheugen. Als u een ontwikkelaar bent die een AI-app bouwt: begin met de SDK op het Starter-abonnement, bewijs de voor-LLM context assemble + na-LLM extract lus in uw codebase, en groei vervolgens uit naar een betaald abonnement wanneer u de volumedrempel passeert. De REST API is opgenomen in het Max-abonnement als u de voorkeur geeft aan rauwe HTTP vanuit een niet-JS-stack.
Welk pad u ook kiest, het rendement is hetzelfde: de AI stopt zich te gedragen als een stateless tool en begint zich te gedragen als een collega die onthoudt wat u gisteren, vorige week en drie maanden geleden hebt gedaan — zonder dat u iets daarvan hoeft te herhalen.
Verwante lectuur: Waarom AI permanent geheugen nodig heeft in 2026 · AI-geheugenbeheer: complete gids · Drielaagse geheugenarchitectuur · Soul Engine uitgelegd · Alma documentatie.