Was ist KI-Speicherverwaltung?

Die Disziplin, das Wissen, das ein KI-System im Laufe der Zeit sammelt, zu speichern, zu organisieren, zu bewerten, abzurufen und ablaufen zu lassen. Sie trennt ein Chat-Tool, das jede Konversation vergisst, von einem KI-Mitarbeiter, der aus jeder Interaktion lernt.

Warum drei Schichten (Memories, Episodes, Procedures)?

Fakten, Ereignisse und Workflows beantworten unterschiedliche Fragen. Sie zu mischen führt zu schlechterem Retrieval. Memories speichern diskrete Fakten und Präferenzen, Episodes speichern Konversationszusammenfassungen, Procedures speichern gelernte Workflows. Jede Schicht hat ihre eigenen Retrieval- und Lifecycle-Regeln.

Wie entscheidet das Scoring, was abgerufen wird?

Fünf gewichtete Faktoren: Relevanz (50 %, semantischer + Keyword-Match), Wichtigkeit (15 %), Konfidenz (15 %), Aktualität (10 %), Häufigkeit (10 %). Relevanz dominiert, damit die richtige Erinnerung die aktuellste schlägt — das verhindert die Recency-Bias-Falle.

Wie sieht der Speicher-Lifecycle aus?

Extraktion (alle 4 Nachrichten, 0–30 Erinnerungen), Deduplizierung (Jaccard 60 % + 3 gemeinsame Keywords), Konsolidierung (beinahe-Duplikate zusammenführen, höchste Konfidenz behalten) und Ablauf (Wichtigkeit < 0,1 und seit 120 Tagen ungenutzt). Das verhindert Memory-Bloat, der die Retrieval-Qualität verschlechtert.

KI-Speicherverwaltung: Vollständiger Leitfaden 2026

April 2026 · 12 Min. Lesezeit · Fran Olivares, Gründer von OlivaresAI

KI-Speicherverwaltung ist die Disziplin, das Wissen, das ein KI-System im Laufe der Zeit sammelt, zu speichern, zu organisieren, zu bewerten, abzurufen und ablaufen zu lassen. 2026 ist sie der Unterschied zwischen einem austauschbaren Chatbot und einem echten Mitarbeiter. Das Muster ist eine dreistufige Architektur (Memories / Episodes / Procedures) plus Fünf-Faktoren-Scoring (Relevanz 50 % / Wichtigkeit 15 % / Konfidenz 15 % / Aktualität 10 % / Häufigkeit 10 %) plus ein vollständiger Lifecycle (Extraktion → Deduplizierung → Konsolidierung → Ablauf).

KI-Speicherverwaltung ist die Disziplin, Wissen, das ein KI-System im Laufe der Zeit sammelt, zu speichern, zu organisieren, zu bewerten, abzurufen und ablaufen zu lassen. 2026 ist sie zum entscheidenden Unterscheidungsmerkmal geworden zwischen KI-Tools, die sich wie austauschbare Chatbots anfühlen, und KI-Systemen, die als echte Mitarbeiter fungieren. Dieser Leitfaden behandelt alles: von grundlegenden Architektur-Entscheidungen bis zu praktischen Details von Scoring-Algorithmen und Kontext-Assemblierung.

Warum ist KI-Speicherverwaltung wichtig?

Ohne Speicherverwaltung ist jede KI-Konversation ein isoliertes Ereignis. Der Nutzer erklärt denselben Kontext immer wieder. Die KI macht dieselben Fehler, für die sie gestern korrigiert wurde. Entscheidungen, die vor drei Wochen getroffen wurden, sind unsichtbar. Das ist keine geringfügige Unannehmlichkeit — es ist ein grundlegendes architektonisches Versagen, das KI daran hindert, in irgendeinem nachhaltigen Workflow nützlich zu sein.

Die Kosten sind real: Eine Studie von Deloitte schätzte, dass Wissensarbeiter 20 % ihrer Zeit damit verbringen, nach bereits vorhandenen Informationen zu suchen oder sie neu zu erstellen. Wenn Ihre KI keinen Speicher hat, wird dieser Prozentsatz schlechter, nicht besser. Sie zahlen für Intelligenz, die alles vergisst, was sie lernt.

Was sind die drei Schichten des KI-Speichers?

Effektive Speicherverwaltung erfordert mehr als einen flachen Key-Value-Store. Alma verwendet eine dreistufige Architektur, die widerspiegelt, wie menschliche Kognition tatsächlich funktioniert:

1. Semantische Memories (Fakten und Präferenzen)

Dies sind diskrete Wissensbestände: „Der Nutzer bevorzugt TypeScript gegenüber JavaScript", „Das Projekt nutzt PostgreSQL 16", „Kunden-Deadline ist der 15. März". Jede Erinnerung hat Metadaten — eine Kategorie, einen Wichtigkeits-Score (0,0 bis 1,0), ein Konfidenzniveau, die Quellkonversation und ein Vektor-Embedding für semantische Suche. Memories sind das Fundament. Sie beantworten die Frage: Was weiß die KI über diesen Nutzer?

2. Episodes (Konversationszusammenfassungen)

Episodes sind komprimierte Aufzeichnungen dessen, was in vorherigen Konversationen geschehen ist. Nicht das vollständige Transkript — eine strukturierte Zusammenfassung: Was wurde diskutiert, was wurde entschieden, was hat sich geändert. Episodes beantworten die Frage: Was ist im Laufe der Zeit passiert? Sie geben der KI ein Gefühl für Narrativ und Fortschritt.

3. Procedures (Gelernte Workflows)

Procedures sind Schritt-für-Schritt-Muster, die die KI aus wiederholten Interaktionen gelernt hat. „Wenn der Nutzer um ein Deployment bittet, prüfe zuerst die Test-Suite, dann führe die Migration aus, dann deploye nach Staging." Procedures beantworten die Frage: Wie sollte sich die KI in bestimmten Situationen verhalten?

Wie entscheidet KI-Speicher-Scoring, was abgerufen wird?

Erinnerungen zu speichern ist einfach. Die richtigen Erinnerungen zum richtigen Zeitpunkt abzurufen ist das schwierige Problem. Alma verwendet ein Multi-Faktor-Scoring-System mit fünf gewichteten Dimensionen:

Relevanz (50 %) — Wie semantisch nah ist diese Erinnerung zur aktuellen Konversation? Gemessen anhand der Kosinus-Ähnlichkeit zwischen Vektor-Embeddings.
Wichtigkeit (15 %) — Wie kritisch ist diese Erinnerung? Vom Nutzer angegebene Fakten erhalten einen höheren Score als abgeleitete Beobachtungen.
Konfidenz (15 %) — Wie zuverlässig ist die Quelle? Direkte Nutzeraussagen erhalten 1,0, LLM-Inferenzen 0,7, beobachtete Muster 0,5.
Aktualität (10 %) — Wann wurde diese Erinnerung zuletzt erstellt oder aufgerufen? Exponentieller Abfall verhindert, dass veraltete Informationen dominieren.
Häufigkeit (10 %) — Wie oft wird diese Erinnerung referenziert? Häufig genutzte Erinnerungen werden verstärkt.

Die Gewichte sind bewusst gewählt. Relevanz dominiert, weil das primäre Ziel darin besteht, die richtige Erinnerung für den aktuellen Kontext zu finden. Aktualität ist bewusst niedrig — eine Tatsache von vor drei Monaten ist immer noch eine Tatsache. Das verhindert das Problem des „Recency Bias", bei dem KI-Systeme neue Informationen einfach deshalb priorisieren, weil sie neu sind.

Wie verwandelt die Kontext-Assemblierung Speicher in einen System-Prompt?

Speicher ohne Retrieval ist eine Datenbank, keine Intelligenz. Kontext-Assemblierung ist der Prozess, der gespeicherte Erinnerungen in einen nützlichen System-Prompt verwandelt. In Alma geschieht das in unter 100 ms:

Query-Expansion — Die Nachricht des Nutzers wird embeddet und genutzt, um alle drei Speicher-Schichten parallel zu durchsuchen.
Kandidaten-Retrieval — Bis zu 100 Kandidaten aus Vectorize (semantische Suche) plus Keyword-Treffer.
Scoring und Ranking — Das Multi-Faktor-Scoring-System ordnet alle Kandidaten.
Token-Budgetierung — Die am höchsten bewerteten Memories, Episodes und Procedures werden innerhalb des Token-Budgets des Nutzer-Tarifs ausgewählt.
Prompt-Konstruktion — Soul-Blöcke (Identität, Persönlichkeit, Regeln) haben Priorität, dann Memories, dann Episodes, dann Procedures.

Wie wird der KI-Speicher-Lifecycle verwaltet?

Erinnerungen sind standardmäßig nicht permanent. Alma implementiert einen vollständigen Lifecycle:

Extraktion — Nach jeweils 4 Nachrichten extrahiert der Hintergrund-Prozessor 0–30 Erinnerungen aus der Konversation mittels Claude Haiku.
Deduplizierung — Neue Erinnerungen werden mittels Jaccard-Ähnlichkeit (60 %-Schwelle bei 3+ gemeinsamen Keywords) gegen bestehende geprüft.
Konsolidierung — Doppelte und beinahe-doppelte Erinnerungen werden zusammengeführt, wobei die höchste Konfidenz und die aktuellste Quelle erhalten bleiben.
Ablauf — Erinnerungen mit einer Wichtigkeit unter 0,1, die seit 120 Tagen nicht aufgerufen wurden, sind Kandidaten für den Ablauf.

Dieser Lifecycle verhindert das Problem der „Memory-Bloat", bei dem KI-Systeme Tausende von Erinnerungen mit geringem Wert ansammeln, die die Retrieval-Qualität verschlechtern.

Wie sollte ich mein eigenes KI-Speicher-System architektonisch gestalten?

Wenn Sie Ihr eigenes KI-Speicher-System bauen, sind hier die wichtigsten Architektur-Entscheidungen:

Trennen Sie Speicherung von Retrieval — Ihre Vektordatenbank ist nicht Ihr Speicher-System. Sie benötigen Scoring, Lifecycle-Management und Kontext-Assemblierung darüber.
Nutzen Sie hybride Suche — Reine semantische Suche verfehlt exakte Treffer. Reine Keyword-Suche verfehlt konzeptionelle Verbindungen. Kombinieren Sie beides.
Budgetieren Sie Ihr Kontextfenster — Alles, was die KI weiß, einzuspeisen ist schlechter, als nichts einzuspeisen. Priorisieren Sie rigoros.
Machen Sie Erinnerungen editierbar — Nutzer müssen korrigieren, löschen und neu organisieren können, was die KI weiß. Ein Black-Box-Speicher-System ist eine Vertrauenslast.

Oder überspringen Sie die Infrastruktur-Arbeit komplett: Alma bietet all das out of the box. Vollständige REST API, MCP-Server und JavaScript SDK für Entwickler, die persistenten Speicher in ihre eigenen Tools integrieren wollen.

See plans