April 2026 · 10 Min. Lesezeit · Fran Olivares, Gründer von OlivaresAI
@olivaresai/alma-mcp in fünf Minuten in Ihre Client-Konfiguration installieren — kein Code; das JavaScript SDK nutzen, um vor LLM-Aufrufen Kontext zu holen und danach Erinnerungen zu extrahieren; oder die REST API direkt aus jeder Sprache aufrufen. Alle drei verbinden sich mit derselben Alma-Speicherschicht.Jede KI-Konversation beginnt bei null. Ihr Assistent vergisst Ihren Namen, Ihr Projekt, Ihre Präferenzen — jedes einzelne Mal. Das ist die grundlegende Einschränkung zustandsloser KI und der größte Grund, warum sich KI eher wie ein Werkzeug als wie ein Mitarbeiter anfühlt. Dieser Leitfaden führt Sie durch drei konkrete Ansätze, das zu lösen, vom Setup ohne Code bis zur vollständigen API-Integration.
Wenn Sie ChatGPT, Claude oder einen beliebigen KI-Chat nutzen, verschwindet der Kontext, wenn die Konversation endet. Sie erklären dieselben Dinge immer wieder: Ihren Tech-Stack, Ihren Coding-Stil, Ihre Projektarchitektur, Ihre Präferenzen. Das verschwendet Zeit und führt zu schlechteren Ergebnissen, weil die KI nie ein tiefes Verständnis davon aufbaut, wer Sie sind oder woran Sie arbeiten.
Plattformeigene Memory-Funktionen (ChatGPT Memory, Claude Projects) helfen, sind aber in der Kapazität begrenzt, an eine einzige Plattform gebunden und bieten keine Entwickler-API. Wenn Sie ein KI-gestütztes Produkt bauen, brauchen Sie eine unabhängige Speicherschicht.
Das Model Context Protocol (MCP) ist der schnellste Weg. Wenn Ihre KI in Claude Desktop, Cursor, Windsurf, Claude Code oder einem MCP-kompatiblen Client läuft, können Sie persistenten Speicher in unter 5 Minuten hinzufügen.
Schritt 1: Registrieren Sie sich unter alma.olivares.ai und generieren Sie einen API-Schlüssel in den Einstellungen.
Schritt 2: Fügen Sie @olivaresai/alma-mcp mit Ihrem API-Schlüssel zu Ihrer MCP-Client-Konfiguration hinzu. Für Claude Desktop bearbeiten Sie claude_desktop_config.json. Für Cursor verwenden Sie das MCP-Einstellungsfenster.
Schritt 3: Starten Sie Ihren Client neu. Der Server stellt 35 Tools bereit: alma_remember (eine Erinnerung speichern), alma_recall (Erinnerungen durchsuchen), alma_assemble (Kontext aus allen Speicher-Schichten aufbauen), alma_extract (Fakten aus Text extrahieren) und mehr. Ihre KI kann nun einen persistenten Speicher lesen und beschreiben, der über jede Konversation hinweg bestehen bleibt.
MCP ist ideal für persönliche Workflows — Claude Desktop für allgemeine KI-Arbeit, Cursor zum Programmieren, Claude Code für terminalbasierte Entwicklung. Ein Speicher, überall.
Das JavaScript SDK (@olivaresai/alma-sdk) gibt Ihnen vollständige programmatische Kontrolle für eigene Anwendungen. Das Kern-Integrationsmuster hat drei Schritte:
client.context.assemble({ query }) auf, um einen System-Prompt zu erhalten, der mit relevanten Memories, Episodes, Procedures und Soul-Blöcken angereichert ist.client.memories.extract({ text }) auf, um neue Fakten aus der Konversation zu speichern. Oder erstellen Sie Erinnerungen direkt mit client.memories.create().Das SDK umfasst alle 140+ API-Endpunkte mit vollständigen TypeScript-Typen. Installation mit npm install @olivaresai/alma-sdk. Es ist ESM-only und erfordert Node.js 18+.
Die REST API bietet direkten HTTP-Zugriff aus jeder Sprache oder Plattform. Wichtige Endpunkte:
POST /api/v1/context/assemble — Erstellt einen Kontext-Prompt aus Memories, Episodes, Procedures und Soul-BlöckenPOST /api/v1/memories — Erstellt eine Erinnerung mit Inhalt, Kategorie, Wichtigkeit und KonfidenzGET /api/v1/memories/search?q=query&mode=hybrid — Hybride semantische + Keyword-SuchePOST /api/v1/memories/extract — LLM-gestützte Extraktion von Fakten aus TextPOST /api/v1/blocks — Konfiguration von Soul-Engine-Blöcken für KI-IdentitätDie Authentifizierung erfolgt über API-Schlüssel (X-API-Key-Header). Basis-URL: https://alma.olivares.ai/api/v1.
Almas dreistufige Architektur trennt Wissen in drei Typen:
Wenn Sie eine Konversation starten, durchsucht die Kontext-Assemblierung alle drei Schichten mit hybrider Suche, bewertet Ergebnisse nach Relevanz (50 %), Wichtigkeit (15 %), Konfidenz (15 %), Aktualität (10 %) und Häufigkeit (10 %) und speist dann den am höchsten bewerteten Kontext in den System-Prompt ein — alles in unter 100 ms.
Erinnerungen werden alle 4 Nachrichten automatisch aus Konversationen extrahiert. Der Extraktor identifiziert 0–30 Fakten pro Konversation mittels Claude Haiku. Duplikate werden über Jaccard-Ähnlichkeit (60 %-Schwelle) erkannt und zusammengeführt. Veraltete Erinnerungen mit geringer Wichtigkeit laufen nach 120 Tagen Inaktivität ab.
Speicher allein gibt Ihrer KI Fakten. Die Soul Engine gibt ihr Identität. Konfigurieren Sie strukturierte Blöcke — Persönlichkeit, Expertise, Kommunikationsstil, Regeln und Kontext — die über jede Konversation hinweg bestehen. Im Gegensatz zu einem einzelnen System-Prompt, der in langen Konversationen verwässert wird, sind Soul-Engine-Blöcke versioniert, organisiert und werden immer mit Priorität eingespeist.
Environments ermöglichen es, Speicher-Kontexte zu isolieren. Halten Sie berufliche, private und kundenspezifische Erinnerungen vollständig getrennt. Jedes Environment hat seine eigenen Memories, Episodes, Procedures und Soul-Blöcke. Die KI wechselt Persönlichkeit und Wissen, wenn Sie das Environment wechseln.
Starten Sie unter alma.olivares.ai. Der Starter-Tarif ($14/Monat) enthält unbegrenzte Erinnerungen bei einem $2 wöchentlichen KI-Budget, 1 Environment und vollen Chat-Zugang. Alle Integrationsmethoden — MCP, SDK, API — funktionieren in jedem Tarif.
Für mehr Tiefe: KI-Speicherverwaltung: Vollständiger Leitfaden 2026 · KI-Assistenten bauen, die sich alles merken · Persistenter Speicher vs. RAG