Aktualisiert Mai 2026
Letta ist die produktionsreife Evolution von MemGPT, dem Forschungspapier von 2023, das vorschlug, das Kontextfenster eines LLM als OS-Analog von RAM zu behandeln und „Memory Paging" zu verwenden, um weniger relevante Fakten ein- und auszulagern. Das Framework wird Open Source unter Apache 2.0 ausgeliefert und ist für Engineering-Teams konzipiert, die autonome KI-Agenten bauen — Agenten, die über mehrere Schritte ohne Menschen im Loop agieren, die Zustand über Sitzungen hinweg pflegen und über ihren eigenen Speicher reasoning müssen.
Lettas gestaffelter Speicher hat drei Schichten: Core Memory (immer im Kontext, vom Agenten selbst über Tool-Aufrufe bearbeitet), Archival Memory (vektor-durchsuchbar, vom Agenten abgefragt) und Recall Memory (vollständige Konversationsgeschichte). Das definierende Merkmal ist Selbstverwaltung: Der Agent entscheidet, was in Core befördert wird, was archiviert wird, was vergessen wird. Es gibt außerdem Letta Cloud (kostenpflichtige gehostete Stufe) und eine entwicklerorientierte Web-UI zum Bauen und Testen von Agenten.
Alma ist ein vollständiges persistentes Speicherprodukt für Endnutzer und Entwickler. Endnutzer registrieren sich unter alma.olivares.ai, chatten mit Anthropic Claude (Haiku, Sonnet, Opus 4.7 mit 1M-tokens-Kontext), und die Speicherschicht erfasst automatisch Fakten, Präferenzen und Entscheidungen. Soul Engine kümmert sich um Identität. Image-, Video-, Music- und Code-Studios sind gebündelt. Entwickler können denselben Speicher auch über den MCP-Server, das JavaScript SDK und die REST API im Max-Tarif erreichen.
Der Speicher ist in drei Schichten strukturiert (Memories / Episodes / Procedures), jede typisiert, jede unterschiedlich abgerufen. Kostenpflichtige Tarife starten bei $14/Monat (Starter) mit der vollen Soul Engine und unbegrenzten Erinnerungen.
Beide haben drei Schichten, aber die Philosophie ist entgegengesetzt. Lettas Stufen handeln davon, wo die Daten relativ zum Kontextfenster leben — Core (immer drin), Archival (einen Tool-Aufruf entfernt), Recall (gesamte Geschichte). Der Agent bewegt Daten zwischen Stufen mit eingebauten Tools.
Almas Schichten handeln davon, welche Art von Wissen es ist — Memories (Fakten), Episodes (Ereignisse), Procedures (Workflows). Jede Schicht hat ihre eigenen Retrieval- und Lifecycle-Regeln. Der Nutzer kann alles in jeder Schicht lesen, bearbeiten, bewerten und löschen. Die Kontext-Assemblierung komponiert sie vor jedem Chat in den System-Prompt — der Nutzer muss nicht darüber nachdenken, aber er kann alles inspizieren.
Die Kontrollachse ist am wichtigsten. Letta ist agenten-verwaltet: Das LLM selbst ist der Kurator. Das ist mächtig für autonome Agenten, aber schwieriger vorherzusagen — Ihr Agent könnte entscheiden, dass Ihre Stack-Präferenz unwichtig ist, und sie archivieren. Alma ist nutzergesteuert: Wichtigkeit, Konfidenz, Kategorie und vollständiges CRUD liegen in den Händen des Nutzers. Vorhersehbar, debuggbar, exportierbar.
Letta ist für Engineering-Teams, die autonome KI-Agenten bauen — Produkte, in denen die KI ohne Menschen im Loop läuft, Entscheidungen trifft und das OS-Stil-Speichermodell braucht, um über lange Horizonte kohärent zu bleiben. Das Framework ist Open Source, sodass Sie jede Zeile lesen, forken und selbst hosten können.
Alma ist für Endnutzer, die KI mit Speicher über die Tools möchten, mit denen sie bereits arbeiten — Cursor, Claude Desktop, VSCode, Windsurf, die Alma-Web-App — und für Entwickler, die eine vollständige kognitive Schicht in ihre eigenen Produkte einbetten möchten, ohne sie von Grund auf zu schreiben. Der Trade-off ist Closed-Source-SaaS, aber mit der Geschwindigkeit und Stabilität, die damit einhergeht.
| Feature | Letta (MemGPT) | Alma |
|---|---|---|
| Ziel-Nutzer | Entwickler, die autonome KI-Agenten bauen | Endnutzer + Entwickler |
| Speicher-Modell | Gestaffelt nach Standort: Core + Archival + Recall (agenten-verwaltet) | Typisiert nach Form: Memories + Episodes + Procedures (nutzergesteuert) |
| Speicher-Kuration | Agent entscheidet per Tool-Aufrufen — Vorhersehbarkeit variiert je nach Modell | Nutzer kontrolliert: vollständiges CRUD, Kategorien, Wichtigkeit, Scoring, Suche |
| Endnutzer-Produkt | Nein — Entwickler-SDK / Framework + Letta-Cloud-Dashboard | Ja — vollständige Web-App mit Chat, Streaming, Tools, Dateianhängen |
| KI-Identität | Agenten-Persona über System-Prompt + Core Memory | Soul Engine — 13 versionierte Identitätsblöcke über XML-Abschnitte |
| Tool-übergreifende Reichweite | Was auch immer Sie darauf bauen — kein MCP / VSCode out of the box | MCP (Claude Desktop / Cursor / Windsurf), VSCode, SDK, REST API |
| Kreativtools | Keine | Image- / Video- / Music- / Code-Studios in Pro und Max |
| Open Source | Ja (Apache 2.0) | Nein (gehostetes SaaS) |
| Self-Host | Ja | Nein |
| Preisgestaltung | Free (selbst gehostet) · Letta Cloud (kostenpflichtige Stufen) | Starter $14/Monat · Pro $29/Monat · Max $99/Monat |
Letta selbst gehostet ist kostenlos, wenn Sie den Engineering-Aufwand mitbringen: einen Server, eine Datenbank, Deployment, Monitoring, Updates. Letta Cloud ist die gemanagte Alternative mit kostenpflichtigen, nutzungsbasierten Stufen. Almas Preisgestaltung ist fest und endnutzerfreundlich: Starter $14/Monat (unbegrenzte Erinnerungen, Haiku + Sonnet), Pro $29/Monat (ergänzt Opus 4.7 mit 1M-tokens-Kontext, unbegrenzte Environments und Kreativ-Studios), Max $99/Monat (ergänzt REST API, MCP-Server, VSCode-Erweiterung, SDK und BYOK). Jahresabrechnung ist „10 Monate bezahlen, 12 erhalten" in jedem kostenpflichtigen Tarif.
Einen langlaufenden autonomen Agenten bauen. Ein Team baut einen KI-Agenten, der über mehrere Schritte ohne menschliches Eingreifen läuft — Forschungsagenten, Ops-Agenten, mehrstufige Automatisierung. Der OS-Stil-gestaffelte Speicher in Letta (Core / Archival / Recall) ist genau dafür konzipiert: Der Agent verwaltet selbst, was im Kontext bleibt. Almas nutzergesteuertes 3-Schichten-Modell ist standardmäßig konversationsorientiert; es kann eine autonome Schleife über das SDK antreiben, aber die Kurations-Philosophie ist entgegengesetzt — vorhersehbar, offengelegt, vom Nutzer statt vom Agenten bearbeitet.
Endnutzer möchte Speicher über die Tools, die er bereits nutzt. Letta ist für Engineering-Teams; es gibt kein Endnutzer-Produkt. Alma ist das Endnutzer-Produkt. Registrieren Sie sich unter alma.olivares.ai, verbinden Sie den MCP-Server in fünf Minuten, und jeder unterstützte KI-Client (Claude Desktop, Cursor, Windsurf, Claude Code, VSCode) hat denselben Speicher. Der Nutzer denkt nie über Archival-Memory-Paging oder Recall-Queues nach; Alma kümmert sich automatisch um das Retrieval.
Open-Source, Self-Host-Anforderung. Ein Team hat die harte Anforderung, dass alle Komponenten innerhalb der eigenen Infrastruktur mit auditierbarem Quellcode laufen. Letta ist die richtige Wahl — Apache 2.0, vollständiger Quellcode, laufen lassen, wo Sie wollen. Alma ist ein gehostetes SaaS und nicht das richtige Werkzeug, wenn Self-Hosting Pflicht ist.
Wählen Sie Letta, wenn Sie autonome KI-Agenten bauen — langlaufende, mehrstufige, Entscheidungen-ohne-Menschen-treffende Agenten — und die OS-Stil-gestaffelte Speicher-Abstraktion sauber auf Ihr Problem abbildet. Wählen Sie Letta, wenn Open Source nicht verhandelbar ist, wenn Sie den gesamten Stack selbst hosten möchten oder wenn Ihr Engineering-Team Bandbreite hat, das Framework zu erweitern und zu betreiben. Lettas Forschungsabstammung (das ursprüngliche MemGPT-Papier) und die aktive Community sind echte Vorteile, wenn Sie das Framework in eigene Richtungen treiben müssen.
Wählen Sie Alma, wenn Sie KI mit Speicher nutzen möchten, statt Infrastruktur für autonome Agenten zu bauen. Registrieren Sie sich unter alma.olivares.ai, beginnen Sie zu chatten, und der Speicher funktioniert. Wenn Sie auch in Cursor, Claude Desktop, VSCode oder Windsurf arbeiten, installieren Sie den MCP-Server (kostenlos), und derselbe Speicher folgt Ihnen. Wählen Sie Alma, wenn Sie eine strukturierte, vorhersehbare KI-Identität (Soul Engine) möchten, wenn Sie vollen Export und Bearbeitungs-Kontrolle über das benötigen, was die KI weiß, oder wenn Sie gebündelte Kreativ-Studios wünschen. Entwickler, die eine vollständige kognitive Schicht in ihrem eigenen Produkt möchten (Memories + Episodes + Procedures + Soul + bewertete Kontext-Assemblierung), erhalten das SDK, den MCP-Server und die REST API im Max-Tarif.
Sind Lettas gestaffelter Speicher und Almas 3-Schichten-Speicher dasselbe? Nein. Lettas Stufen beschreiben, wo die Daten relativ zum Kontextfenster leben (Core / Archival / Recall). Almas Schichten beschreiben, welche Art von Wissen es ist (Fakten / Ereignisse / Workflows). Unterschiedliche Achsen, unterschiedliche Kurationsmodelle.
Kann Alma als autonomer Agent laufen? Nicht nativ im Letta-Sinne — Almas Chat ist konversationsorientiert, mit dem Nutzer, der jeden Zug antreibt. Speicher sammelt sich aus diesen Konversationen. Wenn Sie eine vollautonome Agenten-Schleife möchten, bauen Sie sie auf dem Alma-SDK / der API; Alma gibt Ihnen die kognitive Schicht, Sie bauen die Agenten-Schleife.
Ist Alma Open Source? Nein. Alma ist ein gehostetes SaaS. Letta ist Open Source unter Apache 2.0 und die richtige Wahl, wenn Open Source eine harte Anforderung ist.
Kann ich meine Letta-Erinnerungen in Alma migrieren? Nicht über einen Ein-Klick-Import heute. Der Formunterschied (Letta-Stufen vs. Alma-typisierte Schichten) bedeutet, dass es eine strukturierte Konvertierung braucht. Die REST API in Max erlaubt es Ihnen, den Import selbst zu schreiben, wenn Sie einen Letta-Archival-Speicher haben und ihn übertragen möchten.
Tarife ansehen · Tarife ansehen · Entwicklerdokumentation und SDK