Mis à jour mai 2026
Letta est l’évolution de niveau production de MemGPT, le paper de recherche de 2023 qui proposait de traiter la fenêtre de contexte d’un LLM comme l’analogue OS de la RAM et d’utiliser un « memory paging » pour faire entrer et sortir des faits moins pertinents. Le framework est livré open-source sous Apache 2.0 et est conçu pour les équipes d’ingénierie qui construisent des agents IA autonomes — des agents qui agissent sur plusieurs étapes sans humain dans la boucle, qui maintiennent un état à travers les sessions et doivent raisonner sur leur propre mémoire.
La mémoire à niveaux de Letta a trois couches : core memory (toujours en contexte, éditée par l’agent lui-même via des appels d’outils), archival memory (consultable par vecteur, interrogée par l’agent) et recall memory (historique complet de conversation). Le trait distinctif est l’auto-gestion: l’agent décide ce qui est promu vers core, ce qui est archivé, ce qui est oublié. Il y a aussi Letta Cloud (offre hébergée payante) et une UI web orientée développeurs pour construire et tester des agents.
Alma est un produit complet de mémoire persistante pour utilisateurs finaux et développeurs. Les utilisateurs finaux s’inscrivent sur alma.olivares.ai, discutent avec Anthropic Claude (Haiku, Sonnet, Opus 4.7 avec contexte 1M tokens) et la couche mémoire capture faits, préférences et décisions automatiquement. Le Soul Engine gère l’identité. Les studios Image, Vidéo, Musique et Code sont groupés. Les développeurs peuvent aussi atteindre la même mémoire via le serveur MCP, le JavaScript SDK et la REST API sur le plan Max.
La mémoire est structurée en trois couches (mémoires / épisodes / procédures), chacune typée, chacune récupérée différemment. Les plans payants démarrent à $14/mois (Starter) avec le Soul Engine complet et des mémoires illimitées.
Les deux ont trois couches, mais la philosophie est inverse. Les niveaux de Letta concernent l’endroit où vivent les données par rapport à la fenêtre de contexte — core (toujours dedans), archival (à un appel d’outil), recall (tout l’historique). L’agent déplace les données entre niveaux en utilisant des outils intégrés.
Les couches d’Alma concernent le type de connaissance — mémoires (faits), épisodes (événements), procédures (workflows). Chaque couche a ses propres règles de récupération et de cycle de vie. L’utilisateur peut lire, modifier, pondérer et supprimer n’importe quoi dans n’importe quelle couche. L’assemblage de contexte les compose dans le prompt système avant chaque chat — l’utilisateur n’a pas à y penser, mais peut tout inspecter.
L’axe du contrôle est le plus important. Letta est géré par l’agent: le LLM lui-même est le curateur. C’est puissant pour les agents autonomes mais plus difficile à prédire — votre agent pourrait décider que votre préférence de stack n’est pas importante et l’archiver. Alma est contrôlé par l’utilisateur: importance, confiance, catégorie et CRUD complet vivent dans les mains de l’utilisateur. Prévisible, débogable, exportable.
Letta est pour les équipes d’ingénierie qui construisent des agents IA autonomes — des produits où l’IA tourne sans humain dans la boucle, prend des décisions et a besoin du modèle mémoire de style OS pour rester cohérente sur de longs horizons. Le framework est open source pour que vous puissiez lire chaque ligne, le forker et l’auto-héberger.
Alma est pour les utilisateurs finaux qui veulent une IA avec mémoire à travers les outils dans lesquels ils travaillent déjà — Cursor, Claude Desktop, VSCode, Windsurf, l’application web Alma — et pour les développeurs qui veulent une couche cognitive complète à intégrer dans leurs propres produits sans en écrire une depuis zéro. Le compromis est un SaaS à code fermé, mais avec la vitesse et la stabilité qui vont avec.
| Fonctionnalité | Letta (MemGPT) | Alma |
|---|---|---|
| Utilisateur cible | Développeurs qui construisent des agents IA autonomes | Utilisateurs finaux + développeurs |
| Modèle mémoire | À niveaux par emplacement : core + archival + recall (gérée par l’agent) | Typée par forme : mémoires + épisodes + procédures (contrôlée par l’utilisateur) |
| Curation de la mémoire | L’agent décide via des appels d’outils — la prévisibilité varie selon le modèle | L’utilisateur contrôle : CRUD complet, catégories, importance, pondération, recherche |
| Produit utilisateur final | Non — SDK développeur / framework + tableau de bord Letta Cloud | Oui — application web complète avec chat, streaming, outils, pièces jointes |
| Identité IA | Persona d’agent via prompt système + core memory | Soul Engine — 13 blocs d’identité versionnés à travers sections XML |
| Portée cross-outils | Tout ce que vous construisez par-dessus — pas de MCP / VSCode prêts à l’emploi | MCP (Claude Desktop / Cursor / Windsurf), VSCode, SDK, REST API |
| Outils créatifs | Aucun | Studios Image / Vidéo / Musique / Code en Pro et Max |
| Open source | Oui (Apache 2.0) | Non (SaaS hébergé) |
| Auto-hébergement | Oui | Non |
| Tarification | Gratuit (auto-hébergé) · Letta Cloud (offres payantes) | Starter $14/mois · Pro $29/mois · Max $99/mois |
Letta auto-hébergé est gratuit si vous apportez l’effort d’ingénierie : un serveur, une base de données, du déploiement, du monitoring, des mises à jour. Letta Cloud est l’alternative managée avec des offres payantes basées sur l’usage. La tarification d’Alma est fixe et accessible aux utilisateurs finaux : Starter $14/mois (mémoires illimitées, Haiku + Sonnet), Pro $29/mois (ajoute Opus 4.7 avec contexte 1M tokens, environnements illimités et studios créatifs), Max $99/mois (ajoute REST API, serveur MCP, extension VSCode, SDK et BYOK). La facturation annuelle est « payez 10 mois, obtenez-en 12 » sur chaque plan payant.
Construire un agent autonome de longue durée. Une équipe construit un agent IA qui tourne sur plusieurs étapes sans intervention humaine — agents de recherche, agents ops, automatisation multi-étapes. La mémoire à niveaux de style OS dans Letta (core / archival / recall) est conçue exactement pour ça : l’agent gère lui-même ce qui reste en contexte. Le modèle à 3 couches contrôlé par l’utilisateur d’Alma est conversationnel par défaut ; il peut piloter une boucle autonome via le SDK, mais la philosophie de curation est inverse — prévisible, exposée, éditée par l’utilisateur au lieu de l’agent.
L’utilisateur final veut une mémoire à travers les outils qu’il utilise déjà. Letta est pour les équipes d’ingénierie ; il n’y a pas de produit utilisateur final. Alma est le produit utilisateur final. Inscrivez-vous sur alma.olivares.ai, connectez le serveur MCP en cinq minutes, et chaque client IA pris en charge (Claude Desktop, Cursor, Windsurf, Claude Code, VSCode) a la même mémoire. L’utilisateur ne pense jamais au paging de la mémoire archival ou aux files de recall ; Alma gère la récupération automatiquement.
Exigence open-source et auto-hébergement. Une équipe a l’exigence stricte que tous les composants tournent dans sa propre infrastructure avec un code auditable. Letta est le bon choix — Apache 2.0, source complète, exécutez-le où vous voulez. Alma est un SaaS hébergé et n’est pas le bon outil quand l’auto-hébergement est obligatoire.
Choisissez Letta si vous construisez des agents IA autonomes — agents de longue durée, multi-étapes, qui prennent des décisions sans humain — et que l’abstraction mémoire à niveaux de style OS se mappe proprement sur votre problème. Choisissez Letta si l’open source est non négociable, si vous voulez auto-héberger toute la stack, ou si votre équipe d’ingénierie a la bande passante pour étendre et opérer le framework. La filiation recherche de Letta (le paper MemGPT original) et la communauté active sont de vrais atouts quand vous devez pousser le framework dans des directions sur mesure.
Choisissez Alma si vous voulez utiliser l’IA avec mémoire plutôt que construire de l’infrastructure pour des agents autonomes. Inscrivez-vous sur alma.olivares.ai, commencez à discuter, et la mémoire fonctionne. Si vous travaillez aussi dans Cursor, Claude Desktop, VSCode ou Windsurf, installez le serveur MCP (gratuit) et la même mémoire vous suit. Choisissez Alma si vous voulez une identité IA structurée et prévisible (Soul Engine), si vous avez besoin d’un contrôle complet d’export et d’édition sur ce que l’IA sait, ou si vous voulez des studios créatifs groupés. Les développeurs qui veulent une couche cognitive complète dans leur propre produit (mémoires + épisodes + procédures + Soul + assemblage de contexte pondéré) obtiennent le SDK, le serveur MCP et la REST API sur le plan Max.
La mémoire à niveaux de Letta et la mémoire à 3 couches d’Alma sont-elles la même chose ? Non. Les niveaux de Letta décrivent où vivent les données par rapport à la fenêtre de contexte (core / archival / recall). Les couches d’Alma décrivent le type de connaissance (faits / événements / workflows). Axes différents, modèles de curation différents.
Alma peut-il fonctionner comme un agent autonome ? Pas nativement au sens de Letta — le chat d’Alma est conversationnel, l’utilisateur pilote chaque tour. La mémoire s’accumule à partir de ces conversations. Si vous voulez une boucle d’agent entièrement autonome, construisez-la sur le SDK / API d’Alma ; Alma vous donne la couche cognitive, vous construisez la boucle d’agent.
Alma est-il open source ? Non. Alma est un SaaS hébergé. Letta est open source sous Apache 2.0 et est le bon choix si l’open source est une exigence stricte.
Puis-je migrer mes mémoires Letta vers Alma ? Pas via un import en un clic aujourd’hui. La différence de forme (niveaux Letta vs couches typées Alma) nécessiterait une conversion structurée. La REST API en Max vous permet d’écrire l’import vous-même si vous avez un stockage archival Letta et voulez le transposer.
Voir les offres · Voir les offres · Documentation et SDK développeurs