La ventana de contexto es la memoria de trabajo de una sola conversación: todo lo que el modelo "ve" ahora mismo. Es amplia pero temporal y se reinicia al terminar la conversación. La memoria persistente vive fuera de la conversación: guarda los hechos duraderos que merece la pena conservar y reinyecta solo los relevantes en cada sesión nueva, de modo que el modelo se comporta como si te recordara sin releer todo el historial cada vez.
El RAG (generación aumentada por recuperación) recupera fragmentos de documentos que tú aportas — una base de conocimiento, un conjunto de ficheros — y ancla las respuestas en ellos. La memoria persistente va sobre ti: captura y estructura lo que le cuentas a la IA con el tiempo (preferencias, decisiones, proyectos en curso) en lugar de indexar un corpus documental. Son complementarios y muchos sistemas usan ambos.
Hechos ("uso TypeScript, no Java"), preferencias ("responde de forma concisa"), decisiones ("elegimos Postgres en vez de MySQL") y patrones recurrentes. En Alma esto se organiza en tres capas — memorias (hechos concretos), episodios (resúmenes de conversación) y procedimientos (flujos aprendidos) — cada una puntuada y recuperada por relevancia para que aflore el contexto adecuado en el momento adecuado.
Alma es una capa de memoria persistente dentro de un workspace completo: chateas, recuerda, y la misma memoria es accesible desde Claude Desktop, Cursor y VSCode vía MCP. La puedes exportar cuando quieras. Es la memoria que le faltaba a tu IA, sin quedar atrapada en un solo proveedor.