Mai 2026 · 11 Min. Lesezeit · Fran Olivares, Gründer von OlivaresAI
Projektmanagement ist überwiegend Gedächtnisarbeit. Wer besitzt diesen Stream? Worauf haben wir uns bezüglich des Migrationsfensters geeinigt? Warum haben wir den Rate Limiter aus dem Scope genommen? Wann blockiert die Rechtsprüfung das Release? Ein Agent, der diese Fragen jeden Morgen neu stellen muss, ist kein Agent — er ist ein etwas schnellerer Praktikant. Sie ändern das, indem Sie dem Modell eine persistente Speicherschicht geben, die es zwischen Zügen lesen und beschreiben kann, automatisch aus der Konversation befüllt. Dieser Leitfaden führt durch die Referenzarchitektur und den Integrationscode, mit der Anthropic Claude API als LLM und Almas REST API als Speicherschicht.
Drei strukturelle Gründe. Erstens sind die Entitäten, die ein PM verfolgt (Personen, Entscheidungen, Liefergegenstände, SLAs, Risiken), selbst langlebig — sie überdauern per Definition jede einzelne Konversation. Zweitens ist der Konversationsstil hochfrequent und gering an Aufwand: kurze Standup-Nachrichten, schnelle Klärungen, „Was haben wir zu X gesagt?"-Fragen. Den richtigen Kontext-Ausschnitt günstig zu laden ist wichtig. Drittens sind die Kosten des Vergessens hoch: eine übersehene Entscheidung wird zu einem verpassten Release, eine vergessene Abhängigkeit zu einem Blocker.
Eine zustandslose Claude-Konversation bewältigt eine einzelne Planungssitzung gut. Sobald der Nutzer Kontinuität möchte („gestern haben wir uns geeinigt…", „Was blockiert das Auth-Team diese Woche?"), muss die Konversation entweder die volle Historie in das Kontextfenster wiedergeben (teuer, irgendwann unmöglich) oder sich auf eine Speicherschicht außerhalb des Modells verlassen.
Vier bewegliche Teile:
messages.create-Stream vom Anthropic SDK mit einem projektbewussten System-Prompt. Tool-Use ist aktiviert, damit das Modell bei Bedarf die Speicherschicht nach Entitäten per Namen fragen kann.stakeholder, decision, sla, risk) und einem Wichtigkeits-Score. Episodes erfassen komprimierte tägliche Standups; Procedures erfassen wiederkehrende Workflows („wie wir Hotfixes handhaben").Fünf Kategorien decken die meisten Teams ab: stakeholder (Personen mit Rolle + Verantwortlichkeiten), decision (was wann von wem mit welcher Begründung vereinbart wurde), sla (Zusagen an andere Teams oder Kunden), risk (offene Probleme mit Owner + Mitigation), milestone (Zieltermin + Scope + Status). Jede Erinnerung trägt einen Wichtigkeits-Score, sodass der Assembler hochwichtige Einträge im Retrieval priorisieren kann.
Die Kategorie dient nicht nur der Organisation — sie ist Teil des Retrieval-Signals. Wenn der Nutzer fragt „Was haben wir entschieden?", gewichtet der Assembler Decision-Kategorie-Erinnerungen höher. Wenn er fragt „Wer ist blockiert?", werden Risk-Kategorie-Erinnerungen hochgereiht. Die Alma-Kontext-Assemblierung stellt pro Kategorie Boost-Gewichte genau für diesen Anwendungsfall bereit.
Drei Phasen pro Nutzernachricht. Der Pseudo-Code unten verwendet Node.js mit dem Alma SDK und dem Anthropic SDK, aber dieselbe Form funktioniert in Python oder einem anderen Stack:
const { systemPrompt } = await alma.context.assemble({ query: userMessage, environmentId: projectId });const stream = anthropic.messages.stream({ model: 'claude-opus-4-7', system: systemPrompt, messages: [{ role: 'user', content: userMessage }] });await alma.memories.extract({ text: lastTurn, environmentId: projectId });Phase 3 läuft im Hintergrund — der Nutzer sieht die gestreamte Antwort sofort, und die Extraktion geschieht in den nächsten ~1 s ohne Blockierung. Neue Erinnerungen werden dedupliziert, Widersprüche gegen bestehende Einträge erkannt, und der Speicher bleibt automatisch sauber. Vollständige SDK-Referenz: @olivaresai/alma-sdk; HTTP-Äquivalente in der REST-API-Dokumentation.
Nutzen Sie Alma-Environments: ein Environment pro Projekt. Jedes Environment hat seine eigenen Memories, Episodes, Procedures und Soul-Blöcke, vollständig isoliert von den anderen. Der Agent übergibt environmentId bei jedem Memory-Aufruf; die API erzwingt die Grenze. Projekt-übergreifende Anfragen sind ohne einen expliziten Environment-Wechsel schlicht nicht möglich — was der richtige Default für ein PM-Tool ist, in dem das Auslaufen von Entscheidungen aus Projekt A in Projekt B ein reales Problem ist.
Für teamweite PM-Agenten (mehrere Menschen interagieren mit demselben Agenten) nutzen Sie die Alma-teams-Ressource: Jedes Team hat geteilte Erinnerungen, die für alle Mitglieder sichtbar sind, plus benutzerspezifische Erinnerungen für persönliche Präferenzen. Rollenbasierter Zugriff kontrolliert, wer was schreiben kann.
Nutzernachricht: „Standup: Backend-Team, Maria entblockt heute die Migration, José ist am Rate Limiter; wir haben entschieden, das GA-Release auf Freitag zu verschieben, weil die Rechtsabteilung das DPA noch prüft". Der Ablauf des Agenten:
Entscheidungs-Archäologie. „Warum haben wir den Rate Limiter aus dem Scope genommen?" — der Agent ruft die Entscheidungs-Erinnerung plus die umgebende Episode und die referenzierte Risiko-Erinnerung ab. Liefert die Antwort mit Zitaten auf die Einträge, sodass der Nutzer bei Bedarf in die Konversation eintauchen kann.
Stakeholder-Lookup. „Wer besitzt die Migration?" — direkte Memory-Anfrage gegen die stakeholder-Kategorie, liefert den Eintrag. Falls die Antwort veraltet ist (die Rolle hat sich letzte Woche geändert), erkennt die Widerspruchserkennung dies in der nächsten Konversation, die den neuen Owner erwähnt.
Wiederkehrende Reportgenerierung. „Erzeuge einen Statusbericht für den Auth-Stream diese Woche" — der Agent assembliert ein Kontextfenster aus Episodes, Entscheidungen und Risiken, die für diesen Stream getaggt sind, und entwirft den Bericht dann aus dieser kuratierten Auswahl. Das ist deutlich günstiger und genauer, als Claude zu bitten, rohe Chat-Historie zusammenzufassen.
Standard-Token-Budgets im Assembler: ~2 K Tokens für Memories, ~1 K für Episodes, ~500 für Procedures, ~500 für Soul-Blöcke. Insgesamt ~4 K — gut unter dem Kontextbudget jedes Modells, und die Cache-Treffer amortisieren sich über die Konversation. Wenn Ihr Projekt klein ist (<100 aktive Erinnerungen), können Sie das Budget weiter senken. Wenn es groß ist (10 K+ Erinnerungen), bleibt der Assembler bei ~4 K, weil das Retrieval die Anzahl der einbezogenen Einträge auch dann begrenzt, wenn der Speicher groß ist.
Zwei Dinge sind operativ wichtig: Die Soul-Blöcke (die Identität des Agenten) sollten als stabiles System-Prompt-Präfix gecacht werden, damit wiederholte Aufrufe die Input-Tokens nicht erneut bezahlen; und der dynamische Kontext (Memories + Episodes) sollte nach dem Cache-Breakpoint sitzen, damit jeder Aufruf nur den geänderten Teil neu hochlädt. Anthropics Prompt-Caching-Dokumentation behandelt die Platzierung des Breakpoints.
In einem typischen PM-Team-Flow (~20 Nachrichten/Tag pro Nutzer, überwiegend Standups + Klärungen) werden die Grenzkosten von den LLM-Aufrufen selbst dominiert. Die Speicherschicht ergänzt: einen Assemble-Aufruf (ein paar KB Read + Retrieval, ~30 ms), einen Extract-Aufruf (Haiku, ~$0,001 pro Zug). Gesamter Memory-Overhead pro Tag pro aktivem Nutzer: weit unter einem Cent. Vergleichen Sie das mit dem Wert, dass das PM-Team keine Entscheidungen verliert — und die Rechnung ist offensichtlich.
Almas Starter-Tarif ($14/Monat) ist die Einstiegsstufe und enthält die persistente Speicherschicht. Registrieren Sie sich unter alma.olivares.ai, generieren Sie einen API-Schlüssel in den Einstellungen und klonen Sie den SDK-Starter von der Entwickler-Seite. Verkabeln Sie die Drei-Phasen-Schleife in Ihrem Agenten-Code, richten Sie ihn auf ein einzelnes Testprojekt aus und lassen Sie ihn eine Woche laufen. Der Speicher wird sich aus den Konversationen natürlich befüllen; Sie werden sehen, wie Entscheidungen, Stakeholder und Risiken sich ohne manuelle Dateneingabe ansammeln. Von dort ist es nur noch ein Aufdrehen der Kategorien und ein Tuning des Assemblers.
Verwandte Lektüre: Persistenter Speicher für KI: Vollständiger Leitfaden 2026 · Wie man KI persistenten Speicher gibt · Dreistufige Speicherarchitektur · Kontext-Assemblierungs-Dokumentation · Environments.