Mayıs 2026 · 14 dk okuma · Fran Olivares, OlivaresAI Kurucusu
Durumsuz modeller bir tavana ulaştı. Sınır LLM'leri artık üretim kodu yazacak, sözleşmeler taslağı çıkaracak, geziler planlayacak ve hukuki dosyaları özetleyecek kadar akıllı — ancak her etkileşim boş bir sayfayla başlıyor. Kullanıcı kim olduğunu, hangi yığını kullandığını, geçen hafta neye karar verdiğini, hangi tonu istediğini, hangi konuların yasak olduğunu yeniden açıklıyor. AI hiçbir zaman kişinin, projenin veya işin uzun yayının gerçek bir resmini oluşturmuyor. Kalıcı memory'nin düzelttiği şey budur: modele tüm geçmişi her komuta sürüklemeden süreklilik verir.
Bu rehber, AI'ye Kalıcı Memory Nasıl Verilir ve AI Memory Yönetimi: Eksiksiz 2026 Rehberi'nin uzun biçimli yoldaşıdır. Bu yazılar entegrasyon yollarına odaklanırken, bu yazı temel mimariyi, yaklaşımlar arasındaki değiş tokuşları ve kalıcı memory'yi üretime gönderdiğinizde operasyonel olarak neyin değiştiğini kapsar.
Kalıcı memory, modelin okuyabildiği veya yazabildiği ve bir konuşmanın sonunu atlatan herhangi bir şeydir. Klasik sınır modelin bağlam penceresidir — bir oturum kapandığında o pencerenin içindeki her şey gider. Bir kalıcı memory katmanı modelin yanında oturur: uygulama bir oturum sırasında veya sonrasında gerçekleri ve konuşma özetlerini içine yazar ve bir sonraki oturumun başında ilgili girişleri komuta geri okur. Modelin depoya doğrudan erişimi asla yoktur; uygulama akışı düzenler.
Kritik ayrım oturum memory'si (bu sıra için komuta kaydırılan konuşma geçmişi) ve kalıcı memory (veritabanında yaşayan, semantik olarak dizinlenmiş, her zaman sorgulanabilir, kullanıcıya ait ayrı bir depo) arasındadır. Oturum memory'si bağlam uzunluğuyla sınırlıdır ve tanım gereği geçicidir. Kalıcı memory sınırsız ve dayanıklıdır.
Yararlı bir zihinsel model: kalıcı memory bir LLM için bir not defteri kadardır bir insan için. Kafanızda her konuşmanın her sayfasını taşımıyorsunuz. Konu geldiğinde not defterine danışıyorsunuz ve ilgili sayfalar yalnızca o an için çalışan memory'nize yükleniyor. Alma'nın bağlam derlemesi bu yükleme adımını 100 ms altında yapar.
Üç neden. Birincisi, üretkenlik tavanı: her yinelenen görev aynı kurulum maliyetleriyle başlar (yığını yeniden açıklamak, tercihleri yeniden belirtmek, AI'yi projede yeniden temellendirmek). Bir yıl boyunca bu dakikalar günlerce israf edilen açıklamaya toplanır. İkincisi, kalite tavanı: kod tabanı kurallarınızı, tonunuzu, geçmiş kararlarınızı veya alan kısıtlamalarınızı bilmeyen bir AI, yeniden yazmanız gereken genel çıktı üretir. Üçüncüsü, güven tavanı: konuşmalar arasında kendisiyle çelişen veya belirtilen tercihleri unutan bir model, kullanıcının modelin gerçekten dikkat ettiğine olan inancını aşındırır.
Platform yerel memory özellikleri (ChatGPT Memory, Claude Projects) yardımcı olur, ancak kapasitede sınırlıdır, tek bir platforma kilitlidir ve geliştirici API'si sunmaz. Herhangi bir AI destekli ürün — chatbot, copilot, araştırma asistanı, ajan — oluşturursanız, kontrol ettiğiniz, gerçek bir API açığa çıkaran ve kullanıcıyı seçtikleri herhangi bir model veya istemci boyunca takip eden bağımsız bir memory katmanına ihtiyacınız vardır.
Önde gelen sistemler arasında dört yapı bloğu istikrar kazandı:
Çoğu üretim sistemi ayrıca şunları ekler: bir çelişki algılama döngüsü (böylece iki çelişen memory birleştirme veya üst üste binmeyi tetikler), bir tekilleştirme geçişi (bir eşiğin üzerindeki Jaccard veya embedding benzerliği tek bir girişe daralır) ve güven bilinçli bir azalma (aylardır dokunulmamış düşük önemli memories otomatik olarak süresi dolar). Alma üç katmanlı mimari memory deposunun kendisini her katmanın bağımsız olarak geri çağrılabilmesi için memories (atomik gerçekler), episodes (sıkıştırılmış konuşma özetleri) ve procedures (öğrenilmiş adım adım iş akışları) olarak ayırır.
RAG (Retrieval-Augmented Generation) ve kalıcı memory altyapıyı paylaşır (embeddings, vektör DB'ler, geri çağırma) ancak farklı problemleri çözer. RAG, kullanıcının yazmadığı bir külliyatta yanıtları temellendirmek içindir — dokümantasyon, araştırma makaleleri, dahili wikiler, bilgi tabanları. Külliyat bir kez yazılır, dizinlenir ve talep üzerine geri çağrılır. Kalıcı memory, kullanıcının kendisinin söylediği, karar verdiği veya tercih ettiği şeyleri yakalamak, bunları zaman içinde biriktirmek ve geri okumak içindir. Külliyat kullanıcının kendi geçmişidir; sürekli büyür.
Pratik olarak, farklar üç yerde iner: yazma yolu (RAG harici belgeleri toplu olarak alır; memory yazmaları her konuşmadan akar), puanlama (RAG semantik benzerliğe göre sıralar; memory puana önem, yenilik ve sıklık ekler) ve yaşam döngüsü (RAG belgeleri ara sıra sürümlendirilir; memories gelişir, çelişir, birleşir ve süresi dolar). 2026'daki çoğu üretim AI asistanı her ikisini de kullanır: belge külliyatı için RAG, kullanıcıya özgü katman için kalıcı memory. Daha derin karşılaştırma için Kalıcı Memory ile RAG'a bakın.
Seçtiğiniz yol AI istemcisini mi, AI uygulamasını mı kontrol ettiğinize veya yalnızca mevcut bir asistanı mı tükettiğinize bağlıdır. 2026'da üç örüntü baskındır:
remember, recall, assemble_context, extract, vb.). Kullanıcı tarafında kod değişikliği gerekmez. Alma @olivaresai/alma-mcp'yi 35 araçla gönderir — AI Memory için MCP Nasıl Kullanılır: 5 Dakikalık Kurulum'a bakın.Mühendislik copilot'ları. Yığınınızı, linter kurallarınızı, tercih ettiğiniz hata işleme üslubunuzu, sisteminizin mimari diyagramını, takımınızın geçen sprintte üzerinde anlaştığı kuralları hatırlayan bir kodlama asistanı. Memories sohbet oturumlarından ve kod inceleme dizilerinden çıkarılır; procedures "değişiklikler önermeden önce her zaman typecheck çalıştır" gibi çok adımlı iş akışlarını yakalar. Sonuç: oturum başına daha az yeniden açıklama, geçersiz kılmanız gereken daha az öneri.
Proje yönetimi ajanları. Stand-up'larda paydaşları, sprint hedeflerini, engelleyicileri ve kararları izleyen bir ajan. Konuşma geçmişi episodes'a sıkıştırılır; yapılandırılmış paydaş kayıtları memories olarak yaşar. Kullanıcı "migrasyon zaman çizelgesi hakkında ne karar verdik?" diye sorduğunda, geri çağırma ilgili episodes'ı artı karar memory'sini çeker. Claude API ve Kalıcı Memory ile PM Ajanı Oluşturma'daki işlenmiş örneğe bakın.
Yazma ve yaratıcı araçlar. Sesinizi, hedef kitlenizi, projelerinizin çalışma başlıklarını, üç ay önce yazdığınız üslup kılavuzunu, yinelenen karakterlerin adlarını hatırlayan bir AI editörü. Uzun biçimli işte ton tutarlılığı durumsuz yazma araçlarındaki tek en zor UX problemiydi; kalıcı memory bunu çözülebilir hale getirir. yazarlar kullanım senaryosuna bakın.
Yeni bir kullanıcı mesajı geldiğinde, uygulama sorgu ve herhangi bir oturum üst verisiyle POST /api/v1/context/assemble'ı çağırır. Memory katmanı üç katman boyunca (memories, episodes, procedures) hibrit arama çalıştırır, sonuçları alaka, önem, yenilik, sıklık ve güvenin ağırlıklı bir kombinasyonuyla puanlar ve en üst sıradaki bağlamı artı etkin Soul bloklarını içeren yapılandırılmış bir yanıt döndürür. Uygulama bunu sistem komutuna biçimlendirir ve kullanıcı mesajıyla birlikte LLM'ye gönderir. Uçtan uca gecikme tipik olarak 30-80 ms'dir; herhangi bir kullanıcı tarafından algılanabilir eşiğin oldukça altında.
Ayarlanabilir parametreler arasında geri çağrılacak memory sayısı (varsayılan 15), minimum puan eşiği (memories için varsayılan ~0.55 kosinüs, procedures için daha düşük) ve katman başına token bütçesi (böylece derlenen bağlam asla modelin etkili penceresini aşmaz) yer alır. Çoğu takım varsayılanlarda kalır; sistem kutudan çıkar çıkmaz yararlı olacak şekilde tasarlanmıştır ve yalnızca kullanıcı başına on binlerce memory'yi geçtiğinde ayarlama gerektirir.
Arka planda üç mekanizma sürekli çalışır. Tekilleştirme: yeni bir memory depoya girdiğinde, Jaccard benzerliği (%60 eşik) ve embedding benzerliği (0.92) kullanılarak mevcut olanlara karşı karşılaştırılır. Eşleşmeler güven artışıyla mevcut kayda birleşir. Çelişki algılama: 0.75-0.92 benzerlik aralığındaki çiftler semantik çelişki için kontrol edilir; çelişkiler bir üst üste binmeyi tetikler (eski memory eski olarak işaretlenir, yenisi yuvayı tutar). Azalma: 120 gündür okunmamış veya yazılmamış 0.1 önem altındaki memories kaldırılmak üzere işaretlenir. Kullanıcı her zaman memory panosundan herhangi bir şeyi inceleyebilir, düzenleyebilir veya geri yükleyebilir.
Uygulamada bu, frontend'den backend'e geçen bir kullanıcının frontend memories'inin kademeli olarak önceliğinin düştüğünü görür; bir kararı tersine çeviren bir kullanıcı eskisini üst üste binmiş olarak işaretlenmiş görür; ve rastgele oturumlardan tek seferlik gerçeklerin uzun kuyruğu depoyu süresiz olarak şişirmez. Kullanıcı sinyali tutar, gürültüyü düşürür.
Kalıcı memory herhangi bir AI ürünündeki en kişisel veri katmanıdır. 2026'da minimum çıta: saklanırken şifreleme, istediğiniz zaman tam dışa aktarma, talep üzerine sert silme, açık bir veri işleme eki ve çalışan bir olay yanıt süreci. Alma BYOK anahtarlarını AES-256-GCM ile şifreler, API anahtarlarını saklanırken HMAC-SHA256 ile özetler, her katman boyunca (memories, episodes, procedures, conversations, dosyalar) GDPR uyumlu dışa aktarmayı destekler ve embeddings dahil tüm depoyu silen tek tıklamalı hesap silme akışı sunar. gizlilik yazısı daha fazla derinliğe iner ve güvenlik sayfası denetimleri belgeler.
Manzara konsolide oldu. Karşılaştırma özetleri: Alma ChatGPT Memory karşılaştırması, Alma Claude Memory karşılaştırması, Alma Mem0 karşılaştırması, Alma Zep karşılaştırması, Alma Letta / MemGPT karşılaştırması. Kısaca: kullanıcılarınız tamamen tek bir platformun içinde yaşıyorsa ChatGPT ve Claude memories harikadır; Mem0 ve Zep, kendi kendinize barındırdığınız ve SDK aracılığıyla entegre ettiğiniz açık kaynaklı memory katmanlarıdır; Letta (eski adıyla MemGPT) ajan çerçevelerine yönelir; Alma, tek bir hesabın arkasında web uygulaması, MCP sunucusu, VSCode uzantısı, SDK ve REST API ile tüketici/profesyonel kullanıcı bölgesinde oturur.
Mevcut AI'nize memory vermek isteyen bir son kullanıcıysanız: MCP sunucusunu beş dakikada yükleyin — AI Memory için MCP Nasıl Kullanılır'daki adım adım göz atın. Bir AI uygulaması oluşturan bir geliştiriciyseniz: Starter planında SDK ile başlayın, kod tabanınızda LLM-öncesi bağlam derle + LLM-sonrası çıkar döngüsünü kanıtlayın, ardından hacim eşiğini geçtiğinizde ücretli bir plana yükseltin. JS olmayan bir yığından ham HTTP tercih ederseniz, REST API Max planında dahildir.
Hangi yolu seçerseniz seçin, ödeme aynıdır: AI durumsuz bir araç gibi davranmayı bırakır ve dün, geçen hafta ve üç ay önce ne yaptığınızı hatırlayan bir meslektaş gibi davranmaya başlar — sizin hiçbirini tekrarlamanıza gerek kalmadan.
İlgili okuma: AI'nin 2026'da Neden Kalıcı Memory'ye İhtiyacı Var · AI Memory Yönetimi: Eksiksiz Rehber · Üç Katmanlı Memory Mimarisi · Soul Engine Açıklandı · Alma Belgeleri.