Bağlam Derleme Açıklandı: AI Memory'den Akıllı Komutları Nasıl Oluşturur

Mayıs 2026 · 10 dk okuma · Fran Olivares, OlivaresAI Kurucusu

Bağlam derleme, memory destekli bir AI'nin bir sonraki kullanıcı mesajı için sistem komutunu oluşturduğu adımdır: memory deposu üzerinde hibrit anahtar kelime + semantik arama çalıştırır, sonuçları alaka, önem, yenilik, sıklık ve güvenin ağırlıklı bir kombinasyonuyla puanlar, en üst sıradaki girişleri etkin kimlik bloklarıyla birlikte katman başına token bütçesine sığdırır ve yapılandırılmış bağlamı modele döndürür — hepsi 100 ms altında. Onsuz kalıcı memory bir veritabanıdır; onunla model hatırlıyormuş gibi davranır çünkü her sıra için memory'nin doğru dilimi önündedir.

Tek başına bir kalıcı memory deposu hiçbir şey yapmaz. Depo, bir sonraki kullanıcı mesajı gelmeden önce sorgulanmalı, puanlanmalı ve modelin bağlam penceresine sığan bir sistem komutuna şekillendirilmelidir. Bu adım — bağlam derleme — "bir memory veritabanımız var" ile "AI hatırlıyor" arasındaki farktır. Bu rehber, /docs/context-assembly'deki teknik referansın uzun biçimli yoldaşıdır ve işlem hattının her aşamasını, Alma'nın varsayılan olarak kullandığı sayıları ve ayarlayabileceğiniz değiş tokuşları inceler.

Bağlam derleme neden anahtar adımdır?

Çünkü model yalnızca komutta olanı görür. On bin girişli bir memory deposu, bir şey bu sıra için doğru otuz tanesini seçmediği sürece modele görünmez. Seçim yanlışsa, model ilgili gerçeği kaçırır ve genel bir yanıt üretir. Seçim çok genişse, komut bağlam penceresini aşar veya token'ı gürültüde harcar. Derleme kapıcıdır — kullanıcının asla görmediği sessiz bir adım, ama "AI hatırlıyor" hissinin tamamı kalitesine dayanır.

Derleme aynı zamanda sert bir gecikme bütçesine de ulaşır. Kullanıcı bekliyor; ~100 ms üstündeki herhangi bir şey tek bir model token'ı yayınlanmadan önce ağır hissetmeye başlar. Bu yüzden derleme tam taramalar yerine dizinlenmiş aramaya dayanır, neden puanlama bir LLM çağrısı değil ağırlıklı toplamdır ve katman başına token bütçeleri dinamik olarak müzakere edilmek yerine önceden hesaplanır.

Derleyici adayları nasıl geri çağırır?

Üç memory katmanının tümünde — memories, episodes, procedures — hem anahtar kelime hem de semantik sinyalleri kullanan hibrit arama. Kullanıcının sorgusu, depoyu dizinleyen aynı modelle (Alma'nın varsayılan yapılandırmasında bge-m3 1024-boyutlu) embed edilir ve embedding semantik olarak benzer girişleri yüzeye çıkarmak için vektör dizinine karşı çalıştırılır. Paralel olarak, bir anahtar kelime araması semantik aramanın bazen kaçırdığı tam terim eşleşmeleri (özel isimler, kod tanımlayıcıları, nadir teknik terimler) için ilişkisel dizine vurur.

Her iki sonuç kümesi birleştirilir, tekilleştirilir ve aday bütçesinde sınırlandırılır (varsayılan katman başına 100 — temel vektör dizininin sorgu başına desteklediği maksimum). Aday havuzu puanlamaya akan şeydir; bu aşamanın ötesinde hiçbir şey aramanın yüzeye çıkarmadığı bir girişi kurtarmaz.

Alma memory adaylarını puanlamak için hangi sinyalleri kullanır?

Üretim puanlama işlevinde aşağıdaki gibi ağırlıklandırılmış beş sinyal:

Ağırlıklar bilinçli olarak ayarlanmıştır: alaka baskındır, ancak alaka eşit olduğunda (yoğun memory depolarında sık olur) ikincil sinyaller önemlidir. Ağırlıklar kod tabanında ihlal edilemez değişmezlerdir — değişiklikler bir A/B kıyaslaması gerektirir çünkü "AI doğru şeyi hatırladı mı" kullanıcı tarafından hissedilen kalitesi tam olarak bu karışıma bağlıdır.

Derleyici neyin sığacağına nasıl karar verir?

Her katmanın (memories, episodes, procedures, Soul blokları) kendi token bütçesi vardır. Varsayılanlar: memories ~2 K token, episodes ~1 K, procedures ~500, Soul blokları ~500. Toplam ~4 K — herhangi bir modern modelin bağlam penceresinin altında ve cache dostu kalmaya yetecek kadar küçük. Her katmanda puanlanan girişler bütçe vurulana kadar sıra düzeninde eklenir.

Bütçe iki nedenle vardır. Birincisi, modelin etkili bağlamı belirli bir yoğunluğun ötesine sıkıştırırsanız küçülür — 100K-token komutun altındaki ilgili şeyler dikkat örüntüsüne fiilen görünmezdir. İkincisi, komut cache'leme yalnızca cache'lenmiş önek sabitse çalışır; düşük sinyalli memories ile komutu şişirmek cache'i bozar ve her sırayı tam fiyatlı token'lar ödetir. Sıkı bütçeler hem kaliteyi hem de ekonomiyi sıraya sokar.

Son derlenmiş komut neye benzer?

Beş bölümlü yapılandırılmış bir sistem komutu (bu sırada): kimlik (XML olarak işlenen etkin Soul blokları), tercihler (tercih olarak işaretlenmiş yüksek önemli memory girişleri), ilgili gerçekler (bu sorgu için en yüksek puanlı memories), son bağlam (en yüksek puanlı episodes), iş akışları (en yüksek puanlı procedures). Yapı önemlidir: kimliği en üste koymak tam dikkat alır; iş akışlarını en alta koymak yalnızca model sorgunun prosedürel olduğuna karar verirse danışıldığı anlamına gelir.

Kullanıcı mesajı ardından bir sonraki sıra olarak eklenir. Model derlenmiş komutu + kullanıcı mesajını alır ve bir yanıt üretir. Kullanıcının perspektifinden AI az önce yanıtladı. Altta, derleme sessizce binlerce memory kaydına danıştı ve modele doğru otuz tanesini gösterdi.

Bağlam derleme pratikte ne kadar hızlıdır?

Alma'nın üretim dağıtımında, tipik bir kullanıcı için (birkaç yüz memory, bir düzine episode) uçtan uca derleme gecikmesi 30-80 ms aralığında oturur. Vektör arama baskındır (~20-40 ms), anahtar kelime arama paralel çalışır (~5-10 ms), puanlama tek haneli ms'dir ve komut oluşturma esasen ücretsizdir. 100 ms hedefi, binlerce memory'si olan kullanıcılar için bile rahat bir alanla karşılanır — aday sınırı ve katman bütçeleri, depo büyürken çalışmayı sınırlı tutar.

Derleyici çelişen memories'i nasıl ele alır?

Puanlama öncesi, aday havuzu üzerinden bir çelişki algılama geçişi, semantik olarak çelişen 0.75-0.92 benzerlik aralığındaki çiftleri işaretler. Yeni giriş varsayılan olarak kazanır; eski olan üst üste binmiş olarak işaretlenir ve bu sıra için (ve küresel olarak, bir sonraki birleştirme geçişinde) aday kümesinden kaldırılır. Bu, modelin kullanıcının asla kabul etmediği bir sentezi doğaçlama yaparak "X dediniz" ile "X-değil dediniz"i birlikte almasını önler.

Tam yaşam döngüsü (tekilleştirme, üst üste binme, azalma) eksiksiz kalıcı memory rehberinde belgelenmiştir; derleme yalnızca o yaşam döngüsü kararlarının sorgu zamanında ortaya çıktığı yerdir.

Bağlam derleme RAG ile aynı mıdır?

Mimari olarak benzer (her ikisi de geri çağırır, her ikisi de sıralar, her ikisi de komuta enjekte eder) ancak külliyat ve yaşam döngüsü farklıdır. RAG, bir kez yazılan ve bir zamanlamada yeniden dizinlenen harici bir belge külliyatından geri çağırır; girişler genellikle gelişmez. Memory derleme, kullanıcının kendi sürekli büyüyen deposundan geri çağırır, çelişen, birleşen ve azalan girişlerle. Puanlama ağırlıkları da farklıdır — RAG çoğunlukla benzerlik ve belge yetkisine göre sıralar; memory derleme önem, yenilik ve sıklığı ağırlıklandırır çünkü bu sinyaller depo kişisel olduğunda daha fazla önem taşır. Daha derin karşılaştırmayı Kalıcı Memory ile RAG'da görün.

Derlemeyi iş yüküm için ayarlayabilir miyim?

Evet. POST /api/v1/context/assemble uç noktası katman başına bütçeler, minimum puan eşiği, aday sınırı ve kategori etiketleri için artırma ağırlıklarının (böylece bir PM ajanı kararları artırabilir, bir yazarın ajanı ses kurallarını artırabilir) geçersiz kılınmasını kabul eder. Çoğu takım varsayılanlarda kalır — bunlar kutudan çıkar çıkmaz yararlı olacak şekilde ayarlandı — ancak özel sektörler için kollar mevcuttur.

Bağlam derlemeyi nasıl iş başında görürüm?

alma.olivares.ai'de başlayın, önemsediğiniz bir proje hakkında yirmi veya otuz memory doldurun, ardından bir sohbet başlatın. Modelin yeni konuşmadaki ilk yanıtı memory deponuzdan belirli gerçeklere atıfta bulunacak — bu, kullanıcıya bakan sohbetin arkasında gizlenmiş, derlemedir. Doğrudan entegre eden geliştiriciler için: REST API ham derlenmiş komutu açığa çıkarır, böylece her sorgu için tam olarak ne seçildiğini inceleyebilirsiniz.

İlgili okuma: Bağlam Derleme teknik referansı · Üç Katmanlı Memory Mimarisi · AI için Kalıcı Memory: Eksiksiz 2026 Rehberi · Kalıcı Memory ile RAG · Soul Engine Açıklandı.

See plans