AI memory sisteminde bağlam derleme nedir?

Bağlam derleme, memory destekli bir AI'nin bir sonraki kullanıcı mesajı için sistem komutunu oluşturduğu adımdır: memory katmanları arasında hibrit arama yoluyla adayları geri çağırır, onları alaka, önem, yenilik, sıklık ve güvenin ağırlıklı bir kombinasyonuyla puanlar, en üst sıradaki girişleri katman başına token bütçesine sığdırır ve modele 100 ms altında yapılandırılmış bir komut döndürür.

Derleme ağırlıklarını veya bütçelerini ayarlayabilir miyim?

Evet. /context/assemble uç noktası katman başına bütçeler, minimum puan eşiği, aday sınırı ve kategori artırma ağırlıkları için geçersiz kılmaları kabul eder. Çoğu takım varsayılanlarda kalır; kollar, proje yönetimi veya yazma gibi özel sektörler için mevcuttur ve burada sırasıyla kararları veya ses kurallarını artırmak daha iyi geri çağırma sağlar.

Bağlam Derleme Açıklandı: AI Memory'den Akıllı Komutları Nasıl Oluşturur

Q: Bağlam derleme RAG'dan nasıl farklıdır?

Mimari olarak benzer ancak külliyat ve yaşam döngüsü farklı. RAG, bir kez yazılan ve periyodik olarak yeniden dizinlenen harici bir belge külliyatından geri çağırır. Memory derleme, kullanıcının kendi sürekli büyüyen deposundan geri çağırır, çelişen, birleşen ve azalan girişlerle. Puanlama ağırlıkları da farklıdır — memory önem, yenilik ve sıklığı ağırlıklandırır çünkü depo kişisel olduğunda daha fazla önem taşırlar.

Q: Bağlam derleme pratikte ne kadar hızlıdır?

Tipik kullanıcılar için (birkaç yüz memory, bir düzine episode) uçtan uca derleme gecikmesi 30-80 ms aralığında oturur. Vektör arama 20-40 ms ile baskındır; anahtar kelime arama paralel olarak 5-10 ms'de çalışır; puanlama ve komut oluşturma tek haneli ms'dir. 100 ms hedefi, binlerce memory'si olan kullanıcılar için bile aday sınırları ve katman bütçeleri sayesinde tutulur.

Mayıs 2026 · 10 dk okuma · Fran Olivares, OlivaresAI Kurucusu

Bağlam derleme, memory destekli bir AI'nin bir sonraki kullanıcı mesajı için sistem komutunu oluşturduğu adımdır: memory deposu üzerinde hibrit anahtar kelime + semantik arama çalıştırır, sonuçları alaka, önem, yenilik, sıklık ve güvenin ağırlıklı bir kombinasyonuyla puanlar, en üst sıradaki girişleri etkin kimlik bloklarıyla birlikte katman başına token bütçesine sığdırır ve yapılandırılmış bağlamı modele döndürür — hepsi 100 ms altında. Onsuz kalıcı memory bir veritabanıdır; onunla model hatırlıyormuş gibi davranır çünkü her sıra için memory'nin doğru dilimi önündedir.

Tek başına bir kalıcı memory deposu hiçbir şey yapmaz. Depo, bir sonraki kullanıcı mesajı gelmeden önce sorgulanmalı, puanlanmalı ve modelin bağlam penceresine sığan bir sistem komutuna şekillendirilmelidir. Bu adım — bağlam derleme — "bir memory veritabanımız var" ile "AI hatırlıyor" arasındaki farktır. Bu rehber, /docs/context-assembly'deki teknik referansın uzun biçimli yoldaşıdır ve işlem hattının her aşamasını, Alma'nın varsayılan olarak kullandığı sayıları ve ayarlayabileceğiniz değiş tokuşları inceler.

Bağlam derleme neden anahtar adımdır?

Çünkü model yalnızca komutta olanı görür. On bin girişli bir memory deposu, bir şey bu sıra için doğru otuz tanesini seçmediği sürece modele görünmez. Seçim yanlışsa, model ilgili gerçeği kaçırır ve genel bir yanıt üretir. Seçim çok genişse, komut bağlam penceresini aşar veya token'ı gürültüde harcar. Derleme kapıcıdır — kullanıcının asla görmediği sessiz bir adım, ama "AI hatırlıyor" hissinin tamamı kalitesine dayanır.

Derleme aynı zamanda sert bir gecikme bütçesine de ulaşır. Kullanıcı bekliyor; ~100 ms üstündeki herhangi bir şey tek bir model token'ı yayınlanmadan önce ağır hissetmeye başlar. Bu yüzden derleme tam taramalar yerine dizinlenmiş aramaya dayanır, neden puanlama bir LLM çağrısı değil ağırlıklı toplamdır ve katman başına token bütçeleri dinamik olarak müzakere edilmek yerine önceden hesaplanır.

Derleyici adayları nasıl geri çağırır?

Üç memory katmanının tümünde — memories, episodes, procedures — hem anahtar kelime hem de semantik sinyalleri kullanan hibrit arama. Kullanıcının sorgusu, depoyu dizinleyen aynı modelle (Alma'nın varsayılan yapılandırmasında bge-m3 1024-boyutlu) embed edilir ve embedding semantik olarak benzer girişleri yüzeye çıkarmak için vektör dizinine karşı çalıştırılır. Paralel olarak, bir anahtar kelime araması semantik aramanın bazen kaçırdığı tam terim eşleşmeleri (özel isimler, kod tanımlayıcıları, nadir teknik terimler) için ilişkisel dizine vurur.

Her iki sonuç kümesi birleştirilir, tekilleştirilir ve aday bütçesinde sınırlandırılır (varsayılan katman başına 100 — temel vektör dizininin sorgu başına desteklediği maksimum). Aday havuzu puanlamaya akan şeydir; bu aşamanın ötesinde hiçbir şey aramanın yüzeye çıkarmadığı bir girişi kurtarmaz.

Alma memory adaylarını puanlamak için hangi sinyalleri kullanır?

Üretim puanlama işlevinde aşağıdaki gibi ağırlıklandırılmış beş sinyal:

Alaka — 50 %. Adayın embedding'inin sorgu embedding'iyle kosinüs benzerliği. Bilinçli olarak baskın: yanlış zamanda doğru memory hiç memory olmamasından kötüdür.
Önem — 15 %. Kullanıcının (veya çıkarıcının) yazma zamanında atadığı 0.0-1.0 puanı. Yüksek önemli memories, alaka sınırda olsa bile geri çağırmada yüksek seyrederler.
Güven — 15 %. Kullanıcı tarafından beyan edilen gerçekler için 1.0, LLM çıkarımı için 0.7, gözlemlenen için 0.5. Düşük güvenli tahminlerin yüksek güvenli gerçekleri yerinden etmesini önler.
Yenilik — 10 %. Azalan puan, böylece bugün oluşturulan bir memory altı ay önce eşit derecede ilgili olan birine karşı eşitlikleri kazanır. Eski verilerin son durumu boğmasını önler.
Sıklık — 10 %. Sık okunan veya başvurulan memories'i güçlendirir. "Sürekli konuştuğunuz şeyler" tek seferlik gerçeklerden daha hızlı yükselir.

Ağırlıklar bilinçli olarak ayarlanmıştır: alaka baskındır, ancak alaka eşit olduğunda (yoğun memory depolarında sık olur) ikincil sinyaller önemlidir. Ağırlıklar kod tabanında ihlal edilemez değişmezlerdir — değişiklikler bir A/B kıyaslaması gerektirir çünkü "AI doğru şeyi hatırladı mı" kullanıcı tarafından hissedilen kalitesi tam olarak bu karışıma bağlıdır.

Derleyici neyin sığacağına nasıl karar verir?

Her katmanın (memories, episodes, procedures, Soul blokları) kendi token bütçesi vardır. Varsayılanlar: memories ~2 K token, episodes ~1 K, procedures ~500, Soul blokları ~500. Toplam ~4 K — herhangi bir modern modelin bağlam penceresinin altında ve cache dostu kalmaya yetecek kadar küçük. Her katmanda puanlanan girişler bütçe vurulana kadar sıra düzeninde eklenir.

Bütçe iki nedenle vardır. Birincisi, modelin etkili bağlamı belirli bir yoğunluğun ötesine sıkıştırırsanız küçülür — 100K-token komutun altındaki ilgili şeyler dikkat örüntüsüne fiilen görünmezdir. İkincisi, komut cache'leme yalnızca cache'lenmiş önek sabitse çalışır; düşük sinyalli memories ile komutu şişirmek cache'i bozar ve her sırayı tam fiyatlı token'lar ödetir. Sıkı bütçeler hem kaliteyi hem de ekonomiyi sıraya sokar.

Son derlenmiş komut neye benzer?

Beş bölümlü yapılandırılmış bir sistem komutu (bu sırada): kimlik (XML olarak işlenen etkin Soul blokları), tercihler (tercih olarak işaretlenmiş yüksek önemli memory girişleri), ilgili gerçekler (bu sorgu için en yüksek puanlı memories), son bağlam (en yüksek puanlı episodes), iş akışları (en yüksek puanlı procedures). Yapı önemlidir: kimliği en üste koymak tam dikkat alır; iş akışlarını en alta koymak yalnızca model sorgunun prosedürel olduğuna karar verirse danışıldığı anlamına gelir.

Kullanıcı mesajı ardından bir sonraki sıra olarak eklenir. Model derlenmiş komutu + kullanıcı mesajını alır ve bir yanıt üretir. Kullanıcının perspektifinden AI az önce yanıtladı. Altta, derleme sessizce binlerce memory kaydına danıştı ve modele doğru otuz tanesini gösterdi.

Bağlam derleme pratikte ne kadar hızlıdır?

Alma'nın üretim dağıtımında, tipik bir kullanıcı için (birkaç yüz memory, bir düzine episode) uçtan uca derleme gecikmesi 30-80 ms aralığında oturur. Vektör arama baskındır (~20-40 ms), anahtar kelime arama paralel çalışır (~5-10 ms), puanlama tek haneli ms'dir ve komut oluşturma esasen ücretsizdir. 100 ms hedefi, binlerce memory'si olan kullanıcılar için bile rahat bir alanla karşılanır — aday sınırı ve katman bütçeleri, depo büyürken çalışmayı sınırlı tutar.

Derleyici çelişen memories'i nasıl ele alır?

Puanlama öncesi, aday havuzu üzerinden bir çelişki algılama geçişi, semantik olarak çelişen 0.75-0.92 benzerlik aralığındaki çiftleri işaretler. Yeni giriş varsayılan olarak kazanır; eski olan üst üste binmiş olarak işaretlenir ve bu sıra için (ve küresel olarak, bir sonraki birleştirme geçişinde) aday kümesinden kaldırılır. Bu, modelin kullanıcının asla kabul etmediği bir sentezi doğaçlama yaparak "X dediniz" ile "X-değil dediniz"i birlikte almasını önler.

Tam yaşam döngüsü (tekilleştirme, üst üste binme, azalma) eksiksiz kalıcı memory rehberinde belgelenmiştir; derleme yalnızca o yaşam döngüsü kararlarının sorgu zamanında ortaya çıktığı yerdir.

Bağlam derleme RAG ile aynı mıdır?

Mimari olarak benzer (her ikisi de geri çağırır, her ikisi de sıralar, her ikisi de komuta enjekte eder) ancak külliyat ve yaşam döngüsü farklıdır. RAG, bir kez yazılan ve bir zamanlamada yeniden dizinlenen harici bir belge külliyatından geri çağırır; girişler genellikle gelişmez. Memory derleme, kullanıcının kendi sürekli büyüyen deposundan geri çağırır, çelişen, birleşen ve azalan girişlerle. Puanlama ağırlıkları da farklıdır — RAG çoğunlukla benzerlik ve belge yetkisine göre sıralar; memory derleme önem, yenilik ve sıklığı ağırlıklandırır çünkü bu sinyaller depo kişisel olduğunda daha fazla önem taşır. Daha derin karşılaştırmayı Kalıcı Memory ile RAG'da görün.

Derlemeyi iş yüküm için ayarlayabilir miyim?

Evet. POST /api/v1/context/assemble uç noktası katman başına bütçeler, minimum puan eşiği, aday sınırı ve kategori etiketleri için artırma ağırlıklarının (böylece bir PM ajanı kararları artırabilir, bir yazarın ajanı ses kurallarını artırabilir) geçersiz kılınmasını kabul eder. Çoğu takım varsayılanlarda kalır — bunlar kutudan çıkar çıkmaz yararlı olacak şekilde ayarlandı — ancak özel sektörler için kollar mevcuttur.

Bağlam derlemeyi nasıl iş başında görürüm?

alma.olivares.ai'de başlayın, önemsediğiniz bir proje hakkında yirmi veya otuz memory doldurun, ardından bir sohbet başlatın. Modelin yeni konuşmadaki ilk yanıtı memory deponuzdan belirli gerçeklere atıfta bulunacak — bu, kullanıcıya bakan sohbetin arkasında gizlenmiş, derlemedir. Doğrudan entegre eden geliştiriciler için: REST API ham derlenmiş komutu açığa çıkarır, böylece her sorgu için tam olarak ne seçildiğini inceleyebilirsiniz.

İlgili okuma: Bağlam Derleme teknik referansı · Üç Katmanlı Memory Mimarisi · AI için Kalıcı Memory: Eksiksiz 2026 Rehberi · Kalıcı Memory ile RAG · Soul Engine Açıklandı.

See plans