ما تجميع السياق في نظام ذاكرة الذكاء الاصطناعي؟

تجميع السياق هو الخطوة التي يبني فيها ذكاء اصطناعي مُدرك للذاكرة موجّه النظام لرسالة المستخدم التالية: يسترجع المرشحين عبر بحث هجين في طبقات الذاكرة، ويُقيّمهم بمزيج مرجح من الصلة والأهمية والحداثة والتكرار والثقة، ويُلائم الإدخالات الأعلى ترتيباً ضمن ميزانيات توكنات لكل طبقة، ويعيد موجّهاً مهيكلاً إلى النموذج في أقل من 100 ms.

هل يمكنني ضبط أوزان أو ميزانيات التجميع؟

نعم. نقطة نهاية /context/assemble تقبل تجاوزات لميزانيات الطبقات، وعتبة الحد الأدنى للنتيجة، وحد المرشحين، وأوزان تعزيز الفئة. تبقى معظم الفرق على الافتراضيات؛ الرافعات موجودة للعمودي المتخصص مثل إدارة المشاريع أو الكتابة حيث تعزيز القرارات أو قواعد الصوت على التوالي يُعطي استرجاعاً أفضل.

تجميع السياق الموضّح: كيف يبني الذكاء الاصطناعي موجّهات ذكية من الذاكرة

Q: كيف يختلف تجميع السياق عن RAG؟

معمارياً متشابه لكن المجموعة ودورة الحياة تختلفان. RAG يسترجع من مجموعة وثائق خارجية مُؤلَّفة مرة ومُعاد فهرستها دورياً. تجميع الذاكرة يسترجع من مخزن المستخدم الخاص النامي باستمرار، بإدخالات تتناقض وتُدمج وتتحلل. أوزان التقييم تختلف أيضاً — الذاكرة تُرجّح الأهمية والحداثة والتكرار لأنها تهمّ أكثر عندما يكون المخزن شخصياً.

Q: ما سرعة تجميع السياق في الممارسة؟

كمون التجميع من البداية إلى النهاية يجلس في نطاق 30-80 ms للمستخدمين النموذجيين (بضع مئات من الذكريات، اثنا عشر مقطعاً). البحث المتجه يهيمن عند 20-40 ms؛ بحث الكلمة المفتاحية يعمل بالتوازي عند 5-10 ms؛ التقييم وبناء الموجّه ms مفردة. هدف 100 ms يصمد حتى للمستخدمين بآلاف الذكريات بفضل حدود المرشحين وميزانيات الطبقات.

مايو 2026 · 10 دقائق قراءة · Fran Olivares، مؤسس OlivaresAI

تجميع السياق هو الخطوة التي يبني فيها ذكاء اصطناعي مُدرك للذاكرة موجّه النظام لرسالة المستخدم التالية: يُشغّل بحثاً هجيناً كلمة مفتاحية + دلالي عبر مخزن الذاكرة، ويُقيّم النتائج بمزيج مرجح من الصلة والأهمية والحداثة والتكرار والثقة، ويُلائم الإدخالات الأعلى ترتيباً ضمن ميزانية توكنات لكل طبقة بجانب كتل الهوية النشطة، ويعيد السياق المهيكل إلى النموذج — كل ذلك في أقل من 100 ms. دونه، الذاكرة الدائمة قاعدة بيانات؛ معه، يتصرف النموذج كأنه يتذكر لأن الشريحة الصحيحة من الذاكرة أمامه في كل دور.

مخزن ذاكرة دائم بمفرده لا يفعل شيئاً. على المخزن أن يُستعلَم، ويُقيَّم، ويُشكَّل في موجّه نظام يلائم نافذة سياق النموذج قبل أن تصل رسالة المستخدم التالية. تلك الخطوة — تجميع السياق — هي الفرق بين "لدينا قاعدة بيانات ذاكرة" و"الذكاء الاصطناعي يتذكر". هذا الدليل هو الرفيق الطويل للمرجع التقني في /docs/context-assembly ويأخذك عبر كل مرحلة من خط الأنابيب، والأرقام التي تستخدمها Alma افتراضياً، والمقايضات التي يمكنك ضبطها.

لماذا تجميع السياق هو الخطوة الرئيسية؟

لأن النموذج يرى فقط ما في الموجّه. مخزن ذاكرة بعشرة آلاف إدخال غير مرئي للنموذج ما لم يختر شيء الثلاثين الصحيحة لهذا الدور. إذا كان الاختيار خاطئاً، يفوّت النموذج الحقيقة ذات الصلة ويُنتج إجابة عامة. إذا كان الاختيار واسعاً جداً، يتجاوز الموجّه نافذة السياق أو يُهدر التوكنات على ضجيج. التجميع هو حارس البوابة — خطوة هادئة لا يراها المستخدم أبداً، لكن الشعور الكامل بـ"الذكاء الاصطناعي يتذكر" يجلس على جودتها.

التجميع يضرب أيضاً ميزانية كمون صارمة. المستخدم ينتظر؛ أي شيء فوق ~100 ms يبدأ بالشعور بالبطء قبل أن يبث توكن نموذج واحد. لهذا يعتمد التجميع على البحث المُفهرَس بدلاً من المسح الكامل، ولماذا التقييم مجموع مرجح (لا استدعاء LLM)، ولماذا تُحسَب ميزانيات التوكنات لكل طبقة مقدماً بدلاً من التفاوض ديناميكياً.

كيف يسترجع المُجمّع المرشحين؟

بحث هجين عبر طبقات الذاكرة الثلاث جميعها — ذكريات، مقاطع، إجراءات — باستخدام إشارات كلمة مفتاحية ودلالية. يُضمَّن استعلام المستخدم بنفس النموذج الذي فهرس المخزن (bge-m3 1024-أبعاد في تكوين Alma الافتراضي)، ويعمل embedding مقابل الفهرس المتجه لإظهار الإدخالات المشابهة دلالياً. بالتوازي، يصل بحث الكلمة المفتاحية إلى الفهرس العلائقي للمطابقات الدقيقة التي يُفوّتها البحث الدلالي أحياناً (الأسماء المُسمّاة، معرفات الكود، المصطلحات التقنية النادرة).

تُدمج مجموعتا النتائج، وتُزال تكراراتهما، وتُحدَّد بميزانية المرشحين (الافتراضي 100 لكل طبقة — الحد الأقصى الذي يدعمه الفهرس المتجه الأساسي لكل استعلام). بركة المرشحين هي ما يتدفق إلى التقييم؛ لا شيء بعد هذه المرحلة ينقذ إدخالاً لم يُظهره البحث.

ما الإشارات التي تستخدمها Alma لتقييم مرشحي الذاكرة؟

خمس إشارات، مُرجَّحة كما يلي في دالة التقييم الإنتاجية:

الصلة — 50 %. تشابه الجيب لـ embedding المرشح إلى embedding الاستعلام. مهيمنة عمداً: الذاكرة الصحيحة في الوقت الخطأ أسوأ من لا ذاكرة.
الأهمية — 15 %. درجة 0.0-1.0 يُسندها المستخدم (أو المستخرج) وقت الكتابة. الذكريات عالية الأهمية تُحلّق عالياً في الاسترجاع حتى عندما تكون الصلة على الحدود.
الثقة — 15 %. 1.0 للحقائق المُعلَنة من المستخدم، 0.7 للمُستنتَجة من LLM، 0.5 للمُلاحَظة. تُبقي التخمينات منخفضة الثقة من إزاحة الحقائق عالية الثقة.
الحداثة — 10 %. درجة مُتحلّلة بحيث تربح ذكرى أُنشئت اليوم التعادلات على أخرى ذات صلة متساوية من قبل ستة أشهر. تمنع البيانات القديمة من إغراق الحالة الحديثة.
التكرار — 10 %. تُعزّز الذكريات التي تُقرأ أو يُشار إليها كثيراً. "الأشياء التي تستمر بالحديث عنها" ترتفع أسرع من الحقائق لمرة واحدة.

الأوزان مُضبطة عمداً: الصلة تهيمن، لكن الإشارات الثانوية تهمّ عندما تتعادل الصلة (وهذا يحدث كثيراً في مخازن الذاكرة الكثيفة). الأوزان ثوابت غير قابلة للانتهاك في قاعدة الكود — التغييرات تتطلب benchmark A/B لأن الجودة المُحَسّة من المستخدم لـ"هل تذكر الذكاء الاصطناعي الشيء الصحيح" تعتمد على هذا المزيج بالضبط.

كيف يقرر المُجمّع ما يلائم؟

لكل طبقة (ذكريات، مقاطع، إجراءات، كتل Soul) ميزانية توكنات خاصة بها. الافتراضيات: ذكريات ~2 K توكن، مقاطع ~1 K، إجراءات ~500، كتل Soul ~500. الإجمالي ~4 K — أقل بكثير من نافذة سياق أي نموذج حديث، وصغير بما يكفي للبقاء صديقاً للتخزين المؤقت. ضمن كل طبقة، تُضاف الإدخالات المُقيَّمة بترتيب الرتبة حتى تُضرَب الميزانية.

الميزانية موجودة لسببين. أولاً، السياق الفعّال للنموذج يتقلّص إذا حشوته بعد كثافة معينة — الأشياء ذات الصلة في أسفل موجّه بـ 100K توكن غير مرئية فعلياً لنمط الانتباه. ثانياً، التخزين المؤقت للموجّه يعمل فقط إذا كانت البادئة المُخزَّنة مستقرة؛ تضخيم الموجّه بذكريات منخفضة الإشارة يكسر التخزين المؤقت ويجعل كل دور يدفع توكنات بالسعر الكامل. الميزانيات الضيقة تُبقي كلاً من الجودة والاقتصاد في الخط.

كيف يبدو الموجّه المُجمَّع النهائي؟

موجّه نظام مهيكل بخمسة أقسام (بهذا الترتيب): الهوية (كتل Soul النشطة المُصاغة كـ XML)، التفضيلات (إدخالات ذاكرة عالية الأهمية مُحدَّدة كتفضيلات)، الحقائق ذات الصلة (الذكريات الأعلى تقييماً لهذا الاستعلام)، السياق الأخير (المقاطع الأعلى تقييماً)، سير العمل (الإجراءات الأعلى تقييماً). الهيكل يهمّ: وضع الهوية في القمة يعني أنها تحصل على انتباه كامل؛ ووضع سير العمل في الأسفل يعني أنها تُستشار فقط إذا قرر النموذج أن الاستعلام إجرائي.

رسالة المستخدم تُلحَق بعد ذلك كالدور التالي. يتلقى النموذج الموجّه المُجمَّع + رسالة المستخدم ويُنتج رداً. من منظور المستخدم، الذكاء الاصطناعي أجاب فقط. تحت الغطاء، استشار التجميع بصمت آلاف سجلات الذاكرة وأظهر للنموذج الثلاثين الصحيحة.

ما سرعة تجميع السياق في الممارسة؟

في نشر Alma الإنتاجي، كمون التجميع من البداية إلى النهاية يجلس في نطاق 30-80 ms لمستخدم نموذجي (بضع مئات من الذكريات، اثنا عشر مقطعاً). البحث المتجه يهيمن (~20-40 ms)، بحث الكلمة المفتاحية يعمل بالتوازي (~5-10 ms)، التقييم بضعة ms مفردة، وبناء الموجّه مجاني فعلياً. هدف 100 ms محقق بهامش مريح حتى للمستخدمين بآلاف الذكريات — حد المرشحين وميزانيات الطبقات تُبقي العمل محدوداً مع نمو المخزن.

كيف يتعامل المُجمّع مع الذكريات المتناقضة؟

قبل التقييم، مرور كشف تناقض على بركة المرشحين يُحدّد الأزواج في نطاق التشابه 0.75-0.92 التي تتعارض دلالياً. الإدخال الأحدث يفوز افتراضياً؛ القديم يُحدَّد كمُحَلّ ويُزال من مجموعة المرشحين لهذا الدور (وعالمياً، في مرور التوحيد التالي). هذا يمنع النموذج من تلقي "قلت X" بجانب "قلت لا-X" وارتجال تركيب لم يوافق عليه المستخدم أبداً.

دورة الحياة الكاملة (إزالة التكرار، الإحلال، التحلل) موثّقة في الدليل الكامل للذاكرة الدائمة؛ التجميع هو فقط حيث تظهر قرارات دورة الحياة تلك وقت الاستعلام.

هل تجميع السياق هو نفسه RAG؟

معمارياً متشابهان (كلاهما يسترجع، كلاهما يُرتّب، كلاهما يحقن في الموجّه) لكن المجموعة ودورة الحياة مختلفتان. RAG يسترجع من مجموعة وثائق خارجية مُؤلَّفة مرة ومُعاد فهرستها على جدول؛ الإدخالات لا تتطور عادة. تجميع الذاكرة يسترجع من مخزن المستخدم الخاص النامي باستمرار، بإدخالات تتناقض وتُدمج وتتحلل. أوزان التقييم تختلف أيضاً — RAG يُرتّب في الغالب بالتشابه وسلطة الوثيقة؛ تجميع الذاكرة يُرجّح الأهمية والحداثة والتكرار لأن تلك الإشارات تهمّ أكثر عندما يكون المخزن شخصياً. انظر المقارنة الأعمق في الذاكرة الدائمة مقابل RAG.

هل يمكنني ضبط التجميع لعبء عملي؟

نعم. تقبل نقطة النهاية POST /api/v1/context/assemble تجاوزات لميزانيات الطبقات، وعتبة الحد الأدنى للنتيجة، وحد المرشحين، وأوزان تعزيز علامات الفئة (بحيث يستطيع وكيل PM تعزيز القرارات، ووكيل كاتب تعزيز قواعد الصوت). تبقى معظم الفرق على الافتراضيات — كانت مُضبطة لتكون مفيدة جاهزة — لكن الرافعات موجودة للعمودي المتخصص.

كيف أرى تجميع السياق في العمل؟

ابدأ في alma.olivares.ai، اِملأ عشرين أو ثلاثين ذكرى عن مشروع تهتم به، ثم ابدأ محادثة. ستُرجع الاستجابة الأولى للنموذج في المحادثة الجديدة حقائق محددة من مخزن ذاكرتك — هذا التجميع، فقط مخفي خلف المحادثة المُوجَّهة للمستخدم. للمطورين الذين يدمجون مباشرة: REST API يكشف الموجّه المُجمَّع الخام بحيث يمكنك فحص ما اختير بالضبط لكل استعلام.

See plans