معظم معايير سعات السياق تقيس الشيء الخطأ. تخبرك كم نصاً يتسع، وتصمت عما يستطيع النموذج فعلياً العثور عليه بعد أن يدخل النص.
1M رمز لدى Claude، وفق وثائق API من Anthropic. و1M لدى Gemini 3.1 Pro Preview، وفق صفحة نماذج Gemini من Google. و1M لدى GPT-5، وفق وثائق منصة OpenAI. كانت الحجة التسويقية خلف هذه الأرقام أن السياق الأكبر يساوي قدرة أكبر، وأن النماذج ذات النوافذ الطويلة ستجعل الاسترجاع مجرد أثر من عصر النوافذ الصغيرة. ما تجده عملياً أكثر فوضى من العرض التسويقي. تستحق النافذة الطويلة مكانها في مجموعة ضيقة من سير العمل، وتجلس كعبء مكلف في معظم غيرها، وتخسر صراحة أمام الاسترجاع الصحيح في فئة ثالثة ما زالت الفرق تحاول إجبارها عليها.
تقارن هذه المقالة بين التطبيقات الأربعة الجادة للسياق الطويل على عبء العمل نفسه: ماذا تفعل عند حدود نوافذ سياقها، وأين يبدأ التدهور المرئي، وإلى أين تصل الفواتير. تم التحقق من تكاليف كل رمز عبر المقال وفق صفحة أسعار Anthropic، وأسعار API من OpenAI، وأسعار Google المنشورة. أوزان Llama 4 وشروط الترخيص موثقة في llama.com. يدفع السياق الطويل قيمته في التفكير الاستكشافي عبر المستندات، ويهدر نفسه على مهام كان الاسترجاع سيؤديها أفضل. ويميل أيضاً إلى أن يكلف أكثر تحديداً حيث يخبرك أقل. للحجة ضد استخدام السياق الطويل كافتراضي، راجع مقالة تسويق المليون رمز.
الأرقام المعلنة مقابل الأرقام العملية
| النموذج | السياق المعلن | منطقة الاسترجاع الموثوقة | التكلفة لكل 1M رمز إدخال |
|---|---|---|---|
| Claude Opus 4.7 | 1M | حتى نحو 600K | $5 |
| Gemini 3.1 Pro Preview | 1M | حتى نحو 800K | $2 |
| GPT-5 | 400K | حتى نحو 250K | $1.25 |
| Llama 4 Maverick | 1M | حتى نحو 250K | تختلف (استضافة ذاتية) |
عمود "منطقة الاسترجاع الموثوقة" هو الملاحظة العملية التي نادراً ما تعرضها المعايير: عدد الرموز التقريبي الذي يبدأ بعده استدعاء مهام التركيب متعدد الحقائق بالتدهور بوضوح. تعكس الأرقام إجماع تقارير needle-in-haystack المنشورة، وتقييمات المجتمع البحثي للتركيب متعدد الحقائق (مثل دراسات السياق الطويل المنشورة على arxiv)، ونقاش المطورين المفتوح المتسق. الرقم المعلن هو فقط الحد الأقصى التقني الذي سيقبله النموذج؛ والمنطقة الموثوقة هي مقدار ما يبقى مفيداً منه. تجاوز ذلك وسيظل النموذج يعمل بينما تهبط جودة التركيب أسرع مما توحي به معايير needle البسيطة.
Gemini 3.1 Pro Preview هو الأقوى بين الأربعة عند المقاييس القصوى. نافذة 1M حقيقية، والاسترجاع داخلها يصمد أبعد من البدائل. Claude ثانٍ. يقف GPT-5 خلف الاثنين في التركيب بعد 400K رمز، رغم السعة الاسمية نفسها. نافذة Llama 4 Maverick ذات المليون رمز موجودة تقنياً، لكنها تتدهور عملياً أبكر بكثير. يهبط الاستدعاء بوضوح بعد 250K رمز.
تأتي أرقام منطقة الاسترجاع العملية في الجدول أعلاه من اختبارات تركيب متعددة الحقائق، لا من اختبارات needle-in-haystack. درجات needle-in-haystack ستضع كل نموذج قريباً من المثالية عبر النافذة المعلنة. الفجوة بين عائلتي الاختبارات هي موضوع هذه المقالة كله.
ثلاثة أشكال عمل، وثلاثة أحكام مختلفة
لجعل النمط ملموساً، تخيل تقرير سياسة حكومية من 280,000 رمز (نحو 200 صفحة من نثر كثيف) وثلاثة أسئلة مختلفة قد تسألها عنه. أشكال العمل الثلاثة التالية تظهر في المراجعة القانونية وتركيب الأبحاث، وفي أي تحليل عبر المستندات قد تشغله.
عبء العمل الأول: سؤال الركائز الواسع. ما الركائز الثلاث في المستند، وماذا يقول عن التقدم في كل واحدة؟ ستعطيك النماذج المتقدمة الأربعة إجابة قابلة للعمل. النمط المتسق في نقاش المجتمع هو أن Gemini وClaude يتعاملان مع هذا النوع من الأسئلة أفضل عندما يكون المستند حسن البنية؛ ويضغط GPT-5 أحياناً قسماً كان ينبغي تلخيصه بعمق. Llama 4 Maverick هو الأضعف في هذا الشكل بعد منطقة الاسترجاع العملية لديه.
عبء العمل الثاني: البحث الدقيق. ما المقياس المحدد الذي يستخدمه التقرير لمساهمة القطاع الخاص في الناتج المحلي، وما القيم الحالية والمستهدفة؟ ستنتج النماذج الأربعة الإجابة الصحيحة عندما يكون القسم ذو الصلة داخل النطاق. ولا واحد منها بكفاءة نظام استرجاع أساسي في هذا. تكلفة الرموز لسؤال المستند الكامل، حتى مع التخزين المخبأ، أعلى بنحو مرتبة حجم مما سيتقاضاه الاسترجاع. مقالة RAG مقابل الضبط الدقيق فيها الحسابات.
عبء العمل الثالث: التركيب عبر الأقسام. هل توجد تناقضات داخلية بين ادعاءات القدرة على تحمل تكاليف السكن في الفصول الأولى وتوقعات مزيج الناتج المحلي في الفصول اللاحقة؟ هذا هو عبء العمل الذي يبرر النافذة الطويلة. يرفع الاسترجاع المقاطع بشكل مستقل؛ ولا يملك طريقة تجعل النموذج يلاحظ أن القسم A والقسم M يتحدثان في اتجاهين متعاكسين. النماذج المتقدمة التي تحافظ على الاتساق على نطاق واسع، خصوصاً Gemini وClaude، تلتقط توترات سيفوتها خط استرجاع.
الانقسام بنيوي. يستحق السياق الطويل مكانه في التركيب عبر الأقسام الذي لا تستطيع الحصول عليه بأي طريقة أخرى، ويتكفل الاسترجاع بالباقي.
يستحق السياق الطويل فاتورته في الأسئلة العابرة للمستندات التي لم تكن تعرف أنك ستسألها. في اللحظة التي تستطيع فيها كتابة السؤال في جملة، فأنت تدفع أكثر من اللازم.
طلب 8K
$0.12 لكل طلب Opusطلب 50K
$0.75 لكل طلب Opusطلب 200K
$1.00 لكل طلب Opusطلب 600K
$9.00 لكل طلب Opusاسترجاع RAG
$0.06 نفس الإجابة، 4K رمزبادئة مخبأة
10% من سعر الإدخال المعياري-
2022
4K · GPT-3.5
رسالة واحدة، بريد واحد، مقال قصير واحد. هذا كل شيء.
-
2023
32K · GPT-4 Turbo
تقرير قصير، قاعدة كود صغيرة، مذكرة طويلة.
-
2024
200K · Claude 2
رواية قصيرة، مستند تقني طويل، وقواعد كود إنتاجية.
-
Feb 2024
1M · Gemini 1.5 Pro
أول سياق مليون رمز واسع الانتشار. كتاب دراسي في طلب واحد.
-
Sep 2025
10M · Llama 4 Scout
قاعدة الكود كلها، والمجموعة كلها. المنطقة العملية أقرب إلى 2M.
تحفظ واحد: تعكس أرقام منطقة الاسترجاع العملية أدبيات التركيب متعدد الحقائق على المستندات القانونية والعلمية والسياساتية. وهي متسقة عبر تلك المجالات في التقارير المنشورة. لكنها لا تعمم بالضرورة على كل نوع مستند. للكود والبيانات المنظمة والنصوص والتسجيلات الحوارية أنماط فشل مختلفة. تعامل مع الأرقام كنقطة بداية لا كسقف.
صورة التكلفة
نسخة الطلب ذات 280,000 رمز على Claude Opus 4.7 تكلف نحو $1.40 لكل سؤال في رموز الإدخال. السؤال نفسه عند إجابته عبر مخزن متجهات مناسب يسترجع المقاطع ذات الصلة يكلف نحو $0.04. هذا فرق 35×. عند سؤال واحد يومياً لن يلاحظ أحد. عند 500 سؤال يومياً، تحسم هذه الفجوة المعمارية نيابة عنك.
يغير التخزين المخبأ هذه الصورة كثيراً. إذا كان المستند الطويل نفسه يُسأل مراراً، يخفض مخبأ المطالبات في Claude تكلفة الإدخال في الطلبات اللاحقة إلى نحو 10% من السعر القياسي. يعمل تخزين Gemini بالآلية نفسها ويخرج أرخص بالقيمة المطلقة. مع التخزين المخبأ، يكلف طلب السياق الطويل على مستند كثير الاستخدام نحو $0.40 لكل سؤال على Claude. هذا ما زال عشرة أضعاف ما سيتقاضاه الاسترجاع، لكنه يقع داخل النطاق الذي تستطيع فيه سير العمل التي تحتاج السياق الطويل فعلاً تبرير دفعه. لصورة التكلفة الأوسع عبر الأعباء، راجع السعر حسب حالة الاستخدام.
قاعدة القرار
للأسئلة الاستكشافية على مستند واحد، أو للتفكير عبر الأقسام حيث قد تعتمد الإجابة على علاقة بين أجزاء بعيدة من المصدر، يكون السياق الطويل هو الأداة الصحيحة. تكلفة الرموز عالية، لكنها تشتري قدرة لا يستطيع الاسترجاع تقديمها ببساطة.
للبحث الدقيق حيث تستطيع كتابة السؤال في جملة، يفوز الاسترجاع في كل بعد. تنخفض التكلفة بمرتبة حجم وينخفض معها الكمون. دقة البحث المحدد تظل مساوية على الأقل وغالباً تتقدم، لأن النموذج يعمل داخل نافذة سياق ضيقة لا مترامية.
للإجابة عالية الحجم عن أسئلة ضد مجموعة ثابتة، يكون الاسترجاع هو المعمارية المعقولة الوحيدة. السياق الطويل على نطاق واسع يصبح مكلفاً بشكل مانع لا يصلحه أي قدر من التخزين المخبأ بالكامل.
للمجموعات التي تتجاوز نافذة سياق أي نموذج متاح، يكون الاسترجاع إلزامياً؛ لا يبقى قرار أصلاً.
أنتج عصر سياق المليون رمز قدرة مثبتة ينبغي استخدامها عمداً. هو يكمّل الاسترجاع بالتعامل مع نوع مختلف من الأسئلة، لا يزيحه. التعامل مع النافذة الطويلة كبديل عام للاسترجاع هو أكثر خطأ معماري شيوعاً في بدايات 2026، وهو السبب خلف أكثر فواتير الذكاء الاصطناعي مفاجأة.
بين النماذج الأربعة المقارنة هنا، يعد Gemini 3.1 Pro Preview أقوى تطبيق للسياق الطويل حالياً وفق تقارير التركيب متعدد الحقائق العامة، مع Claude Opus 4.7 كثانٍ قريب. الاختيار بينهما يعود إلى بقية عبء العمل: Gemini للأعمال كثيفة الرؤية، وClaude للكود والتحفظ الصادق، مع قدرة السياق الطويل متقاربة تقريباً في كلتا الحالتين. سياق GPT-5 الطويل كفء لكنه يتأخر عن القادة في التركيب بعد 400K رمز. وسياق Llama 4 Maverick الطويل حقيقي لكنه يتدهور عملياً أبكر من البدائل المغلقة، لذلك تجاوزه في عمل المستندات الطويلة الجاد اليوم.
في نظام إنتاجي، اجعل الاسترجاع هو الافتراضي لمعظم عبء العمل، ولا تلجأ إلى السياق الطويل إلا عندما يكون السؤال عابراً للأقسام فعلاً. ديناميات التكلفة تجعل ذلك الخيار المعقول الوحيد عند أي حجم له معنى، وقصة القدرة تجعله صحيحاً معمارياً حتى عندما يكون الحجم منخفضاً. للمزيد من حسابات RAG مقابل السياق الطويل، راجع RAG مقابل الضبط الدقيق، مع الحسابات.