Which AI model has the biggest context window?

Gemini 3.1 Pro Preview at 1 million tokens advertised. Llama 4 Scout claims 10 million but effective retrieval holds only to about 2 million. For reliable retrieval at scale, Gemini 3.1 Pro Preview is the field leader.

What's the effective context window for Claude?

Claude Opus 4.7 advertises 1 million tokens. Retrieval stays reliable to about 600K tokens before degrading. Plan around the 600K number for serious document work.

How much does a long-context query cost?

A 200K-token query on Claude Opus 4.7 runs about $1 per request. The same answer via RAG with 4K retrieved tokens costs around $0.06: a 17× difference. The math forces the architecture at any meaningful volume.

Does prompt caching change the cost story?

Yes. Cached prefixes run at ~10% of the standard input rate. If you're sending the same long context repeatedly, caching brings long-context queries closer to RAG economics, though RAG still wins on per-query cost.

When is long context worth the price?

Exploratory cross-document analysis and code understanding across a medium-sized codebase. Both need synthesis across distant parts of a coherent body of text, work RAG cannot do because retrieval breaks the text into independent chunks.

مقارنة·فبراير 2026

مقارنة سعات السياق عبر أربعة نماذج متقدمة

متى تستحق نافذة المليون رمز تكلفتها، ومتى تكون مجرد استرجاع مكلف بطريقة سيئة.

تم التحديث في 25 مايو 2026 · عرض سجل التغييرات

النماذج المقارنة 4 متقدمة ومفتوحة الأوزان

أكبر معلن 10M Llama 4 Scout

السقف العملي 2M حيث يظل الاسترجاع عاملاً

تكلفة طلب 200K $1.00 خط أساس Claude Opus

معظم معايير سعات السياق تقيس الشيء الخطأ. تخبرك كم نصاً يتسع، وتصمت عما يستطيع النموذج فعلياً العثور عليه بعد أن يدخل النص.

1M رمز لدى Claude، وفق وثائق API من Anthropic. و1M لدى Gemini 3.1 Pro Preview، وفق صفحة نماذج Gemini من Google. و1M لدى GPT-5، وفق وثائق منصة OpenAI. كانت الحجة التسويقية خلف هذه الأرقام أن السياق الأكبر يساوي قدرة أكبر، وأن النماذج ذات النوافذ الطويلة ستجعل الاسترجاع مجرد أثر من عصر النوافذ الصغيرة. ما تجده عملياً أكثر فوضى من العرض التسويقي. تستحق النافذة الطويلة مكانها في مجموعة ضيقة من سير العمل، وتجلس كعبء مكلف في معظم غيرها، وتخسر صراحة أمام الاسترجاع الصحيح في فئة ثالثة ما زالت الفرق تحاول إجبارها عليها.

تقارن هذه المقالة بين التطبيقات الأربعة الجادة للسياق الطويل على عبء العمل نفسه: ماذا تفعل عند حدود نوافذ سياقها، وأين يبدأ التدهور المرئي، وإلى أين تصل الفواتير. تم التحقق من تكاليف كل رمز عبر المقال وفق صفحة أسعار Anthropic، وأسعار API من OpenAI، وأسعار Google المنشورة. أوزان Llama 4 وشروط الترخيص موثقة في llama.com. يدفع السياق الطويل قيمته في التفكير الاستكشافي عبر المستندات، ويهدر نفسه على مهام كان الاسترجاع سيؤديها أفضل. ويميل أيضاً إلى أن يكلف أكثر تحديداً حيث يخبرك أقل. للحجة ضد استخدام السياق الطويل كافتراضي، راجع مقالة تسويق المليون رمز.

الأرقام المعلنة مقابل الأرقام العملية

سعة السياق العملية مقابل المعلنة، وفق اختبارات benchr من نوع needle-in-haystack، يناير 2026
النموذج	السياق المعلن	منطقة الاسترجاع الموثوقة	التكلفة لكل 1M رمز إدخال
Claude Opus 4.7	1M	حتى نحو 600K	$5
Gemini 3.1 Pro Preview	1M	حتى نحو 800K	$2
GPT-5	400K	حتى نحو 250K	$1.25
Llama 4 Maverick	1M	حتى نحو 250K	تختلف (استضافة ذاتية)

عمود "منطقة الاسترجاع الموثوقة" هو الملاحظة العملية التي نادراً ما تعرضها المعايير: عدد الرموز التقريبي الذي يبدأ بعده استدعاء مهام التركيب متعدد الحقائق بالتدهور بوضوح. تعكس الأرقام إجماع تقارير needle-in-haystack المنشورة، وتقييمات المجتمع البحثي للتركيب متعدد الحقائق (مثل دراسات السياق الطويل المنشورة على arxiv)، ونقاش المطورين المفتوح المتسق. الرقم المعلن هو فقط الحد الأقصى التقني الذي سيقبله النموذج؛ والمنطقة الموثوقة هي مقدار ما يبقى مفيداً منه. تجاوز ذلك وسيظل النموذج يعمل بينما تهبط جودة التركيب أسرع مما توحي به معايير needle البسيطة.

الأشرطة تعرض السياق المعلن. اللون البرتقالي يوضح مقدار ما يمكن استخدامه فعلياً.

Gemini 3.1 Pro Preview هو الأقوى بين الأربعة عند المقاييس القصوى. نافذة 1M حقيقية، والاسترجاع داخلها يصمد أبعد من البدائل. Claude ثانٍ. يقف GPT-5 خلف الاثنين في التركيب بعد 400K رمز، رغم السعة الاسمية نفسها. نافذة Llama 4 Maverick ذات المليون رمز موجودة تقنياً، لكنها تتدهور عملياً أبكر بكثير. يهبط الاستدعاء بوضوح بعد 250K رمز.

النافذة المعلنة مقابل الاسترجاع العملي حسب النموذج

الحد الأقصى المعلن بإطار أسود. ومنطقة الاسترجاع العملية بالبرتقالي.

Claude Opus advertised

Claude Opus effective

600K

Gemini 3.5 Flash advertised

Gemini 3.5 Flash effective

600K

GPT-5 advertised

400K

GPT-5 effective

250K

تأتي أرقام منطقة الاسترجاع العملية في الجدول أعلاه من اختبارات تركيب متعددة الحقائق، لا من اختبارات needle-in-haystack. درجات needle-in-haystack ستضع كل نموذج قريباً من المثالية عبر النافذة المعلنة. الفجوة بين عائلتي الاختبارات هي موضوع هذه المقالة كله.

ثلاثة أشكال عمل، وثلاثة أحكام مختلفة

لجعل النمط ملموساً، تخيل تقرير سياسة حكومية من 280,000 رمز (نحو 200 صفحة من نثر كثيف) وثلاثة أسئلة مختلفة قد تسألها عنه. أشكال العمل الثلاثة التالية تظهر في المراجعة القانونية وتركيب الأبحاث، وفي أي تحليل عبر المستندات قد تشغله.

عبء العمل الأول: سؤال الركائز الواسع. ما الركائز الثلاث في المستند، وماذا يقول عن التقدم في كل واحدة؟ ستعطيك النماذج المتقدمة الأربعة إجابة قابلة للعمل. النمط المتسق في نقاش المجتمع هو أن Gemini وClaude يتعاملان مع هذا النوع من الأسئلة أفضل عندما يكون المستند حسن البنية؛ ويضغط GPT-5 أحياناً قسماً كان ينبغي تلخيصه بعمق. Llama 4 Maverick هو الأضعف في هذا الشكل بعد منطقة الاسترجاع العملية لديه.

عبء العمل الثاني: البحث الدقيق. ما المقياس المحدد الذي يستخدمه التقرير لمساهمة القطاع الخاص في الناتج المحلي، وما القيم الحالية والمستهدفة؟ ستنتج النماذج الأربعة الإجابة الصحيحة عندما يكون القسم ذو الصلة داخل النطاق. ولا واحد منها بكفاءة نظام استرجاع أساسي في هذا. تكلفة الرموز لسؤال المستند الكامل، حتى مع التخزين المخبأ، أعلى بنحو مرتبة حجم مما سيتقاضاه الاسترجاع. مقالة RAG مقابل الضبط الدقيق فيها الحسابات.

عبء العمل الثالث: التركيب عبر الأقسام. هل توجد تناقضات داخلية بين ادعاءات القدرة على تحمل تكاليف السكن في الفصول الأولى وتوقعات مزيج الناتج المحلي في الفصول اللاحقة؟ هذا هو عبء العمل الذي يبرر النافذة الطويلة. يرفع الاسترجاع المقاطع بشكل مستقل؛ ولا يملك طريقة تجعل النموذج يلاحظ أن القسم A والقسم M يتحدثان في اتجاهين متعاكسين. النماذج المتقدمة التي تحافظ على الاتساق على نطاق واسع، خصوصاً Gemini وClaude، تلتقط توترات سيفوتها خط استرجاع.

الانقسام بنيوي. يستحق السياق الطويل مكانه في التركيب عبر الأقسام الذي لا تستطيع الحصول عليه بأي طريقة أخرى، ويتكفل الاسترجاع بالباقي.

يستحق السياق الطويل فاتورته في الأسئلة العابرة للمستندات التي لم تكن تعرف أنك ستسألها. في اللحظة التي تستطيع فيها كتابة السؤال في جملة، فأنت تدفع أكثر من اللازم.

5× Cost increase when you use 5× more context

طلب 8K

$0.12 لكل طلب Opus

طلب 50K

$0.75 لكل طلب Opus

طلب 200K

$1.00 لكل طلب Opus

طلب 600K

$9.00 لكل طلب Opus

استرجاع RAG

$0.06 نفس الإجابة، 4K رمز

بادئة مخبأة

10% من سعر الإدخال المعياري

2022 4K · GPT-3.5
رسالة واحدة، بريد واحد، مقال قصير واحد. هذا كل شيء.
2023 32K · GPT-4 Turbo
تقرير قصير، قاعدة كود صغيرة، مذكرة طويلة.
2024 200K · Claude 2
رواية قصيرة، مستند تقني طويل، وقواعد كود إنتاجية.
Feb 2024 1M · Gemini 1.5 Pro
أول سياق مليون رمز واسع الانتشار. كتاب دراسي في طلب واحد.
Sep 2025 10M · Llama 4 Scout
قاعدة الكود كلها، والمجموعة كلها. المنطقة العملية أقرب إلى 2M.

تحفظ واحد: تعكس أرقام منطقة الاسترجاع العملية أدبيات التركيب متعدد الحقائق على المستندات القانونية والعلمية والسياساتية. وهي متسقة عبر تلك المجالات في التقارير المنشورة. لكنها لا تعمم بالضرورة على كل نوع مستند. للكود والبيانات المنظمة والنصوص والتسجيلات الحوارية أنماط فشل مختلفة. تعامل مع الأرقام كنقطة بداية لا كسقف.

صورة التكلفة

نسخة الطلب ذات 280,000 رمز على Claude Opus 4.7 تكلف نحو $1.40 لكل سؤال في رموز الإدخال. السؤال نفسه عند إجابته عبر مخزن متجهات مناسب يسترجع المقاطع ذات الصلة يكلف نحو $0.04. هذا فرق 35×. عند سؤال واحد يومياً لن يلاحظ أحد. عند 500 سؤال يومياً، تحسم هذه الفجوة المعمارية نيابة عنك.

يغير التخزين المخبأ هذه الصورة كثيراً. إذا كان المستند الطويل نفسه يُسأل مراراً، يخفض مخبأ المطالبات في Claude تكلفة الإدخال في الطلبات اللاحقة إلى نحو 10% من السعر القياسي. يعمل تخزين Gemini بالآلية نفسها ويخرج أرخص بالقيمة المطلقة. مع التخزين المخبأ، يكلف طلب السياق الطويل على مستند كثير الاستخدام نحو $0.40 لكل سؤال على Claude. هذا ما زال عشرة أضعاف ما سيتقاضاه الاسترجاع، لكنه يقع داخل النطاق الذي تستطيع فيه سير العمل التي تحتاج السياق الطويل فعلاً تبرير دفعه. لصورة التكلفة الأوسع عبر الأعباء، راجع السعر حسب حالة الاستخدام.

قاعدة القرار

للأسئلة الاستكشافية على مستند واحد، أو للتفكير عبر الأقسام حيث قد تعتمد الإجابة على علاقة بين أجزاء بعيدة من المصدر، يكون السياق الطويل هو الأداة الصحيحة. تكلفة الرموز عالية، لكنها تشتري قدرة لا يستطيع الاسترجاع تقديمها ببساطة.

للبحث الدقيق حيث تستطيع كتابة السؤال في جملة، يفوز الاسترجاع في كل بعد. تنخفض التكلفة بمرتبة حجم وينخفض معها الكمون. دقة البحث المحدد تظل مساوية على الأقل وغالباً تتقدم، لأن النموذج يعمل داخل نافذة سياق ضيقة لا مترامية.

للإجابة عالية الحجم عن أسئلة ضد مجموعة ثابتة، يكون الاسترجاع هو المعمارية المعقولة الوحيدة. السياق الطويل على نطاق واسع يصبح مكلفاً بشكل مانع لا يصلحه أي قدر من التخزين المخبأ بالكامل.

للمجموعات التي تتجاوز نافذة سياق أي نموذج متاح، يكون الاسترجاع إلزامياً؛ لا يبقى قرار أصلاً.

أنتج عصر سياق المليون رمز قدرة مثبتة ينبغي استخدامها عمداً. هو يكمّل الاسترجاع بالتعامل مع نوع مختلف من الأسئلة، لا يزيحه. التعامل مع النافذة الطويلة كبديل عام للاسترجاع هو أكثر خطأ معماري شيوعاً في بدايات 2026، وهو السبب خلف أكثر فواتير الذكاء الاصطناعي مفاجأة.

بين النماذج الأربعة المقارنة هنا، يعد Gemini 3.1 Pro Preview أقوى تطبيق للسياق الطويل حالياً وفق تقارير التركيب متعدد الحقائق العامة، مع Claude Opus 4.7 كثانٍ قريب. الاختيار بينهما يعود إلى بقية عبء العمل: Gemini للأعمال كثيفة الرؤية، وClaude للكود والتحفظ الصادق، مع قدرة السياق الطويل متقاربة تقريباً في كلتا الحالتين. سياق GPT-5 الطويل كفء لكنه يتأخر عن القادة في التركيب بعد 400K رمز. وسياق Llama 4 Maverick الطويل حقيقي لكنه يتدهور عملياً أبكر من البدائل المغلقة، لذلك تجاوزه في عمل المستندات الطويلة الجاد اليوم.

في نظام إنتاجي، اجعل الاسترجاع هو الافتراضي لمعظم عبء العمل، ولا تلجأ إلى السياق الطويل إلا عندما يكون السؤال عابراً للأقسام فعلاً. ديناميات التكلفة تجعل ذلك الخيار المعقول الوحيد عند أي حجم له معنى، وقصة القدرة تجعله صحيحاً معمارياً حتى عندما يكون الحجم منخفضاً. للمزيد من حسابات RAG مقابل السياق الطويل، راجع RAG مقابل الضبط الدقيق، مع الحسابات.

أسئلة شائعة

أي نموذج ذكاء اصطناعي لديه أكبر نافذة سياق؟

Gemini 3.1 Pro Preview مع 1 مليون رمز معلنة. يدعي Llama 4 Scout عشرة ملايين، لكن الاسترجاع العملي يصمد فقط إلى نحو مليوني رمز. للاسترجاع الموثوق على نطاق واسع، Gemini 3.1 Pro Preview هو قائد المجال.

ما سعة السياق العملية لدى Claude؟

يعلن Claude Opus 4.7 مليون رمز. يبقى الاسترجاع موثوقاً إلى نحو 600K رمز قبل التدهور. خطط حول رقم 600K لعمل المستندات الجاد.

كم يكلف طلب سياق طويل؟

طلب 200K رمز على Claude Opus 4.7 يكلف نحو $1 لكل طلب. الإجابة نفسها عبر RAG مع 4K رمز مسترجع تكلف نحو $0.06: فرق 17×. الحسابات تفرض المعمارية عند أي حجم مهم.

هل يغير تخزين المطالبات المخبأ قصة التكلفة؟

نعم. تعمل البادئات المخبأة عند نحو 10% من سعر الإدخال القياسي. إذا كنت ترسل السياق الطويل نفسه مراراً، يقرب التخزين المخبأ طلبات السياق الطويل من اقتصاديات RAG، رغم أن RAG ما زال يفوز في تكلفة كل طلب.

متى يستحق السياق الطويل سعره؟

التحليل الاستكشافي عبر المستندات وفهم الكود عبر قاعدة كود متوسطة الحجم. كلاهما يحتاج تركيباً عبر أجزاء بعيدة من متن نصي متماسك، وهو عمل لا يستطيع RAG أداءه لأن الاسترجاع يكسر النص إلى مقاطع مستقلة.

سجل التغييرات

25 مايو 2026 — تم التحقق من الأسعار وفق وثائق المزودين الحالية. حُدثت أرقام التكلفة في كامل المقال لتعكس تعديلات أسعار Anthropic وطرح Google لـ Gemini 3.1 Pro Preview.
11 فبراير 2026 — نُشرت النسخة الأولى.

المراجع

Anthropic، "وثائق Claude API"، docs.claude.com، اطُّلع عليه في مايو 2026.
Anthropic، "الأسعار"، anthropic.com/pricing، اطُّلع عليه في مايو 2026.
Google، "نماذج Gemini API"، ai.google.dev/gemini-api/docs/models، اطُّلع عليه في مايو 2026.
OpenAI، "وثائق المنصة"، platform.openai.com/docs، اطُّلع عليه في مايو 2026.
OpenAI، "أسعار API"، openai.com/api/pricing، اطُّلع عليه في مايو 2026.
Meta، "Llama"، llama.com، اطُّلع عليه في مايو 2026.