طبقة النماذج مفتوحة الأوزان الآن: Llama 4 وMistral وQwen وDeepSeek

أين لحقت النماذج مفتوحة الأوزان بالمغلقة، والفئتان اللتان لم تلحق بهما بعد.

· عرض سجل التغييرات

عائلات النماذج 4 Llama وMistral وQwen وDeepSeek
أنظف رخصة Apache Qwen 3، وMIT لـ DeepSeek
أرخص إدخال $0.10 Llama 4 Scout / 1M رمز
أعلى SWE-Bench مفتوح 58% DeepSeek-V3.1

"النماذج مفتوحة الأوزان لحقت." هذه أكثر قراءة تُسمع في 2026، غالباً من أشخاص لم يجربوا تشغيل نموذج مفتوح في سير إنتاج جاد. والقراءة المعاكسة، أن مفتوح الأوزان ما زال متأخراً بسنوات، تأتي من أشخاص لم ينظروا إلى لوحات الترتيب منذ فترة. كلاهما يفشل بالطريقة نفسها: يخلطان فئات تحركت بسرعات مختلفة جداً. أغلقت النماذج مفتوحة الأوزان الفجوة في الاستخدام الحواري العام، وتوليد الكود المعزول، والتفكير متعدد اللغات عالي الموارد. حيث ما زالت متأخرة هو الاسترجاع طويل السياق عند النطاقات القصوى، واستخدام الأدوات الموثوق داخل حلقات الوكلاء. النماذج الأربعة المغطاة هنا (Llama 4 بإعدادي Maverick وScout، وMistral Large 2، وQwen 3، وDeepSeek-V3.1) تُظهر هذا التفاوت بطرق مختلفة.

القائمة: Llama 4 في إعداديه الرئيسيين المشحونين (Maverick، وهو MoE بـ400B مع نحو 17B نشطة، وScout، وهو MoE بـ109B)، وMistral Large 2 بـ123B معامل كثيف، وQwen 3 بنسختي 72B الكثيفة و235B MoE، وDeepSeek-V3.1 بـ671B MoE مع نحو 37B نشطة لكل رمز. تستند الأحكام أدناه إلى ادعاءات القدرة الموثقة لدى كل مختبر وإلى نقاش المجتمع المفتوح المتسق حول سلوك كل نموذج في الإنتاج. إذا أردت تشغيل أي من هذه على عتادك الخاص، فراجع تشغيل النماذج على جهازك.

تحفظ واحد قبل القائمة. تحسينات المعايير الرئيسية في DeepSeek-V3.1 مقارنة بـ V3.0 (خصوصاً في الرياضيات) حقيقية وقابلة للتكرار على التقييمات المنشورة. هل تترجم إلى الفرق نفسه في عبء الرياضيات المحدد لديك (نمذجة مالية، أو تفكير صعب تحت عدم اليقين) فهذا لا يخبرك به إلا اختبارك الخاص. تميل فجوة لوحة الترتيب إلى أن تبدو أكبر مما يظهر على مستوى عبء العمل.

Llama 4

أصدرت Meta نموذج Llama 4 في أبريل 2025، وفق إعلان Llama 4 من Meta AI، في إعدادين رئيسيين. Maverick هو نموذج MoE بـ400B معامل (نحو 17B نشطة لكل رمز) موجه للنشر الجاد على GPU. وScout هو متغير MoE بـ109B يفعّل نحو 17B معامل في كل مرور أمامي ويعمل على H100 واحد بسعة 80GB مع تكميم معقول. الأوزان والتنزيلات متاحة في llama.com.

Maverick هو أقوى نموذج مفتوح الأوزان في مهام التفكير الصعبة في نهاية 2025. في مسائل سلاسل التفكير والتفكير المنظم متعدد الخطوات، هو النموذج المفتوح الذي تتجه إليه. Scout هو حصان العمل، يبادل بعض القدرة القصوى بمتطلبات عتاد أكثر سهولة بكثير. النسخ المضبوطة للتعليمات من الاثنين جيدة، وإن كانت أقل صقلاً قليلاً من النماذج الأساسية، وهو نمط منسجم مع طريقة ضبط Meta مؤخراً.

الرخصة هي Llama 4 Community License: متساهلة تقريباً للجميع، مع بند يمنع الاستخدام من خدمات لديها أكثر من 700M مستخدم نشط شهرياً. هذا البند غير ذي صلة لفريق صغير أو مطور منفرد. في شركة كبيرة، اقرأ الرخصة بعناية مقابل سياق النشر المحدد.

Mistral Large 2 هو الإصدار الإنتاجي في مايو 2026، لكن Mistral تلمح إلى خلف له منذ أشهر. بحلول قراءتك لهذا، قد يكون هناك Large 3 أو ما يعادله. المنهجية هنا تنطبق في كل الأحوال: قيّم النموذج الجديد على الاختبارات نفسها عندما يصدر.

Mistral Large 2

صدر في يوليو 2024 بـ123B معامل كثيف، وفق إعلان Large 2 من Mistral. لا يزال هذا هو مختبر مفتوح الأوزان صاحب أقوى أسلوب داخلي: تفضيل نظيف للمخرجات المنظمة واستعداد للالتزام بالرأي بدلاً من التحفظ إلى ما لا نهاية. عمله في اللغات الأوروبية أقوى بوضوح من البدائل. سعة السياق عند 128K رمز، لكن ما لديه من سياق يُستخدم بشكل جيد على غير المعتاد.

الرخصة هي Mistral Research License. متساهلة للبحث والاستخدام الشخصي، مع شروط تجارية منفصلة مطلوبة للنشرات المدفوعة. ليست نظيفة مثل Apache 2.0، لكن الشروط مباشرة وقابلة للتوقع. إذا كان النشر داخلياً وغير تجاري، تستطيع استخدام Mistral Large 2 اليوم من دون تفاوض إضافي. للاستخدام التجاري، تواصل مع Mistral.

Qwen 3

أصدرت Alibaba نموذج Qwen 3 في أبريل 2025 عبر عدة نسخ، مع الملخص الرسمي في qwen.ai وبطاقات النماذج المستضافة على Hugging Face تحت منظمة Qwen. النسختان الجديرتان بانتباهك هما نموذج 72B الكثيف و235B MoE الذي يفعّل نحو 22B معامل لكل رمز. Qwen 3 هو أقوى نموذج مفتوح الأوزان في العمل باللغة الصينية، ومن الأفضل في العربية واليابانية أيضاً. فهمه للكود ينافس النماذج المغلقة متوسطة الطبقة بطريقة تفاجئ من يعرف Qwen فقط من سمعته القديمة.

تأتي معظم النسخ تحت Apache 2.0، أنظف رخصة في القائمة. يميل اتباع النموذج للتعليمات إلى الانجراف عائداً إلى شكل المخرجات المفضل لديه بعد بضع جولات محادثة، وهذا قيد حقيقي في سير العمل الوكيلي. لكن في الاستخدام بضربة واحدة أو المحادثات القصيرة، تضاهي الجودة البدائل أو تتفوق عليها في معظم الفئات.

DeepSeek-V3.1

صدر في أواخر 2025 كتحسين لخط V3، مع الإصدارات والوثائق في deepseek.com. تحديث V3.1 هو MoE بـ671B معامل يفعّل نحو 37B معامل في كل مرور أمامي. بنت DeepSeek أكثر قصة مفتوحة الأوزان جرأة بين المختبرات الحالية: تقارير تقنية مفصلة، وبطاقات نماذج تنشر الأرقام بدلاً من لغة التسويق، وتسعير نقاط نهاية مستضافة أقل بكثير من البدائل الغربية.

في البرمجة والرياضيات، ينافس DeepSeek-V3.1 نموذج Claude Opus 4.7 في المهام المعزولة، وجودة تفكيره في المسائل الرياضية هي الأقوى في مجال مفتوح الأوزان. الكتابة بالإنجليزية في الطبقة العليا أيضاً. نقاط الضعف هي استخدام الأدوات، فهو أقل موثوقية من البدائل المغلقة، وعمق ضبط السلامة: الرفض أخف بوضوح مما قد يتوقعه المستخدمون الغربيون من نموذج متقدم.

الرخصة هي DeepSeek License بأسلوب MIT. متساهلة مع قيود حالات استخدام تستحق القراءة إذا كان النشر يلامس أي شيء حساس.

متوسط القدرة عبر ستة أبعاد

متوسط القدرة عبر البرمجة، والتفكير، والكتابة، والرؤية، والسياق الطويل، وتعدد اللغات.

Llama 4 Maverick
85
DeepSeek-V3.1
82
Qwen 3 235B
83
Mistral Large 2
79
Claude Opus 4.7 (ref)
91
70% Of frontier capability for about 10% of the price

ثلاثة مواضع لحق فيها المفتوح

ثلاث فئات تكون فيها طبقة مفتوح الأوزان قريبة بما يكفي من النماذج المغلقة بحيث لا ينبغي للقدرة أن تحسمها. الرخصة والتكلفة وتفضيلات النشر هي التي ينبغي أن تحسم.

المعرفة العامة والتفكير الحواري عند الأطوال المعتادة. النماذج المفتوحة الأعلى قريبة بما يكفي من الحد المغلق في استخدام المحادثة، والأسئلة الواقعية، والتفكير المنظم الذي يناسب نافذة سياق واحدة. تلتقط لوحات الترتيب هذا بدقة، حتى لو فاتتها الفئات التالية. للمزيد عن مشكلة لوحات الترتيب، راجع لماذا توقفت المعايير عن إخبارك بأي شيء.

توليد الكود في المهام المعزولة هو الثاني. عند إعطاء مسألة برمجية مكتفية بذاتها ذات متطلبات واضحة، ينتج DeepSeek-V3.1 وQwen 3 مخرجات تضاهي النماذج المغلقة في الجودة معظم الوقت. لا تظهر الفجوة إلا على النطاق المعماري، في إعادة الهيكلة متعددة الملفات وقرارات التصميم التي تمتد عبر قاعدة كود إنتاجية. أما مهمة كتابة دالة كفؤة اليومية، فالنماذج المفتوحة جيدة بما يكفي.

الثالث هو القدرة متعددة اللغات في اللغات عالية الموارد. تنافس النماذج المفتوحة العليا بقوة عبر اللغات الأوروبية والصينية واليابانية وبشكل متزايد العربية، ويدفع Qwen 3 تحديداً الحد الصيني إلى أمام أي نموذج مغلق تستطيع شراءه. للمؤسسات التي تعمل بجدية على تعدد اللغات، صارت طبقة مفتوح الأوزان خياراً أول حقيقياً لا احتياطياً.

القدرات التي تتأخر النماذج مفتوحة الأوزان في مضاهاة المغلقة فيها هي بالضبط ما صبت المختبرات المغلقة أكبر قدر من الهندسة فيه. أصعب الفجوات إغلاقاً هي التي تساوي أكبر مال.

موضعان ما زال المغلق يفوز فيهما

فئتان تكون فيهما طبقة مفتوح الأوزان متأخرة بوضوح عن البدائل المغلقة. للنشرات الإنتاجية الجادة هنا، ابقَ مع المغلق.

الأول هو الاسترجاع طويل السياق عند النطاقات القصوى. بذلت النماذج المغلقة (Claude Opus 4.7 وGPT-5 وGemini 3.5 Flash وGemini 3.1 Pro) جهداً هندسياً هائلاً لجعل سياقات المليون رمز قابلة للاستخدام: يبقى الاستدعاء عالياً، وتبقى الهلوسات منخفضة، ويقتبس النموذج بدلاً من التلخيص عندما يُطلب منه ذلك. النماذج مفتوحة الأوزان ذات نوافذ سياق اسمية مشابهة تظهر هبوطاً واضحاً بعد علامة 500K رمز. يتراجع الاستدعاء، ويتسلل التركيب الخاطئ، وتتسع الفجوة مع أداء النماذج المغلقة مع كل 100K رمز إدخال إضافية.

الثاني هو استخدام الأدوات الموثوق وسلوك الوكلاء. قضت المختبرات المغلقة معظم عام تضبط نماذجها المتقدمة لتتصرف بثبات داخل حلقات الوكلاء: استدعِ هذه الأداة، حلل الاستجابة، قرر الإجراء التالي، وتعافَ بسلاسة من الأخطاء. تستطيع النماذج مفتوحة الأوزان فعل كل هذا من حيث المبدأ، لكنها عملياً تحتاج هيكلة مساعدة أكثر بكثير للبقاء على المهمة والتعافي من فشل الأدوات من دون التعثر. في أي سير إنتاجي يتضمن استخدام أدوات متعدد الخطوات، تبقى النماذج المغلقة متقدمة بوضوح.

Llama 4 Maverick

400B رخصة مجتمعية · استدلال

Mistral Large 2

123B رخصة بحثية · لغات أوروبية

Qwen 3 235B MoE

235B Apache 2.0 · متعدد اللغات

DeepSeek-V3.1

671B MIT · كود + رياضيات
  1. Feb 2024 Mistral Large

    أول منافس مفتوح الأوزان جاد لـ GPT-4.

  2. Jul 2024 Llama 3.1 405B

    أول نموذج مفتوح من Meta بفئة متقدمة.

  3. Dec 2024 DeepSeek-V3

    MoE مفتوح أغلق فجوة التكلفة.

  4. Aug 2025 Qwen 3 235B

    مرخص بـ Apache، ودعم قوي للعربية واللغات الآسيوية.

  5. Sep 2025 Llama 4 Maverick / Scout

    تفكير متقدم + طبقة سياق 10M.

  6. Dec 2025 DeepSeek-V3.1

    تحسين لـ V3 مع معايير كود ورياضيات أشد.

جدول المقارنة

نماذج متقدمة مفتوحة الأوزان، مسح benchr، يناير 2026
النموذجالمعاملاتالرخصةالأفضل فيتجنبه في
Llama 4 Maverick400B MoELlama 4 Communityالتفكير الصعب، أعلى طبقة مفتوحةحلقات الوكلاء، واسترجاع المستندات الطويلة
Llama 4 Scout109B MoELlama 4 Communityالنشر على GPU واحدأي شيء يحتاج أعلى دقة
Mistral Large 2123B كثيفMistral Researchاللغات الأوروبية، الصوتالسياق الطويل، والكود متعدد الملفات
Qwen 3 235B MoE235B (32B active)Apache 2.0الصينية، تعدد اللغات، الكودالالتزام الصارم بالتنسيق
DeepSeek-V3.1671B (37B active)أسلوب MITالكود، الرياضيات، الاستخدام الحساس للتكلفةالتطبيقات الحرجة للسلامة

Granite (خط IBM المرخص ترخيصاً مفتوحاً) وPhi (عائلة النماذج الصغيرة من Microsoft) ليسا ضمن هذا المسح. Granite قوي في عمل نصوص المؤسسات لكنه لا ينافس عند الحد المتقدم. يحصل Phi على مقالته الخاصة في مراجعة النماذج الصغيرة.

قاعدة القرار

إذا كنت تبني شيئاً يجب أن يعمل داخل بيئة منظمة من دون خروج البيانات من شبكتك، فالنماذج مفتوحة الأوزان هي عملياً الخيار الوحيد على الطاولة. أي فجوة قدرة موجودة تستحق تحملها لتجنب مشكلة الامتثال الناتجة عن إرسال البيانات إلى API مغلق.

إذا كانت اقتصاديات الوحدة في عبء عملك يهيمن عليها سعر الرمز (استدلال عالي الحجم، معالجة مستندات بالدفعات، أي شيء يخدم آلاف الطلبات في الدقيقة)، فسيتفوق DeepSeek-V3.1 على نقطة نهاية مستضافة أو Qwen 3 على عتادك الخاص على البدائل المغلقة بمرتبة حجم في الدولارات لكل طلب.

إذا كان عبء عملك يعتمد على أن يستدعي النموذج الأدوات بثقة، أو يتنقل في حلقات الوكلاء، أو يحافظ على الاتساق عبر مئات الآلاف من الرموز، فابقَ مع المغلق. الفجوة حقيقية ولا تُغلق بالسرعة التي توحي بها فجوة القدرة العامة.

عندما لا توجد أولوية قوية لأي اتجاه، اصنع النموذج الأولي على نموذج مغلق لسرعة التطوير، ثم أعد اختبار مسار الإنتاج على Qwen 3 235B أو DeepSeek-V3.1 قبل التوسع. كثيراً ما سيعمل النموذج المفتوح جيداً ويوفر مالاً يتراكم مع الوقت. وكثيراً بما يكفي، ستصطدم بنمط فشل محدد يبرر علاوة النموذج المغلق. اتجاه النتيجة يعتمد على حالة الاستخدام أكثر من أي قاعدة عامة.

النماذج مفتوحة الأوزان في أواخر 2025 جيدة بما يكفي لتكون الإجابة الصحيحة لمعظم الأعباء التي لا تعتمد على الاسترجاع طويل السياق عند نطاقات قصوى أو على سلوك وكلاء موثوق. أُغلقت فجوة القدرة في الأعمال اليومية: الاستخدام الحواري، وتوليد الكود المعزول، والتفكير متعدد اللغات عالي الموارد. وشروط الترخيص في Mistral وQwen نظيفة بما يكفي لنشر تجاري واثق.

الفئتان اللتان ما زال المغلق يتصدر فيهما هما حيث يذهب معظم مال الإنتاج، وهذا التداخل ليس صدفة. أعطت المختبرات المغلقة الأولوية لسير العمل الذي يولد أعلى قيمة إيراد، وتبعتها مختبرات مفتوح الأوزان على مسافة صغيرة لكنها مستمرة. هل تُغلق هذه الفجوة في 2026 يعتمد غالباً على ما إذا قررت مختبرات مفتوح الأوزان التركيز على العمل الهندسي نفسه الذي تفعله المختبرات المغلقة منذ عام، وهذا ليس واضحاً بعد.

إذا كان عليك اختيار نموذج مفتوح الأوزان واحد لنشر 2026، فالافتراضي هو Qwen 3 235B MoE. رخصته Apache 2.0، واتساعه متعدد اللغات، وكفاءته في الكود، ونضجه المعماري تجعله الأكثر مرونة بين الأربعة. يفوز الآخرون في تفاصيل محددة: DeepSeek-V3.1 في الأداء مقابل التكلفة الخام وفق التقارير العامة، وLlama 4 Maverick في قمة التفكير، وMistral Large 2 في اللغات الأوروبية ونظافة النثر. دع عبء العمل يختار، لا العلامة.

أسئلة شائعة

ما أفضل نموذج مفتوح الأوزان في 2026؟

Qwen 3 235B MoE تحت رخصة Apache 2.0 هو الاختيار الأكثر مرونة. يتفوق عليه DeepSeek-V3.1 (MIT) في الكود والرياضيات. Llama 4 Maverick هو الأقوى في التفكير الخام. الاختيار الصحيح يعتمد على عبء عملك.

هل النماذج مفتوحة الأوزان جيدة بما يكفي للإنتاج؟

لمعظم أعباء العمل، نعم. أغلقت النماذج مفتوحة الأوزان الفجوة في التفكير العام، وتوليد الكود المعزول، والعمل متعدد اللغات عالي الموارد. لكنها لم تغلق الفجوة في حلقات الوكلاء والاسترجاع طويل السياق عند النطاقات القصوى.

أي رخصة مفتوحة الأوزان أنظف للاستخدام التجاري؟

Apache 2.0 (تستخدمها Qwen 3 وعدة نسخ من Mistral). MIT (تستخدمها DeepSeek-V3.1 وPhi-4). تعمل Llama 4 Community License تقريباً للجميع باستثناء الخدمات ذات أكثر من 700M مستخدم شهرياً.

كيف يقارن DeepSeek-V3.1 بالنماذج المغلقة؟

في الرياضيات والكود، ينافس DeepSeek-V3.1 نموذج Claude Opus 4.7 في المعايير المعزولة. والكتابة بالإنجليزية في الطبقة العليا. أضعف ما يكون في استخدام الأدوات وضبط السلامة الأخف مما قد يتوقعه المستخدمون الغربيون.

هل أستضيف نموذجي مفتوح الأوزان بنفسي؟

فقط إذا كانت لديك أسباب محددة: إقامة البيانات، أو الكمون، أو تكلفة ثابتة عند الحجم العالي، أو القدرة على الضبط الدقيق. خلاف ذلك، تكون نقاط النهاية المستضافة (Together وFireworks وDeepInfra) أرخص من التنفيذ الذاتي لأعباء أقل من ملايين الطلبات يومياً.

سجل التغييرات

  • 1 يونيو 2026 — أضيفت ملاحظة أبريل 2026 بأن DeepSeek V4 (V4-Pro وV4-Flash) صدر لاحقاً، لتصحيح مرجع يناير القديم.
  • 25 مايو 2026 — تم التحقق من الأسعار وفق وثائق المزودين الحالية. حُدثت أرقام التكلفة في كامل المقال لتعكس تعديلات أسعار Anthropic وطرح Google لـ Gemini 3.1 Pro Preview.
  • 24 أبريل 2026 — أصدرت DeepSeek نموذج V4 (V4-Pro وV4-Flash) كنماذج مفتوحة الأوزان، لذلك أصبحت ملاحظة يناير أدناه سابقة للإصدار: يوجد DeepSeek V4 فعلاً. يجري تحديث هذه المقالة لإدخال عائلة V4 في ترتيب مفتوح الأوزان.
  • 22 يناير 2026 — صُححت مراجع نماذج غير موجودة: استُبدل Mistral Large 3 بـ Large 2 (Large 3 لم يصدر)، وDeepSeek-V4 بـ V3.1 (V4 لم يكن قد صدر آنذاك).
  • 18 يناير 2026 — نُشرت النسخة الأولى.

المراجع

  1. Meta AI، "Llama 4: ذكاء متعدد الوسائط"، ai.meta.com/blog/llama-4-multimodal-intelligence, April 2025.
  2. Meta، "Llama"، llama.com، اطُّلع عليه في مايو 2026.
  3. Mistral AI، "Large Enough" (إصدار Mistral Large 2)، mistral.ai/news/mistral-large-2407, July 2024.
  4. DeepSeek، "موقع المنتج"، deepseek.com، اطُّلع عليه في مايو 2026.
  5. Alibaba، "Qwen"، qwen.ai، اطُّلع عليه في مايو 2026.
  6. "منظمة Qwen على Hugging Face"، huggingface.co/Qwen، اطُّلع عليه في مايو 2026.