مقالة·مايو 2026

لماذا توقفت المعايير عن إخبارك بشيء

Q: هل ما زالت معايير الذكاء الاصطناعي مفيدة؟

في الغالب لا. MMLU وHumanEval وGSM8K وMATH كلها مشبعة فوق 90% مع مخاوف تلوث كبيرة. أربعة معايير ما زالت تخبرك بشيء: LMSYS Arena وSimpleBench وARC-AGI 2 وSWE-bench Verified.

Q: لماذا تشبع MMLU؟

تسجل النماذج الرائدة 92%+ في 2026، أي ضمن 3 نقاط مئوية من السقف. التحسينات في هذا النطاق تأتي من الضبط على شكل المعيار أكثر مما تأتي من مكاسب قدرة حقيقية. عندها يتوقف المعيار عن فرز المتسابقين.

Q: أي معيار هو الأصعب في التحايل؟

LMSYS Chatbot Arena. أوامر مستخدمين حقيقية، وتصويت ثنائي أعمى، ومجموعة اختبار تتجدد باستمرار. التلوث صعب بنيوياً لأن الأوامر التي تظهر هي ما يسأله المستخدمون فعلاً.

Q: كيف أقيّم نماذج الذكاء الاصطناعي لاستخدامي الخاص؟

ابنِ مجموعة تقييم من 50 إلى 200 أمر من عملك الحقيقي. شغّل النماذج المرشحة عليها. قيّم المخرجات بنفسك. الاستثمار الأولي ساعتان إلى ثلاث ساعات وبضع دقائق لكل إصدار، والعائد قرارات تطابق عبء عملك.

Q: هل يستحق SWE-bench Verified المتابعة؟

نعم، هو واحد من أربعة معايير ما زالت مفيدة. مسائل GitHub حقيقية، وحزم اختبار حقيقية، وتحقيق يدوي في صحة المشكلة والاختبارات. النسخة Verified هي أقرب تقريب عام لما يتطلبه شحن كود حقيقي.

تشبع MMLU، وأصبح HumanEval قابلاً للتحايل. دليل عملي لما بقي جديراً بالقراءة.

حُدّثت في 25 مايو 2026 · عرض سجل التغييرات

خط التشبع 92% معظم المعايير القديمة فوق هذا

جديرة بالقراءة 4 معايير ما زالت مفيدة

للتقاعد 2 MMLU وHumanEval: جرى التحايل عليهما

فجوة النماذج الرائدة <3pt أفضل 5 نماذج على MMLU

افتح بطاقة أي نموذج رائد حديث. ستجد نتيجة MMLU هناك. وستجد GPQA وMATH وHumanEval وGSM8K. كلها في أواخر التسعينات. لن يخبرك أي من هذه الأرقام بشيء يمكنك التصرف بناءً عليه. كل واحد من هذه المعايير مشبع، والبطولة التي يحرز فيها الجميع أواخر التسعينات هي بطولة توقفت عن فرز المتسابقين.

لم يصبح المعيار أسوأ. النماذج أصبحت أفضل مما يتحمله. هذا يحدث لكل معيار في النهاية، وقد حدث عبر النصف الثاني من دورة 2024-2025 أسرع مما كان لأي شخص في 2022 سبب لتوقعه.

أربعة معايير ما زالت تستحق الانتباه في 2026. واثنان يستحقان الخروج من القراءة اليومية. وأكثر ما يمكن للمطور العامل فعله هو التوقف عن الاتكال على لوحات الصدارة العامة في قرارات الشراء، وبناء مجموعة تقييم صغيرة من عمل الإنتاج بدلاً من ذلك. هذه حجة كل واحد.

الأمر ليس جميلاً.

لماذا لم يعد MMLU مفيداً

MMLU اختبار اختيار من متعدد للمعرفة الواقعية عبر 57 مجالاً. عندما نُشر في 2020، سجل GPT-3 نسبة 43.9%. بحلول منتصف 2025، وصلت أحدث النماذج إلى 92%+. الفجوة المتبقية تهيمن عليها أسئلة غامضة، وخلافات في التصحيح، ومجموعة صغيرة من البنود الصعبة فعلاً لأسباب لا ترتبط بقدرة النموذج. التحسن في هذا النطاق لا يتتبع تحسناً في قدرة الإنتاج، بل يتتبع ضبطاً دقيقاً على شكل المعيار تحديداً.

هناك أيضاً مشكلة تلوث. أسئلة MMLU عامة. كثير منها على الإنترنت المفتوح. أي نموذج رائد دُرّب على زحف ويب حديث رأى معظمها، وربما رأى الإجابات أيضاً. صار المعيار يقيس أكثر فأكثر مدى حفظ النموذج للاختبار بدلاً من معرفته بالمادة الأساسية. لا يعترف أي مختبر بذلك. معظم المختبرات مذنبة به بشكل أو بآخر.

HumanEval، معيار البرمجة الأشهر، لديه المشكلة نفسها بشكل أشد. مجموعة الاختبار صغيرة، والمسائل عامة، والنماذج حُسّنت ضده لسنوات. قد يكون النموذج ممتازاً في HumanEval وضعيفاً في أي قاعدة كود حقيقية. انفصلت الإشارتان.

أقوى حجة لإبقاء المعايير القديمة: أنها مفهومة على نطاق واسع، ومجموعة البيانات ثابتة، وخطوط الاتجاه عبر السنوات تحمل بعض القيمة المعلوماتية حتى بعد تشبع النتائج المطلقة. في المقابل هناك القلق من أن خط الاتجاه نفسه تهيمن عليه التلوثات، وهذا المقال يميل إلى هذا الرأي. إنها مسألة حكم.

ما الذي ما زال يخبرك بشيء

أربعة معايير ما زالت مفيدة، وكل واحد يقيس شيئاً مختلفاً.

LMSYS Chatbot Arena: تفضيل بشري فعلي على نطاق واسع، وصعب التحايل
SimpleBench: مجموعة مسائل صغيرة مصممة لكسر النماذج الرائدة
ARC-AGI 2: استدلال مجرد لا يتسرب إلى بيانات التدريب
SWE-bench Verified: مسائل GitHub حقيقية وحزم اختبار إنتاجية

LMSYS Chatbot Arena. تصويت تفضيل بشري ثنائي على أوامر مستخدمين حقيقية. يجيب نموذجان مجهولان عن الأمر نفسه، وتختار الإجابة الأفضل. تتجمع الأصوات في لوحة ترتيب بأسلوب Elo. ما زال هذا المعيار يعمل لأن الأوامر يرسلها المستخدمون، والمقارنة عمياء، والتلوث صعب بنيوياً. الأوامر التي تظهر في التصويت هي ما يسأله المستخدمون فعلاً. القيد: جمهور التصويت يميل إلى التقنية والإنجليزية، لذلك تنحاز لوحة الترتيب إلى تلك الاستخدامات. إنه أفضل معيار عام متاح، لكنك ستظل تريد معايير أخرى بجانبه.

SimpleBench. مجموعة مسائل استدلال مخادعة عمداً، حيث يوحي الشكل السطحي بإجابة خاطئة قد يعطيها قارئ متعجل. صُممت المسائل لمقاومة التلوث لأن كل واحدة تحتاج من النموذج أن يتجاوز حدساً سطحياً لصالح استدلال متأنٍ. تسجل النماذج الرائدة نحو 70-75% في 2026، بينما يسجل البشر نحو 90%. الفجوة حقيقية وتخبرك بشيء لا تخبرك به المعايير المشبعة: هل يمارس النموذج استدلالاً حقيقياً أم يطابق أنماطاً في الأمر.

ARC-AGI 2. النسخة الثانية من معيار الاستدلال البصري الذي كان صعباً بشكل معروف على الجيل الأول من النماذج الرائدة. عالج ARC-AGI 2، الذي صدر مطلع 2025، قيود النسخة الأصلية، وما زال اختبار ضغط يكشف فروق القدرة بين نماذج تبدو متطابقة على MMLU. النقد: يختبر ARC-AGI نوعاً محدداً من الاستدلال المجرد قد يتنبأ بقدرة الإنتاج وقد لا يفعل. هو إشارة ضمن عدة إشارات، لا حكم مستقل.

SWE-bench Verified. مسائل GitHub حقيقية من مشاريع مفتوحة المصدر، تُقيّم بحسب ما إذا كان التصحيح المقترح من النموذج يجتاز حزمة الاختبار الموجودة في المشروع. المجموعة Verified، التي قُدمت في 2024، فُحصت يدوياً للتأكد من صحة المسألة الأصلية والاختبارات. هذا المعيار مفيد لعمل البرمجة بطريقة لا تحققها معايير البرمجة الاصطناعية. إنه أقرب تقريب عام لما يتطلبه شحن كود إنتاجي. لنتائج مقارنة مساعدات البرمجة في الإنتاج، راجع مواجهة مساعدات البرمجة.

للمعيار عمر صلاحية. عندما تتجمع النماذج العليا ضمن نقطتين من بعضها وتقع ضمن خمس نقاط من السقف، فقد توقف عن استحقاق مكانه في قراءتك.

تشبع النماذج الرائدة حسب المعيار

نطاق نتائج أفضل خمسة نماذج، 2026. المعايير فوق 92% مشبعة.

MMLU

92%

HumanEval

95%

MATH

93%

GPQA Diamond

71%

SWE-bench Verified

87.6%

ARC-AGI 2

22%

92%+ النتيجة التي تتشبع فوقها معظم المعايير القديمة

نتائج MMLU من 2020 إلى 2026. يتسطح المنحنى قرب السقف، ويتوقف المعيار عن فرز النماذج.

LMSYS Arena

اقرأه تفضيلات بشرية حقيقية

SimpleBench

اقرأه يكسر النماذج الرائدة

ARC-AGI 2

اقرأه بلا تسرب من بيانات التدريب

SWE-bench Verified

اقرأه مسائل GitHub حقيقية

لا يوجد معيار من المعايير التي سُمّيت هنا «ما زالت مفيدة» مثالياً. لدى LMSYS Arena تحيزات معروفة من قاعدة مصوتين تقنية وناطقة بالإنجليزية. يقيس ARC-AGI 2 نوعاً محدداً من الاستدلال المجرد، ولدى SimpleBench مجموعة مسائل صغيرة. هي ببساطة أقل الأدوات سوءاً المتاحة.

المعايير التي ينبغي إيقافها

MMLU نفسه، لأسباب التشبع والتلوث المذكورة أعلاه.

HumanEval وMBPP. كلاهما معيارا برمجة مشبعان ولم يكونا قط ممثلين لعمل هندسة البرمجيات في الإنتاج. نموذج يسجل 95% على HumanEval قد ينتج مع ذلك كوداً يتعطل في الاستخدام الحقيقي بطرق خفية.

رسوم «مؤشر الذكاء» المختلفة التي تجمع نصف دزينة معايير في نتيجة واحدة. جمعها يخفي التشبع في كل مكوّن. الرقم الناتج دقيق من دون أن يكون ذا معنى.

أي معيار يصدر في الوقت نفسه مع نموذج ويُظهر أن النموذج فائز، خصوصاً إذا كان المعيار نفسه جديداً. هذا تضارب مصالح بنيوي، والمعايير التي تظهر بهذه الطريقة نادراً ما تصمد أمام تكرار مستقل.

ما الذي تفعله بدلاً من ذلك

ابنِ مجموعة تقييمك الخاصة.

أكثر شيء مفيد يمكنك فعله لاتخاذ قرارات اختيار النماذج هو جمع خمسين إلى مئتي أمر من عملك الحقيقي، وتشغيل النماذج المرشحة عليها، والحكم على المخرجات بنفسك. تصف المعايير العامة جمهور النماذج. أما مجموعة تقييم شخصية فتخبرك كيف تعمل تلك النماذج على الأوامر التي تعمل فعلاً في نظامك.

تحتوي مجموعة التقييم العملية المستخدمة في كتابة هذا الموقع على 84 أمراً عبر مهام برمجة، وكتابة تقنية، ومحتوى متعدد اللغات، وصياغة دعم عملاء، وعدد قليل من الحالات الطرفية التي جُمعت بمرور الوقت. تُشغّل النماذج الجديدة عليها خلال أيام من الإصدار. كثيراً ما تخالف النتائج المعايير العامة بطرق مفيدة: نجم لوحة صدارة يتضح أنه ملاءمة متوسطة للعمل، بينما نموذج أدنى ترتيباً يصيب المطلوب تماماً.

هذا النهج يتطلب جهداً. سيكون تقييمك الأول سيئاً، والثاني مقبولاً فقط، لكن بحلول الجولة الخامسة تصبح الأداة مفيدة بما يكفي لتوجيه قرارات الشراء في الإنتاج. يعيد هذا الاستثمار وقته، ولا ينبغي أن يحدث أي قرار جاد لاختيار نموذج من دونه.

على أي حال.

هذه التوصيات موجهة إلى المطور العامل الذي يختار ما سيشغّله. للباحثين الذين يدرسون حدود القدرة احتياجات مختلفة، وكذلك المختبرات التي تقيس نماذجها. النصيحة أدناه للشراء والتبني، لا لمجتمع المعايير نفسه.

كيف تقرأ ادعاء معيار بشك

خمسة أسئلة تطرحها كلما ظهرت نتيجة معيار في إعلان إصدار.

هل المعيار مشبع؟ إذا كانت النماذج العليا كلها ضمن ثلاث نقاط من بعضها، فلم يعد المعيار يفرز. سيظل الرسم مثيراً للإعجاب، لكن الإشارة تحته اختفت.

متى صدر المعيار، وهل يمكن أن يكون في بيانات التدريب؟ أي شيء نُشر قبل تاريخ قطع تدريب النموذج مشبوه. وأي شيء على الإنترنت المفتوح لأكثر من عام أكثر اشتباهاً.

هل المختبر الذي أصدر النموذج أنشأ المعيار أيضاً أو أثر فيه بقوة؟ إذا نعم، فتعامل مع النتيجة بقدر إضافي من الشك. التضارب نادراً ما يكون متعمداً، لكنه يستحق المعرفة.

هل يقيس المعيار شيئاً يطابق حالة استخدامك؟ نموذج يفوز في مسائل فيزياء دراسات عليا قد لا يكون النموذج المناسب لصندوق دعم العملاء لديك.

هل المعيار لوحة صدارة عامة مع تحقق مستقل، أم رقم في بطاقة نموذج؟ التحقق المستقل مهم. للأرقام التسويقية انحياز تفاؤلي معروف.

في 2026، لا يكفي أي معيار عام بمفرده. انتهى عصر اتخاذ قرار نموذج من نظرة على لوحة MMLU. المعايير الباقية، LMSYS Arena وSimpleBench وARC-AGI 2 وSWE-bench Verified، يقيس كل منها شيئاً محدداً وجزئياً. اقرأها معاً ووازنها مقابل حالة الاستخدام المهمة. أي ترتيب برقم واحد فرضية بداية للاختبار، لا نتيجة نهائية.

أكثر ما يمكنك فعله كمطور عامل هو بناء مجموعة تقييم صغيرة محجوزة من عملك الخاص وتشغيل النماذج المرشحة عليها. الاستثمار في بناء المجموعة بضع ساعات في البداية وبضع دقائق لكل دورة إصدار للصيانة. العائد هو القدرة على اتخاذ قرارات نموذج تناسب عبء عملك الحقيقي، لا عبء العمل المتوسط المتخيل الذي تصفه المعايير العامة. وللحالة المرتبطة حول سبب تضليل أرقام سعة السياق الطويل بالطريقة نفسها، راجع مقالة المليون رمز التسويقية.

إذا كنت تستخدم رسوم المعايير كمدخل أساسي لقرارات الشراء، فتوقف. هي جيدة لفرز المرشحين إلى طبقات تقريبية، لكن عندما يقترب نموذجان لا تستطيع إخبارك أيهما تختار. لذلك شغّلهما على العمل المهم. لا يوجد اختصار، وهذا درس العامين الماضيين من تضخم المعايير الذي يستحق حمله إلى العامين المقبلين.

الأسئلة الشائعة

هل ما زالت معايير الذكاء الاصطناعي مفيدة؟

في الغالب لا. MMLU وHumanEval وGSM8K وMATH كلها مشبعة فوق 90% مع مخاوف تلوث كبيرة. أربعة معايير ما زالت تخبرك بشيء: LMSYS Arena وSimpleBench وARC-AGI 2 وSWE-bench Verified.

لماذا تشبع MMLU؟

تسجل النماذج الرائدة 92%+ في 2026، أي ضمن 3 نقاط مئوية من السقف. التحسينات في هذا النطاق تأتي من الضبط على شكل المعيار أكثر مما تأتي من مكاسب قدرة حقيقية. عندها يتوقف المعيار عن فرز المتسابقين.

أي معيار هو الأصعب في التحايل؟

LMSYS Chatbot Arena. أوامر مستخدمين حقيقية، وتصويت ثنائي أعمى، ومجموعة اختبار تتجدد باستمرار. التلوث صعب بنيوياً لأن الأوامر التي تظهر هي ما يسأله المستخدمون فعلاً.

كيف أقيّم نماذج الذكاء الاصطناعي لاستخدامي الخاص؟

ابنِ مجموعة تقييم من 50 إلى 200 أمر من عملك الحقيقي. شغّل النماذج المرشحة عليها. قيّم المخرجات بنفسك. الاستثمار الأولي ساعتان إلى ثلاث ساعات وبضع دقائق لكل إصدار، والعائد قرارات تطابق عبء عملك.

هل يستحق SWE-bench Verified المتابعة؟