كيف يستقي هذا الموقع معلوماته

مصادر البيانات في benchr وكيفية الحفاظ على تحديثها.

بيانات الأسعار

تأتي أسعار الرمز المميز للنماذج مغلقة المصدر مباشرةً من الصفحة الرسمية لكل مزوّد: Anthropic وOpenAI وGoogle وMistral وDeepSeek. تستند أسعار النماذج مفتوحة الأوزان المستضافة على مزوّدي inference خارجيين إلى الأسعار المنشورة لدى المزوّد نفسه عند الاقتضاء. عند تغيّر الأسعار، يُحدَّث المقال وتُضاف إدخال في سجل التغييرات.

نتائج معايير الأداء

تُستقى أرقام معايير الأداء من لوائح القيادة المنشورة لدى القائمين على تلك المعايير. تأتي نتائج SWE-bench Verified من swebench.com، ونتائج LMSYS Arena من lmarena.ai، ونتائج ARC-AGI من arcprize.org. حين ينشر مزوّد نتيجة نموذجه على معيار قبل ظهورها في القائمة الرسمية، تُستخدم الأرقام المنشورة مع الإشارة إلى مصدرها.

تقييمات القدرات

حين يُسند هذا الموقع تقييمات قدرات (البرمجة والتفكير والكتابة والرؤية والسياق الطويل ومتعددة اللغات) على مقياس من 0 إلى 100، فإن تلك التقييمات تُستنتج من أداء النموذج الموثّق على التقييمات ذات الصلة وادعاءات القدرات في ملاحظات إصداره والسلوك الملحوظ في المقارنات الخارجية المنشورة. هي رقم مرجعي مُركَّب لا نتيجة من تقييم مختبري أصيل.

التقديرات التحريرية مقابل الأرقام المصدَّقة (في الأدوات)

الأدوات التفاعلية — الموصي والحاسبة والرسوم البيانية ومستكشف معايير الأداء — تقرأ جميعها من ملف واحد هو assets/data/models.json، ويحافظ هذا الملف على خط فاصل بين نوعين من الأرقام:

  • مصدَّق (واقعي): الأسعار وسعة السياق والحد الأقصى للرموز المميزة وتواريخ الإصدار مصدرها التوثيق الرسمي لكل مزوّد، ومُطابَقة مع assets/data/model-figures.json، المصدر الموثوق الوحيد للحقيقة. عند أي تعارض بينهما، تتفوق الأرقام المصدَّقة رسمياً.
  • معايير أداء مصدَّقة: في مستكشف معايير الأداء ومخطط الذكاء مقابل السعر، يمثّل محور البرمجة معيار SWE-bench Verified ومحور التفكير معيار GPQA Diamond. هذه الأرقام المنشورة الرسمية للمزوّد حيث وُجدت؛ وحين لا ينشر المزوّد ذلك المعيار، تُوسَم القيمة بوضوح كتقدير benchr (تظهر مع “est” في المستكشف)، ويُترك GPQA فارغاً بدلاً من تخمينه.
  • تقديرات تحريرية: التقييمات من 0 إلى 100 للكتابة والرؤية والسياق الطويل وتعدد اللغات، إضافةً إلى جميع أرقام الكمون (أول رمز وسرعة الرموز)، هي تقديرات تحريرية من benchr لا قياسات مختبرية. تُقدَّم كتقييمات لا كمعايير أداء.

بهذا، حين تُصنّف أداةٌ ما النماذج، يكون ثقل البرمجة والتفكير مستنداً إلى معايير أداء حقيقية، بينما تمثّل الأبعاد الأخرى حكماً تحريرياً صادقاً. بُعدٌ لا بيانات له (مثل الرؤية في نموذج نصي فقط) يُحتسب بصفر عند ترجيحه لا بالإهمال الصامت، فيعكس التصنيف دائماً الأوزان التي حددتها.

ما هذا الموقع وما ليس كذلك

هذا منشور تحريري يُلخّص المعلومات العامة. ليس مختبراً لقياس معايير الأداء. لا تستعرض المقالات اختبارات مختبرية أصيلة أو إجماليات تكاليف API خاصة أو تقارير تجربة شخصية. حين يتخذ المقال موقفاً بشأن النموذج الأنسب لعمل ما، يستند ذلك الحكم إلى معايير أداء منشورة وأسعار رسمية وورقات مواصفات رسمية والسلوك العام المعروف للنماذج المقارَنة.

عملياً: ستجد أحكاماً نوعية (“أقوى في تحليل المستندات الطويلة” و“أضعف في اللهجة العربية الدارجة”) أكثر من أرقام جديدة. حين يظهر رقم، يُذكر مصدره. وحين لا يمكن دعم مقارنة بمصدر مُستشهَد به، تُقدَّم بصورة نوعية بدلاً من اختلاق دقة وهمية.

دورية التحديث

تُراجع جداول الأسعار مقابل توثيق المزوّدين عند تحديث المقالات. تُضاف أحداث الإصدار والإهمال إلى المقالات في غضون أيام قليلة من الإعلان. جدول إعادة التحقق المنهجي من جميع بيانات النماذج هو “قبل المراجعات الكبرى للمقالات”. لا توجد دورة أسبوعية أو شهرية ثابتة.

التصحيحات والنزاعات

إن وجدت رقماً أو تاريخاً أو نسبةً لا تتطابق مع المصدر الأولي، أرسل ملاحظة إلى corrections@benchr.org. التصحيحات الجوهرية تُسجَّل في صفحة التصحيحات وفي سجل التغييرات الخاص بكل مقال.