Claude Opus 4.8، مراجعة

نفس سعر 4.7، ارتفاع طفيف في قائمة الترتيب، ومعيار أداء واحد يخسره. الترقية الجديرة بالاهتمام هي الصدق.

· عرض سجل التغييرات · الأرقام مُتحقَّق منها مقابل المصادر الرسمية، 30 مايو 2026

SWE-Bench Pro 69.2% مُبلَّغ من Anthropic، ارتفاعاً من 64.3% على 4.7
السعر القياسي / 1M $5 / $25 $5 مدخل، $25 مخرج، دون تغيير عن 4.7 · الوضع السريع الاختياري $10/$50
GDPval-AA (Elo) 1890 مقابل 1769 لـ GPT-5.5 في العمل المعرفي
صدق عيوب الكود أقل احتمالاً من 4.7 للسماح بمرور عيب

أطلقت Anthropic Claude Opus 4.8 في 28 مايو 2026، وفق إعلان الإطلاق. ما هو غير معتاد هو التوقيت: Opus 4.7 وصل في منتصف أبريل، إذن هذا دوران في غضون ستة أسابيع تقريباً، أسرع من الوتيرة المعتادة للشركة. السعر لم يتحرك. الأسعار القياسية لا تزال $5 لكل مليون رمز مدخل و$25 لكل مليون رمز مخرج، نفس الأرقام التي حملها Opus 4.7.

إذن هذه ليست قفزة جيلية، وAnthropicلا تقدّمها كذلك. إنها تجديد في المكان: قائمة الترتيب ترتفع بضع نقاط، يصبح النموذج أكثر ثباتاً في العمل الأتمتي الطويل، ويُصقل الحواف الخشنة. الجزء المثير مدفون تحت رسم معيار الأداء، وهو الشيء الأصعب قياساً: أصبح النموذج أكثر صدقاً.

فيما يلي ما تقوله الأدلة العامة، مستمدة من إعلان Anthropic وتوثيق نموذج Claude، مع الإشارة إلى الأرقام التي تأتي مع حاشية يجب قراءتها قبل اقتباسها.

قائمة الترتيب تحركت قليلاً

يفوز Opus 4.8 في ستة من سبعة معايير أداء وضعتها Anthropic في جدول إطلاقها. أكبر مكسب على SWE-bench Pro، الابن الأعسر الأقل تشبّعاً لمعيار أداء البرمجة الذي يستشهد به الجميع: 69.2% مقابل 64.3% لـ Opus 4.7. هذا معيار أداء GPT-5.5 مُبلَّغ عنه بنسبة 58.6% وأقوى نموذج Gemini أدنى من ذلك، لذا Opus 4.8 لا يتفوق فقط على نفسه في الماضي، بل هو واضح الأفضلية على المنافسين.

Opus 4.8 مقابل Opus 4.7 على معايير أداء إطلاق Anthropic، مايو 2026
معيار الأداءOpus 4.8Opus 4.7
SWE-bench Pro (برمجة أتمتية)69.2%64.3%
SWE-bench Verified88.6%87.6%
Humanity's Last Exam (بدون أدوات)49.8%46.9%
GPQA Diamond93.6%94.2%

اقرأ صف GPQA Diamond بأمانة: Opus 4.8 ينخفض نصف نقطة عن 4.7. معيار الأداء هذا قريب من السقف، حيث تندرج تأرجحة ستة أعشار ضمن الضجيج ولا تخبرك شيئاً عن أي نموذج أذكى. نفس القصة على SWE-bench Verified، حيث الارتفاع بنقطة إلى 88.6% حالة من التشبع أكثر من كونه قصة قدرة. جادل benchr بأن معايير الأداء المتشبّعة توقفت عن التمييز بين النماذج الحدّية، وهذا الإطلاق مثال واضح.

على أرقام أسلوب الوكيل، يُسجّل Opus 4.8 83.4% على OSWorld-Verified، أعلى نتيجة على معيار أداء استخدام الحاسوب ذلك. تحفظ يجب معرفته: قامت Anthropic بتحديث منظومة الاختبار لهذه الجولة وأعادت توضيح نتيجة Opus 4.7 إلى الأعلى في مطلع الثمانينيات، لذا جزء من القفز الظاهر هو إعداد التقييم الجديد لا النموذج. تُفيد الشركة بذلك في الإعلان وهي الطريقة الصحيحة للإبلاغ. في العمل المعرفي، GDPval-AA Elo عند 1890 إشارة أوضح، يجلس 121 نقطة أمام GPT-5.5.

أين يخسر

يوجد بالضبط معيار أداء واحد في الجدول حيث يأتي Opus 4.8 ثانياً، ويستحق التسمية. على Terminal-Bench 2.1، اختبار حلقات وكيل سطر الأوامر، يُسجّل Opus 4.8 74.6% ويتصدر GPT-5.5 بنسبة 78.2%. إذا كان عبء عملك اليومي نموذجاً يُشغّل شل، يُشغّل أوامر، يقرأ المخرجات ويعيد المحاولة، فهذا المكان الوحيد الذي لا يزال فيه منافس في الصدارة.

الفجوة ضيقة وعبء العمل ضيق، لكنها حقيقية، وهي أنظف سبب لعدم افتراض أن Opus 4.8 يفوز في كل شيء. لمعظم البرمجة، معايير أداء البرمجة الأتمتية التي يهيمن عليها Opus هي الوكيل الأفضل. للقيادة الطرفية الصرفة، اختبر كليهما على إعدادك الخاص قبل الالتزام.

الصدق هو الترقية المهمة

الرقم الذي يجب أن يغير طريقة عملك ليس على قائمة الترتيب. تُفيد Anthropic بأن Opus 4.8 أقل احتمالاً بنحو أربع مرات من 4.7 للسماح لخلل في الكود بالمرور دون الإشارة إليه. السلوك غير المتوافق — النوع الذي يتماشى فيه النموذج مع خطة سيئة أو يتستر على مشكلة ليبدو مفيداً — ينخفض إلى معدلات تضعها الشركة قريبة من نموذجها Mythos preview المقيَّد.

عملياً يظهر كنموذج يطرح السؤال الصحيح قبل الكتابة، يكتشف الخطأ في الفهرس الذي فاتك، ويتراجع عندما الخطة التي سلّمته إياها لا تتماسك. هذه علاقة مختلفة عن "الإكمال التلقائي السريع الذي يوافقك". إنها تتوافق أيضاً مع المسار الذي يتجه إليه المجال، بعيداً عن القدرة الخام ونحو ما إذا كان يمكنك تسليم الشيء مهمة والابتعاد. تقرير benchr الميداني عن وكلاء الذكاء الاصطناعي استمر في الاصطدام بنفس الجدار: القدرة لم تكن الحاجز أبداً، الثقة كانت.

ما صدر مصاحباً له

جاء النموذج مع بعض تغييرات المنصة الجديرة بالمعرفة. العنوان الرئيسي هو Dynamic Workflows، ميزة معاينة بحثية في Claude Code يخطط فيها Opus 4.8 لمهمة كبيرة، يوزّع وكلاء فرعيين متوازيين يهاجمونها من زوايا مستقلة، ويجعلهم يتحقق بعضهم من بعض قبل الإبلاغ. تستهدف الوظائف بحجم ترحيل قاعدة كود كاملة — النوع الذي لا يتناسب مع نافذة سياق واحدة.

تغييران أصغر مهمان لأي شخص يبني على API. التحكم في الجهد الآن متاح في claude.ai وCowork، لا في API فقط، لذا يمكنك ضبط عمق التفكير المنطقي يدوياً. وMessages API ستقبل الآن تعليمة نظام محدّثة في منتصف مهمة طويلة دون إعادة صياغة الأمر كله، مما يُبقي ضرباتك في ذاكرة التخزين المؤقت للأمر سليمة ويُقلل تكلفة المدخلات في حلقات الوكيل الطويلة.

ما يكلّفه، وحسابات الوضع السريع

لا شيء تغيّر على المستوى القياسي. تدفع $5 لكل مليون مدخل و$25 لكل مليون مخرج، مع مدخل مخزّن مؤقتاً بعُشر ذلك وخصم 50% على الدُفعات للوظائف غير المتزامنة. الرافعة الجديدة هي الوضع السريع: مقابل ضعفي سعر الرمز، $10 مدخل و$50 مخرج، يعمل النموذج بنحو 2.5× سرعة المخرجات. العنوان هنا أن الوضع السريع أرخص ثلاث مرات مما كان عليه في جيل Opus السابق، حيث كان نفس التسريع يُكلّف $30 و$150.

مدى انخفاض تكلفة الوضع السريع لـ Opus 4.8 مقارنة بالجيل السابق، عند نفس التسريع.

الوضع السريع يشتري لك الكمون لا نموذجاً أذكى، لذا الجأ إليه في العمل التفاعلي حيث ينتظر مستخدم، لا في الوظائف الدُفعية حيث تُفضّل الخصم 50%. للسؤال الأشمل عن أي مستوى Anthropic تتخذ افتراضياً، مراجعة Sonnet 4.6 تُفصّل أين يكون النموذج الأرخص هو الاختيار الصحيح. Opus هو المستوى الذي ترتقي إليه، لا الذي تُشغّل كل شيء عليه.

الحكم

Claude Opus 4.8 هو أسهل ترقية أطلقتها Anthropic منذ فترة، لأنها لا تطلب منك شيئاً. السعر متطابق، API متوافق تلقائياً مع 4.7، والأرقام ترتفع. للبرمجة والعمل المعرفي، انتقل إليه ولا تفكر مرتين. مكسب الصدق وحده يبرر التبديل على أي قاعدة كود حيث تكون العلة المفقودة مكلفة.

ابقَ على 4.7 في حالتين. إذا كان عبء عملك حلقات سطر أوامر طرفية، فالفجوة إلى 4.8 صغيرة ومنافس لا يزال يتصدر ذلك المعيار، لذا لا استعجال. وإذا كنت مثبّتاً بالفعل قرب أعلى معايير الأداء المتشبّعة حيث 4.7 و4.8 في حدود نقطة، فلن تشعر بالفرق. الجميع غير ذلك: الترقية مجانية بكل معنى مهم. للصورة عبر البائعين، المقارنة المباشرة مع GPT-5 لا تزال تُأطّر أين تتصدر كل مختبرة، ونتيجة الطرفية هنا هي السطر الوحيد الذي تحوّل.

الأسئلة الشائعة

هل يستحق الترقية إلى Claude Opus 4.8 من Opus 4.7؟

إذا كان عملك برمجة أو عمل معرفي، نعم. السعر متطابق عند $5/$25 وأرقام معايير الأداء ترتفع في جميع الجوانب، دون تكلفة هجرة. إذا كان عملك يتضمن حلقات وكيل سطر الأوامر الثقيلة، فالمكسب أصغر وGPT-5.5 لا يزال يتصدر ذلك المعيار. لمعظم المستخدمين الترقية تحسين مجاني.

ما تكلفة Claude Opus 4.8؟

الأسعار القياسية هي $5 لكل مليون رمز مدخل و$25 لكل مليون رمز مخرج، دون تغيير عن Opus 4.7. الوضع السريع الاختياري يعمل بنحو 2.5× سرعة المخرجات مقابل $10 مدخل و$50 مخرج لكل مليون، أرخص ثلاث مرات من الوضع السريع في جيل Opus السابق.

بكم يفوق Opus 4.8 في البرمجة على 4.7؟

على SWE-bench Pro يُسجّل 69.2% مقابل 64.3% لـ Opus 4.7، قفزة حقيقية على معيار الأداء الأصعب للبرمجة الأتمتية. على SWE-bench Verified الأكثر تشبّعاً يبلغ 88.6% مقابل 87.6%، قريب من السقف حيث تتوقف الفجوة عن المعنى.

ما هو تحسّن الصدق في Claude Opus 4.8؟

تُفيد Anthropic بأن النموذج أقل احتمالاً بنحو أربع مرات من Opus 4.7 للسماح لخلل في الكود بالمرور دون الإشارة إليه، مع معدلات أقل من السلوك غير المتوافق. عملياً هو أفضل في اكتشاف أخطائه الخاصة والتراجع عندما الخطة خاطئة، مما يهم أكثر للعمل الإنتاجي من ارتفاع نقطة في معيار الأداء.

ما هي Dynamic Workflows في Claude Opus 4.8؟

ميزة معاينة بحثية في Claude Code يخطط فيها النموذج لمهمة كبيرة، يولّد وكلاء فرعيين متوازيين يقتربون من المشكلة من زوايا مستقلة، ويتحقق من مخرجاتهم ببعضها قبل الإبلاغ. تستهدف الوظائف بحجم ترحيل قاعدة كود كاملة.

سجل التغييرات

  • 30 مايو 2026 — نُشر أصلاً، بعد يومين من إصدار النموذج. الأسعار ونتائج معايير الأداء وادعاءات الميزات مُتحقَّق منها مقابل إعلان إطلاق Anthropic وتوثيق نموذج Claude.

المراجع

  1. Anthropic، "Introducing Claude Opus 4.8"، anthropic.com/news/claude-opus-4-8، 28 مايو 2026.
  2. Anthropic، "What's new in Claude Opus 4.8"، platform.claude.com، وصول مايو 2026.
  3. Anthropic، "Models overview"، platform.claude.com، وصول مايو 2026.
  4. Anthropic، "Pricing"، platform.claude.com، وصول مايو 2026.
  5. "متصدر SWE-benchboards"، swebench.com، مايو 2026.