GPT-5 ضد Claude Opus 4.7: سبعة أعباء عمل بالتقييم

سبع فئات من أعباء العمل راهن فيها المختبران على اتجاهين مختلفين. لوحة النتائج، وأي نموذج يفوز بأي نوع من العمل.

· عرض سجل التغييرات

الحصيلة النهائية 5–2 Claude يفوز بخمس فئات مباشرة
Opus في SWE-bench Verified 87.6% معلن من Anthropic
GPT-5 في SWE-bench Verified 74.9% معلن من OpenAI
فارق سعر الإدخال $5 vs $1.25 Opus / GPT-5 لكل 1M رمز

تقارن هذه المقالة بين النموذجين المتقدمين اللذين ستجد نفسك غالباً تختار بينهما في 2026 عبر سبع فئات من أعباء العمل: إعادة هيكلة كود، وصفحة هبوط تسويقية، وتفكير تحت عدم اليقين، ومهمة وصفة مقيدة بالتعليمات، وملخص ورقة، ورسالة عميل صعبة، وتصحيح Python. يستند حكم كل فئة إلى سجل المعايير العام (SWE-bench Verified وLMArena)، وإلى تموضع كل مختبر لنموذجه، وإلى النقاش العام المتسق حول تعامل كل طبقة مع كل فئة. العنوان المختصر: يأخذ Opus 4.7 خمس فئات، ويأخذ GPT-5 واحدة بوضوح، وتوجد حالة تعادل واحدة.

مرجع السعر مهم لأن النموذجين يظهران في كل قرار عبء عمل: يُسعّر Claude Opus 4.7 عند $5 لكل مليون رمز إدخال و$25 للإخراج، وفق صفحة أسعار Anthropic. ويُسعّر GPT-5 عند $1.25 و$10 وفق أسعار API من OpenAI. للصورة الكاملة للتكلفة عبر الأعباء، راجع السعر حسب حالة الاستخدام. ولكل نموذج بشروطه الخاصة، راجع مراجعة Opus ومراجعة GPT-5.

ملاحظة تأطير قبل الفئات السبع: تعامل مع هذه كمقارنة اتجاهية لا كتقييم شامل. لو اخترنا سبع فئات مختلفة لتغير ترتيب بعض الأحكام. نتيجة 5-2 ملخص مفيد للأماكن التي وجّه إليها المختبران نموذجيهما، لكنها تستحق أن تُمسك بخفة.

الفئة الأولى: إعادة هيكلة تسلسل أصناف

عبء العمل: خذ صنفاً إنتاجياً له خمسة أنواع مشتقة ومخاوف متداخلة، سمّ رائحة التصميم المعماري، واقترح إعادة هيكلة، وأنتج الملفات الجديدة. هذا النوع من العمل هو ما صُمم معيار SWE-bench Verified لقياسه. تعلن Anthropic نتيجة 87.6% لـ Opus 4.7 على المجموعة الموثقة، مقابل رقم OpenAI المعلن لـ GPT-5 حول 74.9%. فجوة بهذا الاتساع تنسجم مع نقاش المجتمع المتكرر حول موقع كل نموذج في أعمال إعادة الهيكلة الإنتاجية.

ما ينبغي توقعه من كل نموذج في هذا النوع من المهام، بناءً على السجل العام: يميل Opus إلى تسمية رائحة التصميم الحقيقية (سطح الصنف الأساسي المتسرب، لا الوراثة نفسها) ويقترح تقسيماً يبدو كقرار كان سيتخذه مهندس أول. ينتج GPT-5 كوداً صحيحاً لكنه أطول، ويميل إلى إضافة هيكلة لم يطلبها الطلب. كلاهما ينتج حلولاً عاملة. حل Opus يحتاج تنظيفاً أقل قبل أن يدخل قاعدة الكود لديك.

الفائز: Claude، والفجوة منسجمة مع ترتيب SWE-bench.

الفئة الثانية: كتابة صفحة هبوط تسويقية

عبء العمل: إنتاج موقع تسويقي من صفحة واحدة لجمهور تقني شاب. HTML وCSS بسيطان، أولوية للجوال، وتسلسل طباعي جريء. تموضع OpenAI لـ GPT-5 يؤكد صراحة التصميم البصري والمخرجات المنظمة كنقاط قوة. وقد تقارب نقاش المجتمع حول النموذجين على النمط نفسه: افتراضات GPT-5 تبدو أحدث، وافتراضات Opus تبدو كلوحة SaaS مؤسسية. الطلب نفسه في النموذجين سيعطيك تخطيطاً أقرب للنشر من GPT-5 في كل مرة.

تفاصيل النمط: يعتمد GPT-5 على لون إبراز واحد وواثق، وعناوين hero ضخمة بمسافات حروف مشدودة، وشبكات غير متناظرة هادئة. ينتج Opus لوحة ألوان أكثر حذراً وشبكة أكثر تقليدية. اطلب من Opus أن يراجع باتجاه شيء أجرأ وستشعر بالنموذج يحاول، بينما يصل GPT-5 جريئاً من دون طلب. هذه هي الحساسية البصرية التي تدفع لـ OpenAI مقابلها، وفي هذه الفئة تستحق علاوتها.

الفائز: GPT-5، والهامش واسع.

الفئة الثالثة: التفكير تحت عدم اليقين

عبء العمل: سؤال تنظيمي أو سياساتي محدد، حيث تحتاج الإجابة الصحيحة معرفة بالنص الأساسي ومسار تطبيقه. الإجابة الجيدة تسمي المادة ذات الصلة، وتفصل النص عن طريقة إنفاذه عملياً، وتكون صريحة بشأن حدود ما يستطيع غير المختص تأكيده.

هذا هو عبء العمل الذي تضع Anthropic نموذج Opus حوله بقوة. تتحدث مواد الإطلاق عن "التحفظ في المواضع الصحيحة": الإشارة إلى عدم اليقين عندما يكون النموذج عند حافة كفاءته. النقاش العام في منتدى Anthropic والمجتمع البحثي الأوسع متسق: ينتج Opus إجابة حذرة تفصل ما هو متأكد منه عما ينبغي أن تمرره على خبير بشري. أما نبرة GPT-5 الافتراضية في السؤال نفسه فهي واثقة، سواء استحقت تلك الثقة أم لا.

نمط الفشل الذي ينبغي التخطيط له مع GPT-5 هنا: إجابة شبه صحيحة مع استشهاد واحد خاطئ بطريقة لا يلتقطها القارئ غير المختص. هذا أسوأ أنواع الفشل لهذا العبء، لأنه ينجو من مراجعة عابرة. غريزة Opus في التحفظ هي ما يحمي من هذه الفئة من الأخطاء.

الفائز: Claude. التحفظ جزء من القيمة.

الفئة الرابعة: مهمة مقيدة لاتباع التعليمات

عبء العمل: مهمة يومية لها قيد كمي، مثل ميزانية وقت أو وصفة مبنية من مجموعة مكونات ثابتة. السؤال المثير هو أي نموذج يحترم القيد من دون توسيع النطاق.

يتعامل النموذجان مع جوهر المهمة بشكل جيد. النمط المتكرر في نقاش المجتمع العام هو أن GPT-5 يميل إلى إضافة تحسينات اختيارية، خطوة إضافية أو ملاحظة عن البدائل، تدفعه خارج القيد. يحترم Opus القيد افتراضياً ويسأل قبل توسيع النطاق. عندما تريد مهمة سريعة داخل الميزانية التي حددتها، فهذا هو السلوك الصحيح. وعندما تريد إجابة أغنى تستكشف المساحة، فإن ميل GPT-5 إلى التفصيل يصبح ميزة.

أفضلية لـ Claude في الالتزام بالقيد. اعتبرها تعادلاً إذا كنت تقدر التفصيل.

الفئة الخامسة: تلخيص ورقة تقنية طويلة

عبء العمل: خذ ورقة تقنية من 60 صفحة وأنتج ملخصاً من 1500 كلمة لمهندس يعرف الأساسيات لكنه لم يقرأها. هناك طريقتان معقولتان للبناء: حسب الأقسام (السير في الورقة بالترتيب) أو حسب الادعاءات (تحديد المساهمات وجلب التجارب الداعمة لكل واحدة).

النمط في نقاش المجتمع العام: يميل Opus إلى البناء حسب الادعاء، وGPT-5 حسب القسم. الإجابة الصحيحة هي البنية التي تناسب الجمهور الذي سماه الطلب. المهندس الذي يريد الخلاصات أساساً يخدمه البناء حسب الادعاء؛ أما المراجع الأكاديمي الذي يريد تغطية قسمية فيخدمه العكس. لذلك تذهب الفئة إلى النموذج الذي يطابق افتراضه قارئك، وفي الطلب أعلاه، مهندس يريد ما يأخذه منها، يكون ذلك Opus.

الخطر الثانوي في ملخصات التقنية الطويلة، لدى النموذجين، هو أن يُضغط قسم التجارب إلى جملة واحدة بينما يحمل مضمونه حجة الورقة الأوسع. GPT-5 أكثر عرضة لذلك قليلاً في أقسام التجارب المعقدة، بينما يميل Opus أكثر إلى نثر جاف. اختر مفاضلتك.

الفائز: Claude عندما يكون الجمهور "مهندساً يريد ما يأخذه منها".

الفئة السادسة: رسالة عميل صعبة

عبء العمل: سيناريو خدمة عملاء يبدو حقيقياً. عميل يدفع المال غاضب. استغرق إصلاح خطأ وقتاً أطول مما ينبغي. أثر جانبي لاحق مس شيئاً يهم العميل. اكتب رداً يتحمل المسؤولية، ويشرح الموقف من دون أعذار، ويقدم علاجاً محدداً، ويُقرأ كأن إنساناً كتبه.

لدى GPT-5 سمعة في النثر الدافئ. في هذا العبء تحديداً، النمط في نقاش المجتمع العام هو أن Opus ينتج مسودة تُقرأ كأن شخصاً كتبها لا علامة تجارية. تميل افتراضات GPT-5 إلى لغة اعتذار مؤسسية ("نعتذر بصدق عن الإزعاج"). وتميل افتراضات Opus إلى اعتذار مباشر بلغة بسيطة ("أدين لك باعتذار، وبشرح لا يحاول الالتفاف على أي شيء من هذا"). الثاني هو ما ينبغي أن ترسله فرقة صغيرة.

سيصل GPT-5 إلى ذلك في مرور ثانٍ عندما تشرح قيد النبرة صراحة، بينما يميل Opus إلى إصابته من المحاولة الأولى. في عبء عمل تكون فيه النبرة هي المخرج، يكون فرق المحاولة الأولى هو ما تدفع مقابله.

الفائز: Claude. انضباط النبرة هو العمل هنا.

الفئة السابعة: تصحيح سكربت Python معطوب

عبء العمل: سكربت Python من 140 سطراً فيه أربعة أخطاء أُدخلت عمداً. ثلاثة واضحة. وواحد خفي (خطأ ترتيب async لا يظهر إلا تحت أنماط استدعاء محددة). السؤال المثير هو أي نموذج يشير إلى الخطأ الخفي من دون أن يُطلب منه.

هذه أكثر فئة مرتبطة مباشرة بـ SWE-bench Verified، وترتيبها يتبع المعيار. السلوك الموثق لـ Opus هو الإشارة إلى الكود الغامض كسؤال ("هل هذا هو الخيار المقصود؟") بدلاً من الكتابة فوقه بصمت. هذه الغريزة هي ما يلتقط أخطاء الإنتاج الخفية في المرور الأول. GPT-5 أكثر احتمالاً لأن يصلح الأخطاء الثلاثة الواضحة بنظافة ويفوّت الرابع، ثم يحدده بشكل صحيح فقط عندما يُطلب منه النظر مرة أخرى إلى قسم async.

سلوك المرور الأول هو المهم هنا، لأنك في سير تصحيح إنتاجي لا تعرف عادة ما الذي يفوتك. غريزة Opus في السؤال عن الكود الغامض هي ما يوقف الخطأ الذي كان سيُشحن بهدوء.

الفائز: Claude، بسبب الخطأ الذي تكلّف عناء الإشارة إليه.

سبعة أعباء عمل، أحكام نوعية

قوة ملاءمة كل نموذج لكل فئة عبء عمل، على مقياس 0-100. البنفسجي الداكن: Claude Opus 4.7. المحدد بإطار: GPT-5.

Refactor: Claude
Strong
Refactor: GPT-5
OK
Landing page: Claude
Weak
Landing page: GPT-5
Strong
Debug script: Claude
Strong
Debug script: GPT-5
OK
5–2 Claude يفوز في خمس من أصل سبع فئات عمل

لوحة النتائج نثراً

عند جمع الأحكام السبعة: يأخذ Claude إعادة هيكلة تسلسل الأصناف بذوق معماري، والسؤال التنظيمي بالتحفظ الصادق، والوصفة المقيدة بالالتزام بالتعليمات، وملخص الورقة باختيار البنية المناسبة للجمهور المذكور، والرسالة الصعبة بعمل النبرة، وتصحيح Python بالإشارة إلى خطأ async الخفي. يأخذ GPT-5 صفحة الهبوط التسويقية بوضوح بسبب الحس البصري. سبع فئات، خمسة-اثنان على لوحة النتائج، مع فوزين لـ Claude ضيقين بما يكفي لأن تغيرهما عينة أخرى.

الأسلوب ← الدقة ↑ Claude Opus 4.7 GPT-5 Gemini 3.1 Pro Preview
Two axes, three models. Claude leans correctness. GPT-5 leans style. Pick the corner that matches your work.

تبدو لوحة النتائج منحازة لطرف واحد. التجربة الحية أقرب من ذلك، لأن الفئة الوحيدة التي يفوز فيها GPT-5 تهم بعض القراء كثيراً.

إعادة هيكلة

Claude Architectural taste

صفحة هبوط

GPT-5 Visual sensibility

التفكير

Claude Honest hedging

وصفة

Claude Constraint compliance

ملخص ورقة

Claude Audience fit

رسالة صعبة

Claude Tone work

تصحيح سكربت

Claude Flagged the subtle bug
1. Identify the workload

الصحة التقنية، التصميم البصري، عمل النبرة، المخرجات المنظمة، السياق الطويل، أو الاتساع.

2. Read the lab's positioning

تنشر Anthropic وOpenAI تموضعاً تفصيلياً. يخبرك المختبر أين يناسب النموذج.

3. Cross-check the public record

SWE-bench Verified للبرمجة. LMArena للقدرة العامة. ونقاش المجتمع للباقي.

4. Verify on your own workload

يعطيك المعيار ترتيباً. ويعطيك عبء عملك الحقيقة.

أي نموذج لأي عمل؟

للكود ذي البنية غير البسيطة، اجعل Claude الافتراضي. حس إعادة الهيكلة، وغريزة الإشارة إلى الأخطاء، والاستعداد لطرح سؤال توضيحي بدلاً من الكتابة فوق الكود بصمت، كلها نقاط قوة موثقة وتظهر في الإنتاج كل يوم.

أي شيء بصري، صفحات هبوط، عروض شرائح، نماذج لوحات تحكم، أعمال يهم فيها الذوق، يستحق تجربته أولاً على GPT-5. افتراضاته أقرب إلى ما يتوقعه جمهور معاصر، وستقضي وقتاً أقل في إعادة تشكيل المخرج.

التحليل القانوني أو الطبي أو المالي، حيث تضر الإجابة الواثقة الخاطئة أكثر من إجابة تعلن عدم اليقين، مكانه Claude. التحفظ الصادق هو الملاءمة الصحيحة.

عندما تكتب بلغة غير الإنجليزية وتهم النبرة (لهجة، أو صوت موجه لجمهور محدد)، يفوز Claude في العربية أكثر مما تتوقعه لوحة الترتيب، بينما يحتفظ GPT-5 بأفضلية في معظم لغات العالم الأخرى. مقالة المحتوى العربي تشرح هذا المحور تحديداً.

وإذا كان عبء عملك عالي الحجم ومنخفض الكمون، وكان سعر الرمز هو ما يهيمن على القرار، فليس أي من هذين نموذجك. انزل إلى Claude Sonnet 4.6 أو GPT-5 Mini وقارن بينهما بدلاً من ذلك. مقالة النماذج الصغيرة تشرح متى تنزل طبقة.

التوصية الوحيدة التي تصمد لدى معظم الفرق: اشترك في Claude Opus 4.7 كخيار افتراضي، واحتفظ بمفتاح OpenAI مدفوع للتصميم البصري والحالات العرضية التي يناسبها صوت GPT-5. تشغيل الاثنين يكلف علاوة صغيرة فوق الالتزام بواحد، ولدى معظم الفرق فإن نطاق العمل الذي يغطيانه يعوّض ذلك وأكثر.

أسئلة شائعة

من يفوز بين GPT-5 وClaude Opus 4.7؟

في فئات أعباء العمل السبع التي تقيمها هذه المقالة، يأخذ Claude Opus 4.7 خمساً ويأخذ GPT-5 واحدة بوضوح (تصميم صفحات الهبوط)، مع تعادل عملي واحد. الحكم منسجم مع سجل المعايير العام وتموضع كل مختبر لنموذجه.

هل أشترك في Claude وGPT-5 معاً؟

إذا كان عملك يمتد عبر مهام تقنية ومهام تصميم إبداعي، فنعم. الاثنان معاً يغطيان أنواع عمل أكثر مما يغطيه أي واحد منفرداً، والكلفة الهامشية لمفتاح API ثانٍ غالباً صغيرة مقارنة بقيمة امتلاك النموذج الصحيح لكل مهمة.

أيهما أفضل في البرمجة؟

Claude Opus 4.7، وفق ترتيب SWE-bench Verified الذي تعلنه Anthropic (87.6%) مقابل رقم OpenAI المعلن لـ GPT-5 (نحو 74.9%). يركز تموضع Anthropic على التفكير المعماري والتحفظ؛ بينما يعتمد تموضع OpenAI على الاتساع والمخرجات المنظمة.

أيهما أفضل في الكتابة؟

GPT-5 للمرونة الأسلوبية والاتساع. Claude للكتابة التقنية وانضباط النبرة. تموضع كل مختبر منسجم مع نقاش المجتمع العام حول موضع النموذجين.

أي نموذج أسرع؟

GPT-5 هو الأسرع في معظم التقارير العامة. لا تنشر OpenAI رقماً واحداً للرموز في الثانية، لكن الإجماع في مجتمع المطورين أن GPT-5 يبث المخرجات أسرع من Opus 4.7 بهامش ملحوظ.

سجل التغييرات

  • 25 مايو 2026 — أُعيدت كتابة الأقسام حسب الفئة حتى تستند الأحكام إلى سجل المعايير العام وتموضع كل مختبر المنشور، لا إلى اختبار مختبر خاص. تم التحقق من الأسعار وفق وثائق المزودين الحالية.
  • 30 أبريل 2026 — صُحح مرجع تسعير GPT-5 إلى السعر المنشور: $1.25 للإدخال و$10 للإخراج لكل مليون رمز.
  • 28 أبريل 2026 — نُشرت النسخة الأولى.

المراجع

  1. Anthropic، "وثائق Claude API"، docs.claude.com، اطُّلع عليه في مايو 2026.
  2. Anthropic، "أسعار Claude"، anthropic.com/pricing، اطُّلع عليه في مايو 2026.
  3. OpenAI، "وثائق API"، platform.openai.com/docs، اطُّلع عليه في مايو 2026.
  4. OpenAI، "أسعار API"، openai.com/api/pricing، اطُّلع عليه في مايو 2026.
  5. "لوحة ترتيب Chatbot Arena"، lmarena.ai, May 2026 snapshot.
  6. "لوحة ترتيب SWE-bench Verified"، swebench.com, May 2026.