ضع ورقتي المواصفات جنباً إلى جنب وستلاحظ أولاً أنهما لا تصطفان. يقود Gemini 3.1 Pro من Google بنتائج الاستدلال المجرد والعلوم. ويقود GPT-5.5 من OpenAI بنتائج البرمجة الوكيلية وأعمال المعرفة. لا يشتركان تقريباً في أي معيار، وهذا يجعل جدول "من الأعلى" المعتاد شبه فارغ. لذلك هذه المقارنة ليست سباقاً بقدر ما هي سؤال: أي لوحة نتائج تطابق عملك؟
يوجد معيار واحد مشترك، ويستحق ذكره من البداية: Terminal-Bench 2.0، اختبار وكلاء سطر الأوامر متعددي الخطوات. هناك، وفق الأرقام التي أبلغ بها كل مختبر بنفسه، يتقدم GPT-5.5 بوضوح: 82.7% مقابل 68.5%، والرقمان من المزودين لا من لوحة محايدة مؤكدة. في كل مكان آخر، تقارن نقاط القوة التي اختارها كل مختبر، لا الاختبار نفسه مرتين. إذا كان ذلك يزعجك، فيجب أن يزعجك، ولماذا توقفت المعايير عن إخبارك بالكثير هو الحجة الأطول لقراءة هذه الأرقام بريبة.
| Benchmark | Gemini 3.1 Pro | GPT-5.5 |
|---|---|---|
| ARC-AGI-2 (abstract reasoning) | 77.1% | — |
| GPQA Diamond (science) | 94.3% | — |
| Humanity's Last Exam (with tools) | 51.4% | — |
| SWE-bench Verified (agentic coding) | 80.6% | — |
| Terminal-Bench 2.0 (CLI agents) | 68.5% | 82.7% |
| SWE-Bench Pro (real-world issues) | — | 58.6% |
| GDPval (knowledge work) | — | 84.9% |
أين تكون حجة Gemini في الاستدلال أقوى
بُني Gemini 3.1 Pro لدفع حدود الاستدلال، والأرقام التي تعلنها Google تدعم ذلك. نتيجة 77.1% في ARC-AGI-2 هي العنوان، قفزة كبيرة عن Gemini 3 Pro في الاختبار نفسه، وARC-AGI-2 معيار صُمم تحديداً لمقاومة الحفظ. أضف 94.3% في GPQA Diamond لعلوم مستوى الدراسات العليا، وستحصل على نموذج مضبوط للأسئلة التي يجب أن يفكر فيها النموذج لا أن يسترجع فقط.
إذا كان عملك استدلالاً صعباً، أو رياضيات جديدة، أو علماً بمستوى بحثي، أو مسائل لا توجد إجابة جاهزة لها، فإن Gemini 3.1 Pro يعلن أقوى النتائج العامة، وOpenAI ببساطة لا تضع GPT-5.5 على اللوحات نفسها. القراءة الأعمق لخط Google الرائد موجودة في تقييم Gemini.
أين يمتلك GPT-5.5 العمل
يستهدف GPT-5.5 مكاناً آخر: إنجاز أعمال معرفة مهنية. تعلن OpenAI نتيجة 84.9% في GDPval، وهو اختبار لإنتاج عمل محدد جيداً عبر عشرات المهن، وبنت الإصدار حول البرمجة الوكيلية واستخدام الكمبيوتر. رقم 82.7% المعلن في Terminal-Bench 2.0 هو الرقم الذي تبرزه OpenAI، وفي ذلك الاختبار المشترك يأتي فوق الرقم المعلن لـ Gemini. هذه أرقام OpenAI من إعلان الإطلاق لا من لوحة محايدة، لذلك زنها كأرقام مزود. ضبطته OpenAI ليكون موجزاً ويحافظ على السياق عبر أنظمة كبيرة، وهي طبيعة عمل المحللين والمهندسين الحقيقي.
لذلك تلجأ إلى GPT-5.5 عندما يكون المطلوب شيئاً منجزاً: تقريراً، تغييراً يعمل، تحليلاً مركباً، لا لغزاً صعباً محلولاً. وتغطي GPT-5 review السلالة التي يمددها GPT-5.5.
فجوة السعر التي لا يذكرها أحد
هذا هو المفتاح الذي يحسم بهدوء كثيراً من النشر الحقيقي: Gemini 3.1 Pro أرخص بكثير. عند أطوال المطالبات القياسية، يكلف $2 إدخال و$12 إخراج لكل مليون رمز، مقابل $5 و$30 لـ GPT-5.5. هذا يعني أن تشغيل الحجم نفسه على GPT-5.5 يكلف نحو 2.5 ضعف.
عند حجم منخفض تكون الفجوة ضجيجاً. على النطاق، هي الميزانية. مسار يعمل بملايين الرموز يومياً سيشعر بمضاعف 2.5x بطريقة لا يلتقطها أي معيار، ومع ذلك يحقق Gemini 3.1 Pro نتيجة قوية 80.6% في SWE-bench Verified. التحفظ الوحيد: Gemini 3.1 Pro ما زال في المعاينة حتى مايو 2026، لذلك تعامل مع أسعاره وحدوده على أنها غير نهائية.
أيهما يناسبك
اختر Gemini 3.1 Pro إذا كان عملك استدلالاً صعباً أو علماً أو بحثاً، أو إذا كنت تشغل حجماً يكفي لجعل فجوة السعر 2.5x مهمة. يحقق أقوى نتائج استدلال عامة ويكلف أقل بكثير لكل رمز، ونتيجته في SWE-bench Verified تعني أنه يصمد في البرمجة أيضاً.
اختر GPT-5.5 إذا كانت مهمتك عملاً معرفياً منجزاً ووكلاء مدفوعين بالطرفية. يفوز في المعيار الوحيد الذي أجراه المختبران، وهو مضبوط لإخراج مهني موجز، ويكون الرهان الأكثر أماناً عندما يجب على النموذج العمل عبر أدوات وأنظمة طويلة من دون فقدان الخيط.
وإذا كنت تقارن بين أقوى نموذجين للبرمجة بدل هذا التقسيم بين الاستدلال والاتساع، فالمواجهة الأقرب هي Opus 4.8 مقابل GPT-5.5، حيث تتقاطع المعايير بما يكفي لاختيار فائز.