اترك دورة الضجيج جانباً وانظر إلى رقم واحد. في ARC-AGI-2، وهو اختبار صُمم لمقاومة الحفظ، سجّل Gemini 3 Pro نتيجة 31.1%. بعد نحو ثلاثة أشهر، سجّل Gemini 3.1 Pro نتيجة 77.1% على الاختبار نفسه، وهي نتيجة تعلنها Google وتحقق منها ARC Prize. هذه ليست زيادة ضبط صغيرة. إنها أكثر من الضعف، وتأتي بجانب نتيجة GPQA Diamond في منتصف التسعينات. قفزة التفكير حقيقية. ما يجب مراقبته هو فاتورة السياق الطويل، ومدى سرعة احتمال تجاوز هذا النموذج.
كلا التحذيرين يستحقان أن تؤخذا بجدية قبل أن تربط 3.1 Pro بأي شيء يعتمد عليه في الإنتاج. النموذج لا يزال يحمل وسم preview، وتسعيره يحتوي على حافة تقع فيها تشغيلات الوكلاء الطويلة، وGoogle كشفت بالفعل اتجاه ما يأتي بعده. لا يلغي أي من ذلك مكسب القدرة. لكنه يعني أن قرار الشراء يتعلق بالتوقيت بقدر ما يتعلق بالجودة.
قفزة تفكير يمكن قياسها
ARC-AGI-2 هو العنوان لأنه من أصعب الاختبارات التي يمكن التلاعب بها. المهام فيه ألغاز بصرية مجردة صُممت بحيث لا يكفي التقاط الأنماط من بيانات التدريب. على النموذج أن يستنتج بنية جديدة في اللحظة نفسها. الانتقال من 31.1% إلى 77.1% في هذا الاختبار، ضمن إصدار نقطي واحد، هو تحرك من النوع الذي يحتاج عادة إلى جيل كامل. وتوثيق ARC Prize للرقم مهم أيضاً، لأنه يعني أن الرقم ليس ادعاء مزود يقف وحده.
الأرقام المساندة تشير في الاتجاه نفسه. GPQA Diamond، وهو اختبار أسئلة علوم بمستوى الدراسات العليا، يصل إلى نحو 94.3% من دون أدوات. Humanity's Last Exam يقترب من 51.4% مع الأدوات، وSWE-bench Verified حول 80.6%. يوجد تنبيهان صريحان حول هذه الثلاثة: ظروف الاختبار تختلف (GPQA رقم بلا أدوات، وHLE رقم مع أدوات كما ذُكر)، وبخلاف ARC-AGI-2 والتسعير، هذه الأرقام مصدرها تقارير تستشهد ببطاقة نموذج Google بدلاً من قراءتها مباشرة من البطاقة الرسمية. تعامل معها كأرقام مزود قوية، لا كتدقيق مستقل.
| المعيار | Gemini 3 Pro | Gemini 3.1 Pro | ملاحظة المصدر |
|---|---|---|---|
| ARC-AGI-2 | 31.1% | 77.1% | 77.1% موثقة من ARC Prize؛ رقم 31.1% منشور للنموذج السابق |
| GPQA Diamond (بلا أدوات) | — | 94.3% | رقم مزود عبر استشهاد ببطاقة النموذج |
| Humanity's Last Exam (مع أدوات) | — | 51.4% | رقم من بطاقة نموذج Google |
| SWE-bench Verified | — | 80.6% | رقم مزود عبر استشهاد ببطاقة النموذج |
شيء واحد لا ينطبق على هذا النموذج: أنه ثرثار. من السهل افتراض أن التفكير الأكبر يعني إجابات أطول، لكن تأطير Google نفسه يقول إن 3.1 Pro يستخدم رموز إخراج أقل من Gemini 3 Pro Preview مع نتائج أكثر موثوقية. كفاءة الإخراج معروضة كتحسن. وهذا مهم عند أسعار إخراج بين $12 و$18، لأن خطر التكلفة هنا لا يأتي من إطالة النموذج في الكلام. بل يأتي من بنية التسعير.
حافة التسعير عند 200K رمز
يُسعّر Gemini 3.1 Pro على شريحتين حسب حجم الطلب، وفق صفحة أسعار Gemini API من Google. حتى 200K رمز إدخال، السعر القياسي هو $2 للإدخال و$12 للإخراج لكل مليون رمز. فوق 200K يرتفع إلى $4 للإدخال و$18 للإخراج. وظائف Batch أرخص: $1/$6 تحت هذا الخط و$2/$9 فوقه. إلى هنا يبدو الأمر كتسعير عادي للسياق الطويل.
التفصيل المؤلم هو ما الذي يفعّل السعر الأعلى، وعلى ماذا يُطبّق. بمجرد أن يتجاوز إجمالي سياق الإدخال 200K رمز، تُحاسب الطلبية كلها بسعر السياق الطويل، الإدخال والإخراج معاً. ليس فقط الرموز التي تتجاوز 200K. الطلب كله. تشغيل كان سيكلف $12 لكل مليون رمز إخراج عند 199K إدخال سيكلف $18 لكل مليون رمز إخراج عند 201K، على كل رمز إخراج يولده.
هذه أهم فكرة يجب استيعابها قبل النشر. نافذة 1M رمز تغريك بملئها، والتسعير يعاقب هذه العادة تحديداً. أي شخص يشغّل أعمالاً وكيلية يجب أن يراقب حجم الإدخال كأنه بند ميزانية. الإصلاحات العملية هي نفسها المعتادة، لكنها تؤتي ثمارها هنا أكثر من النماذج ذات السعر المسطح: قصّ السياق بقوة واعتمد على الاسترجاع بدلاً من حشو المستندات كاملة. دليل benchr عن خفض استخدام الرموز يشرح الآليات، والتكلفة حسب حالة الاستخدام يوضح متى يتفوق نموذج بشريحة تسعير مثل هذه على نموذج بسعر ثابت في عبء عملك.
لنموذج يميل تسويقه إلى نافذة المليون رمز، تستحق هذه الحافة قراءة هادئة. سعة السياق الكبيرة قدرة، وليست ترخيصاً لاستخدامها كلها في كل طلب. الفجوة بين ما تسمح به النافذة وما تكافئه الفاتورة موضوع متكرر، وكتب benchr عنه في سياق كيف تُسوّق ادعاءات المليون رمز.
ما الذي يناسبه الآن
الاستخدام الأنسب لـ Gemini 3.1 Pro هو أعمال التفكير الصعبة التي تبقى براحة تحت 200K رمز إدخال. أسئلة علوم بمستوى الدراسات العليا، حل مشكلات مجردة، والمهام التي تكون فيها ARC-AGI-2 وGPQA Diamond مؤشرات معقولة. في هذه الحالات، هو من أقوى النماذج المتاحة في مايو 2026، وتحسن كفاءة الإخراج يعني أنك لا تدفع ضريبة ثرثرة فوق التفكير. نافذة 1M موجودة عندما تحتاجها، مع تحذير التسعير حاضراً في ذهنك.
الإتاحة واسعة بالنسبة إلى نموذج preview. يعمل عبر Gemini API في Google AI Studio، إضافة إلى Android Studio وGoogle Antigravity وGemini CLI، وهو في preview على Vertex AI وGemini Enterprise. في تطبيق Gemini للمستهلكين، تُطرح الحدود الأعلى لمشتركي Google AI Pro وUltra، ويظهر في NotebookLM لهذه الشرائح. يوجد وصول مجاني عبر AI Studio ضمن حدود الطبقة المجانية وفي تطبيق المستهلك، لكن الحدود اللافتة محصورة في الخطط المدفوعة. لذلك يمكن تجربته بتكلفة منخفضة، لكنه ليس غير محدود مجاناً.
لماذا التوقيت هو المأزق
حقيقتان يجب أن تخففا من مدى التزامك الدائم بهذا النموذج. أولاً، لا يزال preview. معرّف API هو gemini-3.1-pro-preview، وبقي يحمل هذا الوسم حتى أواخر مايو 2026، ولا يوجد تاريخ مؤكد للتوافر العام. نماذج preview يمكن أن يتغير سلوكها أو تسعيرها قبل أن تستقر، لذلك جعلها الخيار الإنتاجي الافتراضي رهان محسوب.
ثانياً، Google كشفت بالفعل ما يأتي بعده، وليس بعيداً. في Google I/O يوم 19 مايو 2026، أطلقت Google نموذج Gemini 3.5 Flash للتوافر العام وقالت إن Gemini 3.5 Pro قيد الاختبار وسيصل في الشهر التالي. وتعرض Google الآن 3.5 Flash الأحدث على أنه يتفوق على 3.1 Pro في معايير البرمجة والعمل الوكيلي والمهام متعددة الوسائط. وعلى مستوى لوحات الترتيب، يُذكر أن GPT-5.5 يتصدر ARC-AGI-2 بنحو 85%، فوق نتيجة 3.1 Pro البالغة 77.1%. لذلك قد يُقاس وقت 3.1 Pro في قمة خط Google بالأسابيع لا بالأرباع.
قفزة قدرة حقيقية وعمر رف قصير ليسا تناقضاً. هذا هو الشكل الطبيعي لجدول إصدارات يتحرك بسرعة.
الحكم
يكسب Gemini 3.1 Pro تقييمه من التفكير. القفزة إلى 77.1% موثقة في ARC-AGI-2 من أوضح مكاسب القدرة هذا العام، ورقم GPQA Diamond يدعمها، وكفاءة رموز الإخراج تعني أن الجودة لا تأتي محمولة على تضخم في النص. اختره لمهام التفكير الصعبة التي تبقى تحت 200K رمز إدخال، حيث ينطبق السعر القياسي $2/$12 ويكون النموذج في أقوى حالاته.
خطط حول حافة التسعير إذا كان عملك طويل السياق أو وكيلياً، لأن تجاوز 200K رمز إدخال يعيد تسعير الطلب كله والفاتورة ترتفع أسرع مما يوحي به حجم النافذة. وتجنب تثبيته كخيار دائم إلا إذا كنت مرتاحاً إلى نموذج preview توشك خارطة طريق Google نفسها أن تتجاوزه. 3.5 Pro قريب، و3.5 Flash يتفوق عليه بالفعل في البرمجة والعمل الوكيلي، وGPT-5.5 يتقدمه على لوحة ARC-AGI-2. ابق مع 3.1 Pro عندما تكون مكاسب التفكير هي ما تحتاجه اليوم وتظل الطلبات قصيرة؛ وأعد التقييم فور صدور 3.5 Pro. ولجدول مقارنة مباشر بين النموذجين، راجع Gemini 3.1 Pro مقابل GPT-5.5.