Is Gemini 3.1 Pro's reasoning jump over Gemini 3 Pro real?

Yes. ARC-AGI-2 went from 31.1% on Gemini 3 Pro to 77.1% on Gemini 3.1 Pro in about three months, a result Google reports and ARC Prize has verified. It pairs that with a top-tier GPQA Diamond score around 94.3% with no tools, though that figure is sourced from Google-citing third parties rather than read off the official model card directly.

How much does Gemini 3.1 Pro cost?

Pricing is tiered by prompt size, per Google's Gemini API pricing page. Standard rates are $2 input and $12 output per million tokens for prompts up to 200K tokens, rising to $4 input and $18 output above 200K. Batch is $1/$6 under 200K and $2/$9 above. The catch: once total input crosses 200K, the entire request including output is billed at the higher long-context rate.

Is Gemini 3.1 Pro verbose?

No. Google's framing is the opposite. It states that Gemini 3.1 Pro uses fewer output tokens than Gemini 3 Pro Preview while delivering more reliable results, so output efficiency is positioned as improved. The cost risk is not verbosity; it is the long-context pricing tier, where a single prompt over 200K input pushes the whole request to the higher output rate.

Is Gemini 3.1 Pro a finished, generally available model?

Not yet. The API model ID is gemini-3.1-pro-preview, and it was still labeled preview as of late May 2026. There is no confirmed general-availability date. Treat it as a strong but provisional release rather than a locked-in long-term default.

Could Gemini 3.1 Pro be superseded soon?

Likely. At Google I/O on May 19, 2026 Google launched Gemini 3.5 Flash and said Gemini 3.5 Pro is in testing and arriving next month. Google already positions the newer 3.5 Flash as beating 3.1 Pro on coding, agentic, and multimodal benchmarks. On current leaderboards, GPT-5.5 is also reported to lead ARC-AGI-2 at around 85%, above 3.1 Pro's 77.1%.

مراجعة·مايو 2026

مراجعة Gemini 3.1 Pro

Name: Gemini 3.1 Pro, reviewed
Item: Gemini 3.1 Pro
Rating: 4.4
Author: benchr

قفزة التفكير حقيقية. ما يجب مراقبته هو فاتورة السياق الطويل وسرعة احتمال تجاوزه بإصدار 3.5 Pro.

تمت المراجعة في 30 مايو 2026 · عرض سجل التغييرات · تم التحقق من الأرقام من مصادر رسمية في 30 مايو 2026

اترك دورة الضجيج جانباً وانظر إلى رقم واحد. في ARC-AGI-2، وهو اختبار صُمم لمقاومة الحفظ، سجّل Gemini 3 Pro نتيجة 31.1%. بعد نحو ثلاثة أشهر، سجّل Gemini 3.1 Pro نتيجة 77.1% على الاختبار نفسه، وهي نتيجة تعلنها Google وتحقق منها ARC Prize. هذه ليست زيادة ضبط صغيرة. إنها أكثر من الضعف، وتأتي بجانب نتيجة GPQA Diamond في منتصف التسعينات. قفزة التفكير حقيقية. ما يجب مراقبته هو فاتورة السياق الطويل، ومدى سرعة احتمال تجاوز هذا النموذج.

كلا التحذيرين يستحقان أن تؤخذا بجدية قبل أن تربط 3.1 Pro بأي شيء يعتمد عليه في الإنتاج. النموذج لا يزال يحمل وسم preview، وتسعيره يحتوي على حافة تقع فيها تشغيلات الوكلاء الطويلة، وGoogle كشفت بالفعل اتجاه ما يأتي بعده. لا يلغي أي من ذلك مكسب القدرة. لكنه يعني أن قرار الشراء يتعلق بالتوقيت بقدر ما يتعلق بالجودة.

77.1% نتيجة ARC-AGI-2، صعوداً من 31.1% منشورة لـ Gemini 3 Pro قبل نحو ثلاثة أشهر. نتيجة 77.1% منشورة من Google وموثقة من ARC Prize.

قفزة تفكير يمكن قياسها

ARC-AGI-2 هو العنوان لأنه من أصعب الاختبارات التي يمكن التلاعب بها. المهام فيه ألغاز بصرية مجردة صُممت بحيث لا يكفي التقاط الأنماط من بيانات التدريب. على النموذج أن يستنتج بنية جديدة في اللحظة نفسها. الانتقال من 31.1% إلى 77.1% في هذا الاختبار، ضمن إصدار نقطي واحد، هو تحرك من النوع الذي يحتاج عادة إلى جيل كامل. وتوثيق ARC Prize للرقم مهم أيضاً، لأنه يعني أن الرقم ليس ادعاء مزود يقف وحده.

الأرقام المساندة تشير في الاتجاه نفسه. GPQA Diamond، وهو اختبار أسئلة علوم بمستوى الدراسات العليا، يصل إلى نحو 94.3% من دون أدوات. Humanity's Last Exam يقترب من 51.4% مع الأدوات، وSWE-bench Verified حول 80.6%. يوجد تنبيهان صريحان حول هذه الثلاثة: ظروف الاختبار تختلف (GPQA رقم بلا أدوات، وHLE رقم مع أدوات كما ذُكر)، وبخلاف ARC-AGI-2 والتسعير، هذه الأرقام مصدرها تقارير تستشهد ببطاقة نموذج Google بدلاً من قراءتها مباشرة من البطاقة الرسمية. تعامل معها كأرقام مزود قوية، لا كتدقيق مستقل.

معايير تفكير Gemini 3.1 Pro مقارنة بـ Gemini 3 Pro، وفق Google وARC Prize
المعيار	Gemini 3 Pro	Gemini 3.1 Pro	ملاحظة المصدر
ARC-AGI-2	31.1%	77.1%	77.1% موثقة من ARC Prize؛ رقم 31.1% منشور للنموذج السابق
GPQA Diamond (بلا أدوات)	—	94.3%	رقم مزود عبر استشهاد ببطاقة النموذج
Humanity's Last Exam (مع أدوات)	—	51.4%	رقم من بطاقة نموذج Google
SWE-bench Verified	—	80.6%	رقم مزود عبر استشهاد ببطاقة النموذج

شيء واحد لا ينطبق على هذا النموذج: أنه ثرثار. من السهل افتراض أن التفكير الأكبر يعني إجابات أطول، لكن تأطير Google نفسه يقول إن 3.1 Pro يستخدم رموز إخراج أقل من Gemini 3 Pro Preview مع نتائج أكثر موثوقية. كفاءة الإخراج معروضة كتحسن. وهذا مهم عند أسعار إخراج بين $12 و$18، لأن خطر التكلفة هنا لا يأتي من إطالة النموذج في الكلام. بل يأتي من بنية التسعير.

حافة التسعير عند 200K رمز

يُسعّر Gemini 3.1 Pro على شريحتين حسب حجم الطلب، وفق صفحة أسعار Gemini API من Google. حتى 200K رمز إدخال، السعر القياسي هو $2 للإدخال و$12 للإخراج لكل مليون رمز. فوق 200K يرتفع إلى $4 للإدخال و$18 للإخراج. وظائف Batch أرخص: $1/$6 تحت هذا الخط و$2/$9 فوقه. إلى هنا يبدو الأمر كتسعير عادي للسياق الطويل.

التفصيل المؤلم هو ما الذي يفعّل السعر الأعلى، وعلى ماذا يُطبّق. بمجرد أن يتجاوز إجمالي سياق الإدخال 200K رمز، تُحاسب الطلبية كلها بسعر السياق الطويل، الإدخال والإخراج معاً. ليس فقط الرموز التي تتجاوز 200K. الطلب كله. تشغيل كان سيكلف $12 لكل مليون رمز إخراج عند 199K إدخال سيكلف $18 لكل مليون رمز إخراج عند 201K، على كل رمز إخراج يولده.

فاتورة السياق الطويل عملياً تجاوز 200K رمز إدخال يعيد تسعير الطلب كله، بما في ذلك الإخراج. حلقة وكيل تستمر في حشو سجل محادثة متزايد، ومستندات مسترجعة، ونتائج أدوات داخل الطلب ستتجاوز 200K بهدوء، ومن تلك النقطة يصبح كل رمز داخل وخارج الطلب بسعر $4/$18 بدلاً من $2/$12. تشغيلات الوكلاء ذات السياق الطويل تصبح مكلفة بسرعة، ليس لأن النموذج كثير الكلام، بل لأن العداد ينتقل إلى مسار آخر. إذا استطعت إبقاء الطلبات تحت 200K باستخدام الاسترجاع بدلاً من رمي المجموعة الكاملة في السياق، فافعل ذلك.

هذه أهم فكرة يجب استيعابها قبل النشر. نافذة 1M رمز تغريك بملئها، والتسعير يعاقب هذه العادة تحديداً. أي شخص يشغّل أعمالاً وكيلية يجب أن يراقب حجم الإدخال كأنه بند ميزانية. الإصلاحات العملية هي نفسها المعتادة، لكنها تؤتي ثمارها هنا أكثر من النماذج ذات السعر المسطح: قصّ السياق بقوة واعتمد على الاسترجاع بدلاً من حشو المستندات كاملة. دليل benchr عن خفض استخدام الرموز يشرح الآليات، والتكلفة حسب حالة الاستخدام يوضح متى يتفوق نموذج بشريحة تسعير مثل هذه على نموذج بسعر ثابت في عبء عملك.

لنموذج يميل تسويقه إلى نافذة المليون رمز، تستحق هذه الحافة قراءة هادئة. سعة السياق الكبيرة قدرة، وليست ترخيصاً لاستخدامها كلها في كل طلب. الفجوة بين ما تسمح به النافذة وما تكافئه الفاتورة موضوع متكرر، وكتب benchr عنه في سياق كيف تُسوّق ادعاءات المليون رمز.

ما الذي يناسبه الآن

الاستخدام الأنسب لـ Gemini 3.1 Pro هو أعمال التفكير الصعبة التي تبقى براحة تحت 200K رمز إدخال. أسئلة علوم بمستوى الدراسات العليا، حل مشكلات مجردة، والمهام التي تكون فيها ARC-AGI-2 وGPQA Diamond مؤشرات معقولة. في هذه الحالات، هو من أقوى النماذج المتاحة في مايو 2026، وتحسن كفاءة الإخراج يعني أنك لا تدفع ضريبة ثرثرة فوق التفكير. نافذة 1M موجودة عندما تحتاجها، مع تحذير التسعير حاضراً في ذهنك.

الإتاحة واسعة بالنسبة إلى نموذج preview. يعمل عبر Gemini API في Google AI Studio، إضافة إلى Android Studio وGoogle Antigravity وGemini CLI، وهو في preview على Vertex AI وGemini Enterprise. في تطبيق Gemini للمستهلكين، تُطرح الحدود الأعلى لمشتركي Google AI Pro وUltra، ويظهر في NotebookLM لهذه الشرائح. يوجد وصول مجاني عبر AI Studio ضمن حدود الطبقة المجانية وفي تطبيق المستهلك، لكن الحدود اللافتة محصورة في الخطط المدفوعة. لذلك يمكن تجربته بتكلفة منخفضة، لكنه ليس غير محدود مجاناً.

لماذا التوقيت هو المأزق

حقيقتان يجب أن تخففا من مدى التزامك الدائم بهذا النموذج. أولاً، لا يزال preview. معرّف API هو gemini-3.1-pro-preview، وبقي يحمل هذا الوسم حتى أواخر مايو 2026، ولا يوجد تاريخ مؤكد للتوافر العام. نماذج preview يمكن أن يتغير سلوكها أو تسعيرها قبل أن تستقر، لذلك جعلها الخيار الإنتاجي الافتراضي رهان محسوب.

ثانياً، Google كشفت بالفعل ما يأتي بعده، وليس بعيداً. في Google I/O يوم 19 مايو 2026، أطلقت Google نموذج Gemini 3.5 Flash للتوافر العام وقالت إن Gemini 3.5 Pro قيد الاختبار وسيصل في الشهر التالي. وتعرض Google الآن 3.5 Flash الأحدث على أنه يتفوق على 3.1 Pro في معايير البرمجة والعمل الوكيلي والمهام متعددة الوسائط. وعلى مستوى لوحات الترتيب، يُذكر أن GPT-5.5 يتصدر ARC-AGI-2 بنحو 85%، فوق نتيجة 3.1 Pro البالغة 77.1%. لذلك قد يُقاس وقت 3.1 Pro في قمة خط Google بالأسابيع لا بالأرباع.

قفزة قدرة حقيقية وعمر رف قصير ليسا تناقضاً. هذا هو الشكل الطبيعي لجدول إصدارات يتحرك بسرعة.

الحكم

يكسب Gemini 3.1 Pro تقييمه من التفكير. القفزة إلى 77.1% موثقة في ARC-AGI-2 من أوضح مكاسب القدرة هذا العام، ورقم GPQA Diamond يدعمها، وكفاءة رموز الإخراج تعني أن الجودة لا تأتي محمولة على تضخم في النص. اختره لمهام التفكير الصعبة التي تبقى تحت 200K رمز إدخال، حيث ينطبق السعر القياسي $2/$12 ويكون النموذج في أقوى حالاته.

خطط حول حافة التسعير إذا كان عملك طويل السياق أو وكيلياً، لأن تجاوز 200K رمز إدخال يعيد تسعير الطلب كله والفاتورة ترتفع أسرع مما يوحي به حجم النافذة. وتجنب تثبيته كخيار دائم إلا إذا كنت مرتاحاً إلى نموذج preview توشك خارطة طريق Google نفسها أن تتجاوزه. 3.5 Pro قريب، و3.5 Flash يتفوق عليه بالفعل في البرمجة والعمل الوكيلي، وGPT-5.5 يتقدمه على لوحة ARC-AGI-2. ابق مع 3.1 Pro عندما تكون مكاسب التفكير هي ما تحتاجه اليوم وتظل الطلبات قصيرة؛ وأعد التقييم فور صدور 3.5 Pro. ولجدول مقارنة مباشر بين النموذجين، راجع Gemini 3.1 Pro مقابل GPT-5.5.

أسئلة شائعة

هل قفزة Gemini 3.1 Pro في التفكير مقارنة بـ Gemini 3 Pro حقيقية؟

نعم. نتيجة ARC-AGI-2 انتقلت من 31.1% على Gemini 3 Pro إلى 77.1% على Gemini 3.1 Pro خلال نحو ثلاثة أشهر، وهي نتيجة تعلنها Google وحقق منها ARC Prize. وتأتي معها نتيجة GPQA Diamond من أعلى الفئة حول 94.3% بلا أدوات، مع أن هذا الرقم مصدره أطراف تستشهد بـ Google لا قراءة مباشرة من بطاقة النموذج الرسمية.

كم يكلّف Gemini 3.1 Pro؟

التسعير مقسم حسب حجم الطلب وفق صفحة أسعار Gemini API من Google. الأسعار القياسية هي $2 للإدخال و$12 للإخراج لكل مليون رمز حتى 200K رمز، وترتفع إلى $4 للإدخال و$18 للإخراج فوق 200K. Batch هو $1/$6 تحت 200K و$2/$9 فوقه. المهم: بمجرد أن يتجاوز إجمالي الإدخال 200K، يُحاسب الطلب كله، بما فيه الإخراج، بسعر السياق الطويل الأعلى.

هل Gemini 3.1 Pro كثير الكلام؟

لا. تأطير Google يقول العكس. تقول إن Gemini 3.1 Pro يستخدم رموز إخراج أقل من Gemini 3 Pro Preview مع نتائج أكثر موثوقية، لذلك تُعرض كفاءة الإخراج كتحسن. خطر التكلفة ليس الثرثرة؛ بل شريحة تسعير السياق الطويل، حيث يدفع طلب واحد فوق 200K رمز إدخال الطلب كله إلى سعر إخراج أعلى.

هل Gemini 3.1 Pro نموذج مكتمل ومتاح بشكل عام؟

ليس بعد. معرّف API هو gemini-3.1-pro-preview، وكان لا يزال يحمل وسم preview في أواخر مايو 2026. لا يوجد تاريخ مؤكد للتوافر العام. تعامل معه كإصدار قوي لكنه مؤقت، لا كخيار افتراضي طويل الأمد ومغلق المواصفات.

هل يمكن أن يتجاوزه إصدار أحدث قريباً؟

غالباً. في Google I/O يوم 19 مايو 2026 أطلقت Google نموذج Gemini 3.5 Flash وقالت إن Gemini 3.5 Pro قيد الاختبار وسيصل في الشهر التالي. وتعرض Google نموذج 3.5 Flash الأحدث على أنه يتفوق على 3.1 Pro في معايير البرمجة والعمل الوكيلي والمهام متعددة الوسائط. وعلى لوحات الترتيب الحالية، يُذكر أن GPT-5.5 يتصدر ARC-AGI-2 بنحو 85%، أعلى من 77.1% لـ 3.1 Pro.

سجل التغييرات

30 مايو 2026 — نُشر المقال أول مرة. تم التحقق من نتيجة ARC-AGI-2 عند 77.1%، وسعة السياق 1M، والتسعير المقسم، ومعرّف النموذج gemini-3.1-pro-preview مقابل صفحة أسعار Gemini API من Google، وسجل تغييرات Gemini API، وإعلان Google الموثق (مع مطابقة ARC-AGI-2 مع ARC Prize). وُسمت أرقام GPQA Diamond وHLE وSWE-bench كأرقام مزود، مصدرها تقارير تستشهد ببطاقة نموذج Google.

المصادر

Google، "Gemini API pricing،" ai.google.dev/gemini-api/docs/pricing، تمت الزيارة في مايو 2026.
Google، "Gemini API changelog،" ai.google.dev/gemini-api/docs/changelog، تمت الزيارة في مايو 2026.
Google Cloud، "Gemini 3.1 Pro on Gemini CLI, Gemini Enterprise, and Vertex AI،" cloud.google.com، فبراير 2026.
Google، "Gemini 3.1 Pro،" blog.google، فبراير 2026.
Google DeepMind، "Gemini 3.1 Pro model card،" deepmind.google، تمت الزيارة في مايو 2026.
Constellation Research، "Google launches Gemini 3.1 Pro،" constellationr.com، فبراير 2026.
ARC Prize، "Leaderboard،" arcprize.org/leaderboard، تمت الزيارة في مايو 2026.
9to5Google، "Google I/O 2026 news،" 9to5google.com، 19 مايو 2026.