الإجابة الصادقة: لا. والإجابة المثيرة للاهتمام هي: أين ذهبت المشكلة؟
رقمان يرويان القصة كلها، وهما يشيران في اتجاهين متعاكسين. في اختبار واحد، يختلق أفضل نموذج في 2026 أقل من 2% من الوقت. وفي اختبار آخر من العام نفسه، اختلق نموذج استدلال جديد تماماً الإجابة في ما يقارب نصف المرات. الرقمان حقيقيان. الفارق هو المهمة، وهذا الفارق هو ما تتجاهله بهدوء معظم الآراء التي تقول إن «الهلوسة حُلّت تقريباً».
الرقم الذي يبدو انتصاراً
تحتفظ Vectara بلوحة عامة تقيس عدد المرات التي يخترع فيها النموذج شيئاً عند تلخيص مستند تقدمه له. حتى تحديث 11 مايو 2026، يتصدر finix_s1_32b من Ant Group بمعدل هلوسة 1.8%. خلفه يأتي gpt-5.4-nano من OpenAI عند 3.1% وgemini-2.5-flash-lite من Google عند 3.3%. في النسخة الأقدم والأقصر من الاختبار نفسه، وصل نموذج مرة إلى 0.7%. هذه نتائج ممتازة. لكنها أيضاً إجابة عن سؤال ضيق.
هذه هي الملاحظة التي يجب أن تتمسك بها: هذا الاختبار يسلّم النموذج نص المصدر ويقيّم ما إذا كان الملخص وفياً له. هو أقرب إلى فهم المقروء منه إلى معرفة حقائق العالم. لا يُسأل النموذج «ما الحقيقة؟»، بل يُسأل «هل يطابق هذا الملخص الصفحة أمامك؟». هذه مهارة حقيقية ومفيدة، لكنها ليست ما يقصده الناس عندما يسألون هل يختلق الذكاء الاصطناعي أشياء. معظم النماذج على اللوحة نفسها ما زالت تقع بين 7% و13% حتى في هذه المهمة الودودة.
الرقم الذي ينبغي أن يقلقك
والآن إلى الاتجاه الآخر. في معيار PersonQA الواقعي الخاص بـ OpenAI نفسها، هلست نماذج الاستدلال الأحدث أكثر من النموذج الأقدم. سجّل o1 نسبة 16%. وقفز خلفه o3 إلى 33%. ووصل o4-mini إلى 48%، أي أخطأ في نحو نصف إجاباته. هذه بطاقة نظام OpenAI نفسها، لا اختيار انتقائي من ناقد. وهي تنهي افتراضاً يحمله كثيرون: أن كل نموذج جديد يصبح تلقائياً أصدق من سابقه.
لم تشرح OpenAI الأمر بالكامل. تقول بطاقة النظام إن هناك حاجة إلى مزيد من البحث، وتعرض الآلية الجزئية أعلاه: o3 يطلق ادعاءات أكثر، لذلك يجمع المزيد من النوعين. لاحقاً انعكس الاتجاه. وفق بطاقة نظام GPT-5، يكون GPT-5 مع بحث الويب أقل عرضة لخطأ واقعي من GPT-4o بنحو 45%، وينتج GPT-5-thinking أخطاء واقعية أقل من o3 بأكثر من 5 مرات. إذن المسار حقيقي ويتجه إلى الاتجاه الصحيح. لكنه ليس خطاً مستقيماً، و«الأحدث» لم يكن ضماناً قط.
لا يوجد معدل هلوسة واحد. هناك معدل لمهمة محددة، وأي شخص يقتبس رقماً واحداً بلا ربطه بالمهمة يحاول بيعك شيئاً.
معدل الهلوسة حسب الإعداد
ضع العالمين جنباً إلى جنب وستكون الفجوة هي العنوان. عائلات النماذج نفسها تبدو شبه محلولة في التلخيص المثبّت على مصدر، ومهتزة في الاستدعاء المفتوح. لهذا يواصل benchr الاعتراض على أرقام لوحات الصدارة النظيفة في لماذا لم تعد المعايير تخبرك بالكثير: فالنتيجة لا تكون صادقة إلا بقدر صدق المهمة وراءها.
| الإعداد / النموذج | معدل الهلوسة | ما الذي يقيسه الاختبار |
|---|---|---|
| تلخيص مثبت على مصدر: finix_s1_32b (Ant Group) | 1.8% | يلتزم بمستند تقدمه له |
| تلخيص مثبت على مصدر: gpt-5.4-nano (OpenAI) | 3.1% | يلتزم بمستند تقدمه له |
| تلخيص مثبت على مصدر: gemini-2.5-flash-lite (Google) | 3.3% | يلتزم بمستند تقدمه له |
| تلخيص مثبت على مصدر: اختبار أقدم بمستندات أقصر (Gemini-2.0-Flash) | 0.7% | المهارة نفسها، لكن مجموعة البيانات الأصلية أسهل |
| حقائق مفتوحة: o1 (PersonQA) | 16% | يستدعي حقائق بلا مصدر مقدم |
| حقائق مفتوحة: o3 (PersonQA) | 33% | يستدعي حقائق بلا مصدر مقدم |
| حقائق مفتوحة: o4-mini (PersonQA) | 48% | يستدعي حقائق بلا مصدر مقدم |
اقرأ الجدول كنقطة واحدة: أعطِ النموذج الإجابة ليقرأها، ونادراً ما يقتبسها بشكل خاطئ. اطلب منه أن يسحب الإجابة من الذاكرة، وستحصل على آلة مختلفة. الأرقام ليست متناقضة؛ إنها تقيس وظيفتين تشتركان في كلمة واحدة.
لماذا لم تُحل، بكلمات OpenAI نفسها
أوضح دليل على أن المجال لا يعدّ المشكلة منتهية يأتي من ورقة OpenAI في سبتمبر 2025، «Why Language Models Hallucinate». حجتها عن الحوافز لا عن السحر. معظم المعايير تقيّم الإجابة كصحيحة أو خاطئة ببساطة، وتحصل «لا أعرف» على صفر كامل، مثل الإجابة الخاطئة. وفق هذه الحسابات، النموذج الذي يخمن يتفوق على النموذج الذي يعترف بعدم اليقين. لذلك تتدرب النماذج على المراوغة بثقة، لأن المراوغة هي الحركة الرابحة إحصائياً في الاختبار.
الحل الذي يقترحه المؤلفون ليس مرشح هلوسة جديداً. بل تغيير طريقة احتساب التقييمات السائدة: منح درجة جزئية لعبارة «لا أعرف» في موضعها، ومعاقبة الإجابات الخاطئة الواثقة عندما تكون تحت عتبة ثقة صريحة. عندما تقترح جهة ناشرة إعادة كتابة نظام تسجيل كل معيار بدلاً من شحن تصحيح، فهذا المجال يخبرك أن المشكلة بنيوية. ليست خطأً يغلقه إصدار واحد.
ما الذي يقلل الإجابات المختلقة فعلاً
هنا الجزء العملي، وهو النصيحة نفسها التي نجحت لعامين حتى الآن. لا تعالج الهلوسة بانتظار نموذج أذكى. تعالجها بأن لا تطلب من النموذج العمل من الذاكرة أصلاً.
الخطوة الموثوقة هي التثبيت على مصادر: استرجع نص المصدر المناسب، وقدمه للنموذج، واطلب منه الإجابة من ذلك النص والاستشهاد به. هذا هو RAG، وهو بالضبط سبب أن نتائج تلخيص Vectara تبدو أفضل بكثير من PersonQA. كلاهما يستخدم الخدعة نفسها: النموذج يحصل على المصدر. إذا كنت تفاضل بين استرجاع المصادر أو إدخال المعرفة في الأوزان، فتحليل benchr حول RAG مقابل الضبط الدقيق يشرح متى يستحق كل منهما مكانه. في معظم أعباء العمل الواقعية، يفوز الاسترجاع لأنه يعرض عمله.
ثلاث قواعد تجعل التثبيت يصمد. أولاً، استثمر في جودة الاسترجاع وإعادة الترتيب والبحث الهجين، لأن دقة النموذج لا تتجاوز دقة المقاطع التي تطعمه إياها. ثانياً، وجّهه بوضوح: إذا لم تكن الإجابة في المصادر المقدمة، فقل «لا أعرف» بدلاً من سد الفجوة. ثالثاً، أضف تمريرة تحقق تقارن المخرجات بالمصادر قبل أن يثق بها أحد. تساعد الاستشهادات هنا لأنها تتيح للقارئ تدقيق الادعاء، لكن وجود استشهاد بجانب جملة لا يثبت أن الجملة صحيحة. تجاوز التمريرة يعني أنك تثق بحاشية لم تتحقق منها.
ملاحظة عملية أخرى، لأنها تعمل في الاتجاه الآخر أيضاً. التثبيت نفسه الذي يقلل الحقائق المختلقة هو ما يجعل صفحاتك مقتبسة في المساعدات، لأن الاسترجاع هو الطريقة التي تقرر بها تلك الأنظمة ما ستسحبه. إذا كان ذلك هدفاً، فدليل benchr إلى الحصول على استشهاد داخل إجابات الذكاء الاصطناعي هو المقالة المرافقة. الصفحات الواضحة جيدة المصادر أسهل على النموذج أن يتثبت عليها، وهذا جيد للدقة والظهور في الوقت نفسه.
إذن، هل عولجت أم لا؟
لم تُحل. أصبحت أفضل في مواضع، وأسوأ مما يوحي به الضجيج في مواضع أخرى. التقدم حقيقي: النماذج الرائدة مع بحث الويب ترتكب أخطاء واقعية أقل بكثير من أسلافها قبل عام، والتلخيص المثبت على مصادر قريب من مهمة محلولة. الفجوة في الاستدعاء المفتوح، حيث يمكن حتى لنماذج استدلال حديثة أن تتذبذب بقوة، وحيث ما زالت طريقة التسجيل في المجال تكافئ التخمين الواثق بهدوء. اشترِ على هذا الأساس. ثبّت أعباء العمل الواقعية على مصادر، وافرض الامتناع، وتحقق من المخرجات، ولا تكرر أبداً رقماً واحداً من نوع «معدل الهلوسة X%» من دون ذكر المهمة التي جاء منها.
الأسئلة الشائعة
هل عولجت هلوسات الذكاء الاصطناعي في 2026؟
لا. أفضل النماذج أصبحت أكثر التزاماً بالمصادر بكثير من السابق. في لوحة Vectara لاختبار تلخيص المستندات، المحدثة في 11 مايو 2026، يهلس النموذج الأول بنسبة 1.8% فقط. لكن هذا اختبار ضيق لتلخيص نص مقدم للنموذج. في الأسئلة الواقعية المفتوحة تكون معدلات الخطأ أعلى بكثير، وتجادل ورقة OpenAI المنشورة في سبتمبر 2025 بأن المشكلة لم تُحل لأن التقييمات ما زالت تكافئ التخمين الواثق أكثر من الاعتراف بعدم اليقين.
أي نموذج ذكاء اصطناعي يهلس بأقل معدل الآن؟
في لوحة Vectara الحالية للهلوسة يتصدر finix_s1_32b من Ant Group بنسبة 1.8%، يليه gpt-5.4-nano من OpenAI بنسبة 3.1%، ثم gemini-2.5-flash-lite من Google بنسبة 3.3%. لكن القيد مهم: هذا يقيس فقط مدى أمانة النموذج في تلخيص مستند تقدمه له، لا مدى صحة معلوماته العامة. في النسخة الأقدم والأقصر من الاختبار وصل Gemini-2.0-Flash إلى 0.7%.
هل تهلس نماذج الاستدلال أكثر من النماذج الأقدم؟
ليس دائماً. في بطاقة نظام o3 وo4-mini من OpenAI نفسها، هلست نماذج الاستدلال الأحدث أكثر في معيار PersonQA الواقعي: حقق o1 نسبة 16%، وقفز o3 إلى 33%، ووصل o4-mini إلى 48%. قالت OpenAI إن الأمر يحتاج إلى مزيد من البحث وقدمت تفسيراً جزئياً فقط، وهو أن o3 يقدم ادعاءات أكثر عموماً. لاحقاً عكس GPT-5 الاتجاه: GPT-5-thinking ينتج أخطاء واقعية أقل من o3 بأكثر من 5 مرات وفق بطاقة نظام GPT-5.
هل يوقف RAG الهلوسة؟
يقللها، لكنه لا ينهيها. تثبيت النموذج على نصوص مصادر مسترجعة، ثم إلزامه بالاستشهاد بالمستندات وقول «لا أعرف» عندما لا تكون الإجابة موجودة، يبقيه داخل السياق المقدم بدلاً من التخمين من الذاكرة. لذلك أيضاً تحقق النماذج نتائج أفضل بكثير في اختبار التلخيص من Vectara مقارنة بالأسئلة الواقعية المفتوحة: لأنها تحصل على المصدر مسبقاً. الاستشهادات تسمح للمستخدمين بتدقيق الإجابات، لكنها لا تضمن أن الإجابة صحيحة.
كيف تقلل هلوسات الذكاء الاصطناعي؟
ثبّت النموذج على نصوص مصادر مسترجعة، واطلب منه الاستشهاد بتلك النصوص، ووجّهه إلى الامتناع عندما لا تكون الإجابة في المصادر. أضف تمريرة تحقق على المخرجات قبل الوثوق بها. تحسين الاسترجاع وإعادة الترتيب والبحث الهجين يرفع جودة ما يقرأه النموذج، وهذا هو العامل الذي يحرك معدل الخطأ فعلاً.
سجل التغييرات
- 30 مايو 2026 — نُشر أول مرة. تم التحقق من أرقام لوحة Vectara، ومعدلات بطاقات نظام PersonQA، وادعاءات GPT-5 عن الأخطاء النسبية، وحجة «Why Language Models Hallucinate» مقابل المصادر المسماة أدناه.
المراجع
- Vectara, "Hallucination Leaderboard," github.com, آخر تحديث 11 مايو 2026، اطُّلع عليه في مايو 2026.
- AIbase, "Vectara Hallucination Leaderboard (HHEM-2.1) original dataset," aibase.com, اطُّلع عليه في مايو 2026.
- OpenAI, "o3 and o4-mini System Card," April 16, 2025, cdn.openai.com, اطُّلع عليه في مايو 2026.
- Simon Willison, "OpenAI o3 and o4-mini System Card," simonwillison.net, اطُّلع عليه في مايو 2026.
- OpenAI, "GPT-5 System Card," August 13, 2025, cdn.openai.com, اطُّلع عليه في مايو 2026.
- A. Kalai, O. Nachum, S. Vempala, E. Zhang, "Why Language Models Hallucinate," openai.com, سبتمبر 2025، اطُّلع عليه في مايو 2026.
- A. Kalai, O. Nachum, S. Vempala, E. Zhang, "Why Language Models Hallucinate," arXiv 2509.04664, arxiv.org, اطُّلع عليه في مايو 2026.
- Towards Data Science, "5 Techniques to Prevent Hallucinations in Your RAG Question Answering," towardsdatascience.com, اطُّلع عليه في مايو 2026.