تُفوّت معظم مراجعات أداء النماذج الكبرى في العربية الأخطاء بالكامل، لأن المراجعين لا يستطيعون قراءة الناتج بما يكفي لرصدها. القارئ الخليجي يكتشف المؤشرات المصرية في الفقرة الأولى: يشغّل بدلاً من يشتغل، دلوقتي بدلاً من الحين، أسلوب تأدب خاطئ في رد العميل. لا شيء منها خفي على القارئ المناسب. يقرأ هذا المقال النقاش المجتمعي العام (منتدى Arabic-NLP في Hugging Face، وتقارير LMArena المتعلقة باللهجات، ومنتديات المطوّرين التي تُديرها كل مختبرات) لما يفعله كل نموذج حدّي في العمل العربي الموجَّه إلى السوق السعودية.
النماذج الخمسة المُحللة هي Claude Opus 4.7، وGPT-5، وGemini 3.x، وQwen 3 235B MoE، وLlama 4 Maverick. محاور عبء العمل هي: الفصحى، وثلاثة مستويات إقليمية رئيسية (الخليجية، والمصرية، والشامية)، والبريد الإلكتروني السعودي متعدد اللغات. عربية المغرب العربي (المغربية، والجزائرية، والتونسية) مسألة منفصلة وخارج النطاق؛ التغطية هناك أضعف عبر جميع النماذج الخمسة.
لوحة التقييم النوعي
الجدول أدناه ملخص نوعي لا قائمة تصنيف رقمية، لأن أعباء العمل المُقيَّمة لا تمتلك معايير رقمية عامة. التقديرات تعكس توافق النقاش المجتمعي العام عبر منتديات المختبرات نفسها، وزوايا Arabic-NLP في Hugging Face، وتقارير المطوّرين في المجتمع التقني السعودي والخليجي.
| عبء العمل | Claude Opus 4.7 | GPT-5 | Gemini 3.x | Qwen 3 235B | Llama 4 Maverick |
|---|---|---|---|---|---|
| إنجليزي → تسويق خليجي | قوي | انجراف مصري | انجراف للفصحى | قوي | ضعيف |
| رد أعمال بالفصحى | قوي | جيد، نبرة باردة | جيد | جيد | مقبول |
| محاكاة شعرية (مثل درويش) | مقبول | شعور بالترجمة | مقبول | أفضل محاولة | ضعيف |
| ملخص قانون العمل (فصحى) | قوي، تحقق | مقبول | قوي | مقبول | ضعيف |
| مصري → إنجليزي | قوي | قوي | قوي | قوي | مقبول |
| بريد إلكتروني متعدد اللغات | قوي | يُفرط في الترجمة | يُقصّر في الترجمة | مقبول | ضعيف |
الخليجية هي أين تتباين النماذج
أكثر أعباء العمل كشفاً هو نص تسويقي من الإنجليزية إلى الخليجية لجمهور سعودي شاب. النقاش المجتمعي متسق في أن Claude يُنتج ناتجاً يبدو كتبه كاتب إعلانات سعودي: مفردات خليجية الطابع، أسماء المنتجات تُترك بالحروف اللاتينية (وهو ما يكتبها به المستخدمون السعوديون)، إيقاع جملة يتطابق مع اللهجة، مع تحرير خفيف فقط قبل الشحن. Qwen 3 يُنتج شيئاً قريباً بنفس الجودة، مع نبرة شامية طفيفة تتسلل في المخرجات الأطول (بيانات تدريب Qwen موزونة أكثر نحو مصادر شامية من خليجية).
نمط Gemini هو الانجراف نحو الفصحى. حين يكون النموذج غير متأكد من اختيار لهجة، يتراجع إلى مستوى أكثر رسمية من الفصحى، فيخرج الناتج صحيحاً من الناحية التقنية لكن متعثراً أسلوبياً. القارئ الخليجي يُدرك فوراً أن النص كتبه شخص يحاول أن يبدو خليجياً لا شخص هو خليجي فعلاً. GPT-5 ينجرف في الاتجاه الآخر، نحو المصرية: يتخذ من الصياغات والمفردات المصرية خياره الافتراضي حتى حين يُسمّي الأمر جمهوراً خليجياً. الانجراف خفيف بما يكفي لصعوبة التعبير عنه بدون تعرّض لكلا اللهجتين، غير أنه كافٍ لكسر الانغماس للقارئ المقصود. Llama 4 Maverick يُنتج فصحى مع بضع كلمات لهجوية مبعثرة بصرف النظر عن الأمر؛ التدريب اللهجي لم يُفعّل بعد في هذا الفصيل.
الفصحى مسألة شبه محسومة (الفروق في الذوق)
أعباء العمل بالفصحى هي الأكثر تقارباً. كل نموذج في هذه الفئة يُنتج فصحى معاصرة مقبولة. الفروق في النبرة وإيقاع الجملة والاختيارات اللفظية الصغيرة التي تكشف إن كان النص كُتب بيد شخص يتشرب اللغة أم بيد نموذج يُقارب عليها.
في رد دعم أعمال سعودي، يصيب Claude المستوى الصحيح للتأدب والافتتاحية والخاتمة المُصاغة جيداً دون الرسمية المبالغ فيها التي تلجأ إليها بعض النماذج. Qwen وGemini يُنتجان فصحى قوية مع ركاكة أسلوبية طفيفة: صياغة قديمة هنا، اختيار لفظي غير مألوف هناك. لا شيء مُحرج. فصحى GPT-5 صحيحة من الناحية التقنية لكنها باردة في النبرة، ويبدو الصوت مُترجَماً لا أصيلاً. أشكال البنية الإنجليزية تظهر من خلاله، ودروز الخياطة مرئية للقارئ العربي المتأمل.
كل هذه النماذج تعرف الكلمات. ما يُفرّق بينها هو النبرة والإيقاع والتعبير المحلي، وهو الجانب الذي لا يكلف نفسه أي مقياس أداء قياسه.
الكود المختلط هو الاختبار الأصعب
البريد الإلكتروني العربي-الإنجليزي المختلط هو أصعب عبء عمل منفرد لكل نموذج. الكتابة السعودية على الإنترنت تُسقط بشكل اعتيادي أسماء العلامات التجارية والمصطلحات التقنية الإنجليزية، وأحياناً جملاً إنجليزية كاملة، في نصوص عربية في الأساس. الرد الذي يُطابق هذا الأسلوب يعمل؛ التحول إلى الفصحى الرسمية يبدو أصماً.
يتعامل Claude مع هذا بشكل أفضل بحسب تقارير المجتمع. رده يُبدّل بين اللغتين بشكل طبيعي، يُبقي المصطلحات التقنية بالإنجليزية حين يكون ترجمتها مصطنعاً ويلجأ إلى العربية في الأجزاء العاطفية والعلائقية. تميل النماذج الأخرى إلى أحد الطرفين: إما يُكرَه كل شيء للعربية بما في ذلك المصطلحات التقنية، أو يبقى الرد في معظمه إنجليزياً مع بضع عبارات عربية تُلصق كزينة. لا يُطابق أيٌّ من الأسلوبين طريقة الكتابة الفعلية للمستخدمين السعوديين.
الفصحى
Claude أقرب سباق عموماًالخليجية
Claude فجوة واضحة عن GPT-5المصرية
GPT-5 تفضيل بيانات التدريبالشامية
Qwen تقدم في هذا المستوىالكود المختلط
Claude الأفضل في المزيج السعوديالشعر
Qwen أفضل محاولة لمحاكاة الأسلوبفصحى، خليجية، مصرية، شامية. المستوى يُحدد النموذج.
Claude للخليجية والفصحى. Qwen للشامية. GPT-5 للمصرية.
سمّ المدينة والفئة العمرية والنبرة. الإعدادات الافتراضية غير كافية.
لكل نص موجَّه للعملاء، دائماً. لا تتخط هذه الخطوة.
أين لا يزال لا يوجد نموذج موثوق
بعض الفئات تُشكّل عقبة لكل نموذج حدّي، ونشر أي منها دون مراجعة بشرية خطأ.
النصوص القانونية. ملخصات قانون العمل بالفصحى جيدة بما يكفي للصياغة لكن ليس للنشر. مصطلحات بعينها تحمل معاني بعينها؛ الخطأ في رقم مادة أو استبدال مرادف قريب يُغيّر الدلالة القانونية. لا تنشر أي من هذه النماذج في أعمال قانونية عربية دون مراجع قانوني بشري مؤهل.
العربية الكلاسيكية. لا يُتقن أي من النماذج الحدّية العربية الكلاسيكية ما قبل الحديثة كإتقانه للفصحى. اقتباسات من نصوص تراثية وتفسير ديني وكل ما هو بالأسلوب الكلاسيكي: توقع أخطاء جسيمة وخصص ميزانية لمراجعة خبراء.
اللهجات الإقليمية المحددة. الخليجية بحد ذاتها عائلة لهجات. النجدية تختلف عن الحجازية تختلف عن القطرية تختلف عن البحرينية. لا نموذج يُميّز بينها بمستوى يُميّزه المتحدث الأصلي. للنص الذي يحتاج تحديداً نكهة حجازية أو بحرينية، لن تلتقطها النماذج دون أوامر مكثفة وتحرير معمّق.
الاختيار للإنتاج
للعمل العربي في مطلع 2026، الاختيار الافتراضي هو Claude Opus 4.7. يتفوق النموذج في الفصحى والخليجية والكود المختلط على البدائل، وحساسية النبرة هي عادةً ما يُقرر إن كان النص يُشحَن أم يعود للإعادة. تسعير Opus مُغطَّى في مراجعة Opus؛ لدى النموذج المرونة اللازمة للعمل الدقيق في النبرة الذي يحتاجه هذا النوع من المحتوى.
Qwen 3 235B هو الخيار الثاني القوي. إنه الاختيار الصحيح حين تُهم وضوح الترخيص (Apache 2.0) وجمهورك يتحدث إحدى اللهجات في مزيج تدريبه. للعمل الشامي، يتقدم Qwen على Claude في التقارير العامة؛ للخليجية، يحتفظ Claude بالتقدم. مقالة الفئة مفتوحة الأوزان تتناول أين يقع Qwen في المشهد الأشمل، ومقالة النماذج الصغيرة تتناول متى تنتقل إلى نموذج أصغر.
Gemini مناسب للفصحى العامة ويتعثر في اللهجة. GPT-5 يُنتج ناتجاً بنكهة مصرية حتى حين تُحدد الخليجية: لا تستخدمه لجماهير خليجية. Llama 4 Maverick لم يبلغ بعد المستوى المطلوب للعمل العربي الجاد رغم التحسن عن Llama 3. مقالة القدرات متعددة الوسائط تتناول قوة Gemini المنفصلة في العربية على صور المستندات.
للعمل الجاد الموجَّه إلى السوق السعودية، النمط الصامد هو صياغة النص الموجَّه للعملاء بـClaude، ومراجعة مراجع بشري طليق في الخليجية على الناتج، وتخصيص ميزانية لجولة تحرير أعمق مما تحتاجه الإنجليزية. الفجوة بين أفضل نموذج وكاتب أصيل حقيقية، لكنها ضاقت بما يكفي لجعل سير العمل الآن يتفوق على الترجمة من الصفر. Anthropic وAlibaba كلاهما استثمرا بوضوح في العربية، ويتموضعان لسوق نصف مليار شخص يقبل منافسوهم الأقل اهتماماً بتركه على الطاولة.