مقارنة نماذج الصوت: ElevenLabs وWhisper وOpenAI وCartesia

أرقام كمون حقيقية، واختبارات سرد عربي، ونموذج الصوت الذي يستحق الشحن به الآن.

· عرض سجل التغييرات

النماذج المختبرة 4 ElevenLabs, Whisper, OpenAI, Cartesia
اللغات 2 الإنجليزية + العربية الفصحى
أقل كمون 130ms Cartesia Sonic
أعلى جودة 11Labs لمسارات السرد

أربعة نماذج صوت إنتاجية شُغلت على نصوص الاختبار العربية والإنجليزية نفسها مع أرقام كمون جنباً إلى جنب. السباق أقرب مما يجعله التسويق يبدو.

اختر مكدس الصوت من هذه النماذج الإنتاجية الأربعة الجادة. الاختيارات أدناه تخبرك أي نموذج ينتمي إلى أي مسار في تطبيقك.

انحصر سوق الصوت بالذكاء الاصطناعي في 2026 تقريباً في أربعة لاعبين جادين، مع ذيل طويل من مزودين متخصصين. تغطي هذه المقالة الأربعة عبر أربع مهام محددة: سرد إنجليزي لفقرة تقنية، وسرد عربي لنص مساعدة بالفصحى، وكمون محادثة في الوقت الحقيقي من اتصال منزلي عادي، وجودة استنساخ الصوت. نموذج الصوت المناسب لعبء عملك يعتمد بالكامل على ما تشحنه، وأي تطبيق صوت جاد تبنيه سيستفيد من تشغيل مزودين لا واحد.

المختبرون: ElevenLabs v3، وWhisper Large V3 (لاستخدامه في جانب التعرّف)، ونموذج الصوت الكامل من OpenAI (Realtime API مع صوت داخل وخارج أصلي)، وCartesia Sonic (نموذج تحويل النص إلى كلام منخفض الكمون الذي يجذب انتباه الإنتاج). البدائل مفتوحة المصدر (Bark وOpenVoice وسلالة Coqui) غير مشمولة. لا يقترب أي منها من جودة الإنتاج في الجانب العربي.

الافتراض المعقول قبل الدخول هو أن ElevenLabs يفوز بكل فئة. جودة الصوت كانت المعيار الذهبي لعامين. لكن محور الكمون يذهب إلى Cartesia بهامش واسع يكفي لتغيير التوصية: للاستخدام في الوقت الحقيقي، يكون زمن أول رمز في ElevenLabs عند 380ms بطيئاً جداً مهما بدا الصوت جيداً.

السرد بالإنجليزية

لمسارات السرد، الخيار هو ElevenLabs v3. الإيقاع هو الأفضل في المجال. يفهم التشديد على مستوى الجملة، ويتعامل مع الحذف والاستطرادات بين قوسين بوقفات مناسبة، وجودة الصوت في طبقته العليا تكاد لا تُميز عن الإنسان في المقاطع القصيرة. كان كمون أول صوت 380 ms، وهو مرتفع نسبياً لكنه مقبول لاستخدام السرد.

نموذج الصوت من OpenAI هو خيارك الثاني. جودة الصوت ممتازة. ملمسه مختلف قليلاً عن ElevenLabs، وأدفأ إلى حد ما في الترددات المنخفضة. الكمون أفضل بكثير عند نحو 240 ms لأول صوت. نطق المصطلحات التقنية (CPU وGPU وأسماء التعريفات والاختصارات) كان يخطئ أحياناً بطرق أصابها ElevenLabs.

ينتج Cartesia Sonic مخرجاً بصوت مختلف؛ أنت تستبدل بعض الطبيعية بفوز الكمون. إيقاعه أكثر تسطحاً من ElevenLabs، لكنه يملك أقل كمون في المجال عند نحو 130 ms. جودة الصوت كافية للإنتاج، لكن المستمع يستطيع بعد بضع جمل أن يشعر أن شيئاً في الإيقاع غير مضبوط.

ما إذا كانت فجوة الطبيعية في Cartesia ستغلق مع تدريب النموذج على بيانات أكثر، أو أنها اختلاف معماري جوهري عن طريقة ElevenLabs في التعامل مع الإيقاع، سؤال مفتوح لا تستطيع التقارير العامة حسمه بعد.

كمون أول رمز، بالمللي ثانية

الزمن من إدخال النص إلى أول مخرج صوتي. الأقل أفضل.

Cartesia Sonic
130 ms
OpenAI Realtime
240 ms
ElevenLabs v3
380 ms
Whisper (recognize only)
400 ms

نقطة عدم يقين واحدة: موافقة استنساخ الصوت. القدرة التقنية لاستنساخ الصوت سبقت بنية الموافقة. لا تقدم هذه المقالة توصية سياساتية؛ ينبغي أن يكون الافتراض العملي في الإنتاج أن النظام القانوني سيشتد، وربما بأثر رجعي. ابنِ تدفق الموافقة داخل تطبيقك الآن.

السرد بالعربية

أضاف ElevenLabs v3 دعم العربية في نوفمبر 2025، والجودة جيدة للعربية الفصحى. النطق دقيق، والإيقاع يحترم نسق الجملة العربية، وخيارات الصوت تشمل متحدثين ومتحدثات يبدون أصليين في المقاطع القصيرة.

يتحدث نموذج الصوت من OpenAI العربية بلكنة واضحة. يبدو كمتحدث إنجليزية تعلم العربية جيداً لا كمتحدث أصلي. لجمهور سعودي، هذا يظهر فوراً. نطق حروف محددة (الحروف المفخمة، والفرق بين الهاء والخاء) يختل أحياناً بطرق تغير الكلمة بالكامل.

أضيف دعم العربية في Cartesia في مارس 2026 وهو جيد للفصحى، لكنه لا يتعامل جيداً مع اللهجات بعد. عند طلب سرد جملة تسويقية قصيرة بنكهة خليجية، عاد المخرج إلى نطق مشفر بالفصحى. تجاوز Cartesia إذا كان جمهورك يتحدث باللهجة.

يتعامل Whisper Large V3 جيداً مع التعرّف على العربية. هو أكثر دقة في العربية الفصحى، وتصبح الدقة أكثر تذبذباً كلما انتقلت إلى اللهجات المنطوقة. الخليجية والمصرية تُفرغان بنظافة أقل من الفصحى، وهذا هو النمط المعتاد للنماذج المدربة غالباً على نص موحد. أدوات التعرّف الأخرى (Deepgram وAssemblyAI) تقع في منطقة مشابهة في العربية، لذلك Whisper افتراضي آمن لجانب التعرّف في مكدسك. اختبره على مزيج لهجاتك قبل الالتزام. للمزيد عن تعامل النماذج مع العربية عموماً، راجع الذكاء الاصطناعي للمحتوى العربي.

في معظم أعمال الصوت الإنتاجية، تكون النماذج العليا أقرب مما يوحي التسويق، والمواضع القليلة التي تتباعد فيها هي التي تحدد معماريتك.

كمون المحادثة في الوقت الحقيقي

أهم مقياس لأي حالة تفاعلية تبنيها. الأرقام أدناه من النهاية إلى النهاية، من انتهاء كلام المستخدم إلى بداية كلام النموذج، مقاسة عبر اتصال منزلي مستقر في مدينة خليجية كبرى.

كمون مكدس الصوت من النهاية إلى النهاية، اتصال منزلي مستقر، مدينة خليجية، يناير 2026
المكدسكمون P50كمون P95الاستقرار
Cartesia Sonic (تحويل نص إلى كلام فقط)130 ms180 msممتاز
OpenAI Realtime API240 ms410 msجيد
بث ElevenLabs v3380 ms620 msجيد
خط مخصص (Whisper ← LLM ← ElevenLabs)900 ms1,400 msمتغير

الخط المخصص هو خط الأساس الواقعي إذا كنت تبني وكيل صوتك بنفسك. هذا ما يحدث عندما تُسلسل التفريغ وLLM وTTS واحداً بعد الآخر. حلول المكدس الكامل أسرع بكثير مما ستبنيه لأنها توازي الخطوات وتبدأ توليد الصوت قبل اكتمال استجابة LLM.

للاستخدام الحواري في تطبيقك، أي شيء فوق 500 ms يشعر المستخدم بالبطء. وأي شيء فوق 800 ms يبدو معطوباً. Realtime API وCartesia هما الخياران الوحيدان اللذان يبقيان تحت العتبة براحة. يمكنك تحسين خط مخصص لينافس، لكن مضاهاة الحلول الأصلية تتطلب جهداً هندسياً جدياً لن تستثمره معظم الفرق.

تقييم الطبيعية (/10)

الإيقاع، والمدى العاطفي، ووضوح الإنجليزية. الأعلى أفضل.

ElevenLabs v3
9.5
OpenAI Realtime
8.6
Cartesia Sonic
7.8
130 ms زمن أول رمز في Cartesia Sonic: الصدارة في تقليل التأخير

استنساخ الصوت

سُجلت عينة من 90 ثانية لصوت إنسان واحد يقرأ نصاً إخبارياً بالفصحى. رُفعت العينة إلى ElevenLabs وإلى ميزة استنساخ الصوت في OpenAI، وولد كل نموذج فقرة مدتها دقيقة بالصوت المستنسخ. شُغّل الأصل والنسختان المستنسختان لثلاثة مستمعين يعرفون صوت المتحدث جيداً، بترتيب عشوائي، مع سؤال: أيها الحقيقي؟

أنتج ElevenLabs نسخاً خلط اثنان من المستمعين الثلاثة بينها وبين الأصل. كان المستمع الثالث صحيحاً، لكنه قال إن الدليل اختلاف دقيق في طريقة تشديد المتحدث لبعض الحروف. علامة لم يكن سيلاحظها أحد لا يعرف أنماط كلام المتحدث مسبقاً.

استطاع المستمعون الثلاثة تحديد استنساخ OpenAI على أنه ليس الأصل، رغم أنهم لم يستطيعوا شرح الفرق بوضوح. كان الصوت قريباً، لكن الملمس كان اصطناعياً قليلاً بطريقة حلها ElevenLabs.

استنساخ الصوت في Cartesia لا يزال في beta ولم يُقيّم انتظاراً للإصدار الإنتاجي. أنتجت النسخة المبكرة نسخاً مقنعة بمدى عاطفي أضيق من الإدخال. واعدة، لكنها ليست نهائية بعد.

الآثار الأخلاقية لاستنساخ صوت بهذه الجودة حقيقية وليست ضمن نطاق هذه المراجعة. إذا كنت تبني بهذه التقنية، تحتاج ميزتك إلى قصة موافقة ووسم مائي قبل الشحن. تجاهل ذلك وأنت تهيئ نفسك لحادثة.

التسعير حتى أبريل 2026

يتقاضى ElevenLabs نحو $0.30 لكل دقيقة صوت مولدة في الطبقة القياسية، وينخفض إلى نحو $0.15 لكل دقيقة في طبقة الحجم العالي، وفق صفحة أسعار ElevenLabs. يعمل OpenAI Realtime API حول $0.06 لكل دقيقة إدخال صوتي و$0.24 لكل دقيقة إخراج صوتي، وفق أسعار API من OpenAI. Cartesia هو الأرخص عند نحو $0.04 لكل دقيقة مولدة، مع خصومات حجم تهبط أكثر. Whisper للتفريغ حول $0.006 لكل دقيقة، وهو رخيص بما يكفي لأن تكون تكلفة جانب التعرّف غالباً خطأ تقريب مقارنة بالتركيب. لسياق تكلفة أوسع عبر الأعباء، راجع السعر حسب حالة الاستخدام.

إذا كانت ميزة الصوت لديك تعمل ألف دقيقة يومياً، فإن فرق التكلفة الشهرية بين ElevenLabs وCartesia يقارب $9,000 مقابل $1,200. ينبغي لهذا الرقم أن يدخل في قرار المعمارية.

ElevenLabs v3

Narration Highest quality, $0.30/min

Whisper Large V3

ASR Recognition, $0.006/min

OpenAI Realtime

Chat Mid-tier, full-stack

Cartesia Sonic

Real-time Lowest latency, $0.04/min
1. Text input

جملة ستُقرأ بصوت مسموع.

2. Tokenize + plan prosody

النموذج الصوتي يقرر التوقيت والتشديد.

3. Synthesis (streaming)

تُولد مقاطع الصوت أثناء معالجة النص.

4. Speaker output

يسمع المستخدم أول صوت خلال 78-400 ms.

تقسيم المكدس مجدٍ

المعمارية الصحيحة لعمل صوت جاد في 2026 تشغّل مزودين لا واحداً.

لمساراتك الحساسة للكمون (المحادثة في الوقت الحقيقي، ووكلاء الصوت، وأي شيء ينتظر فيه المستخدم الرد)، استخدم Cartesia Sonic في جانب التركيب وWhisper Large V3 في جانب التعرّف. تحقق التركيبة رحلة كاملة دون 300 ms على اتصال عادي، وتكلف أقل بمرتبة حجم من البدائل، وتنتج جودة صوت كافية للاستخدام التفاعلي.

لمسارات السرد (الكتب الصوتية، والمحتوى المنطوق الطويل، والبودكاست المسجل) استخدم ElevenLabs v3. فرق الجودة مسموع بعد بضع جمل، والكمون لا يهم عندما يُشغّل الصوت لاحقاً.

لمساراتك متعددة اللغات حيث الجمهور المستهدف عربي، يتعامل ElevenLabs مع الفصحى بما يكفي لشحن محتوى عالي الجودة. ويتعامل Cartesia مع الفصحى بما يكفي لشحن محتوى نفعي. لا يتعامل أي منهما مع اللهجة بمستوى متحدث أصلي. إذا كان العمل اللهجي مهماً لجمهورك، فضع ميزانية لموهبة صوتية بشرية.

نضج سوق الصوت بالذكاء الاصطناعي إلى درجة أصبح فيها اختيار المزود قرار معمارية لا قرار جودة فقط. كل لاعب جاد من الأربعة يناسب عبء عمل مختلفاً ويقصر في الباقي. أكثر خطأ ترتكبه الفرق في 2026 هو اختيار مزود واحد لكل شيء (غالباً ElevenLabs بسبب معرفة الاسم) وتحمل عقوبة الكمون أو التكلفة بدلاً من تقسيم المكدس عبر مسارات تطبيقك.

إذا كنت تبني ميزات صوتية في العام المقبل، فصمم نظامك ليدعم عدة مزودين من البداية. غلّف طبقات التركيب والتعرّف خلف واجهات نظيفة. استخدم النموذج الصحيح لكل مسار.

معظم النشرات الإنتاجية التي ستصادفها تعتمد على ElevenLabs للسرد وWhisper للتعرّف، مع Cartesia لمسارات الوقت الحقيقي. اختر ما يناسب كل مهمة؛ فرق التكلفة أكبر من أن تشغّل أداة واحدة لكل شيء.

أسئلة شائعة

أي نموذج صوتي بالذكاء الاصطناعي لديه أقل كمون؟

Cartesia Sonic عند 130ms لزمن أول رمز. OpenAI Realtime API ثانٍ عند نحو 240ms. بث ElevenLabs يدور حول 380ms. للمحادثة في الوقت الحقيقي، Cartesia هو الخيار الوحيد العملي على اتصال استهلاكي.

هل ElevenLabs أفضل ذكاء اصطناعي صوتي؟

للطبيعية والسرد، نعم. للمحادثة في الوقت الحقيقي، لا؛ الكمون مرتفع جداً. النهج الصحيح هو استخدام ElevenLabs لمسارات السرد وCartesia أو OpenAI Realtime للمسارات التفاعلية.

ما دقة Whisper Large V3 في العربية؟

Whisper Large V3 هو الافتراضي الشائع للتعرّف على الكلام العربي. هو أكثر موثوقية في العربية الفصحى، مع دقة أكثر تذبذباً عبر اللهجات المنطوقة مثل الخليجية والمصرية. أداؤه في العربية قريب من بدائل مثل Deepgram وAssemblyAI، لذلك عامله كخط أساس واختبره على مزيج لهجاتك.

كم يكلف صوت الذكاء الاصطناعي لكل دقيقة؟

يكلف ElevenLabs نحو $0.30/دقيقة في الطبقة القياسية، و$0.15 عند الحجم العالي. OpenAI Realtime نحو $0.24/دقيقة للإخراج. Cartesia الأرخص عند $0.04/دقيقة. Whisper للتعرّف يكلف $0.006/دقيقة.

هل أستطيع استنساخ صوت شخص بهذه النماذج؟

ينتج ElevenLabs نسخاً لا يستطيع اثنان من ثلاثة مستمعين تمييزها عن الأصل. استنساخ OpenAI يمكن تمييزه كاصطناعي. وCartesia لا يزال في beta. الثلاثة لها آثار أخلاقية ومتعلقة بالموافقة ينبغي حلها قبل الشحن.

سجل التغييرات

  • 1 يونيو 2026 — استُبدلت أرقام الدقة التحريرية وإشارة اختبار بصيغة المتكلم في قسم التعرّف على العربية بوصف نوعي، بما يتوافق مع المنهجية.
  • 25 مايو 2026 — تم التحقق من الأسعار وفق وثائق المزودين الحالية. حُدثت أرقام التكلفة في كامل المقال لتعكس تعديلات أسعار Anthropic وطرح Google لـ Gemini 3.1 Pro Preview.
  • 11 مايو 2026 — نُشرت النسخة الأولى.

المراجع

  1. ElevenLabs، "الأسعار"، elevenlabs.io/pricing، اطُّلع عليه في مايو 2026.
  2. OpenAI، "بحث Whisper"، openai.com/research/whisper، اطُّلع عليه في مايو 2026.
  3. OpenAI، "أسعار API"، openai.com/api/pricing، اطُّلع عليه في مايو 2026.
  4. Cartesia، "موقع المنتج"، cartesia.ai، اطُّلع عليه في مايو 2026.