أربعة نماذج صوت إنتاجية شُغلت على نصوص الاختبار العربية والإنجليزية نفسها مع أرقام كمون جنباً إلى جنب. السباق أقرب مما يجعله التسويق يبدو.
اختر مكدس الصوت من هذه النماذج الإنتاجية الأربعة الجادة. الاختيارات أدناه تخبرك أي نموذج ينتمي إلى أي مسار في تطبيقك.
انحصر سوق الصوت بالذكاء الاصطناعي في 2026 تقريباً في أربعة لاعبين جادين، مع ذيل طويل من مزودين متخصصين. تغطي هذه المقالة الأربعة عبر أربع مهام محددة: سرد إنجليزي لفقرة تقنية، وسرد عربي لنص مساعدة بالفصحى، وكمون محادثة في الوقت الحقيقي من اتصال منزلي عادي، وجودة استنساخ الصوت. نموذج الصوت المناسب لعبء عملك يعتمد بالكامل على ما تشحنه، وأي تطبيق صوت جاد تبنيه سيستفيد من تشغيل مزودين لا واحد.
المختبرون: ElevenLabs v3، وWhisper Large V3 (لاستخدامه في جانب التعرّف)، ونموذج الصوت الكامل من OpenAI (Realtime API مع صوت داخل وخارج أصلي)، وCartesia Sonic (نموذج تحويل النص إلى كلام منخفض الكمون الذي يجذب انتباه الإنتاج). البدائل مفتوحة المصدر (Bark وOpenVoice وسلالة Coqui) غير مشمولة. لا يقترب أي منها من جودة الإنتاج في الجانب العربي.
الافتراض المعقول قبل الدخول هو أن ElevenLabs يفوز بكل فئة. جودة الصوت كانت المعيار الذهبي لعامين. لكن محور الكمون يذهب إلى Cartesia بهامش واسع يكفي لتغيير التوصية: للاستخدام في الوقت الحقيقي، يكون زمن أول رمز في ElevenLabs عند 380ms بطيئاً جداً مهما بدا الصوت جيداً.
السرد بالإنجليزية
لمسارات السرد، الخيار هو ElevenLabs v3. الإيقاع هو الأفضل في المجال. يفهم التشديد على مستوى الجملة، ويتعامل مع الحذف والاستطرادات بين قوسين بوقفات مناسبة، وجودة الصوت في طبقته العليا تكاد لا تُميز عن الإنسان في المقاطع القصيرة. كان كمون أول صوت 380 ms، وهو مرتفع نسبياً لكنه مقبول لاستخدام السرد.
نموذج الصوت من OpenAI هو خيارك الثاني. جودة الصوت ممتازة. ملمسه مختلف قليلاً عن ElevenLabs، وأدفأ إلى حد ما في الترددات المنخفضة. الكمون أفضل بكثير عند نحو 240 ms لأول صوت. نطق المصطلحات التقنية (CPU وGPU وأسماء التعريفات والاختصارات) كان يخطئ أحياناً بطرق أصابها ElevenLabs.
ينتج Cartesia Sonic مخرجاً بصوت مختلف؛ أنت تستبدل بعض الطبيعية بفوز الكمون. إيقاعه أكثر تسطحاً من ElevenLabs، لكنه يملك أقل كمون في المجال عند نحو 130 ms. جودة الصوت كافية للإنتاج، لكن المستمع يستطيع بعد بضع جمل أن يشعر أن شيئاً في الإيقاع غير مضبوط.
ما إذا كانت فجوة الطبيعية في Cartesia ستغلق مع تدريب النموذج على بيانات أكثر، أو أنها اختلاف معماري جوهري عن طريقة ElevenLabs في التعامل مع الإيقاع، سؤال مفتوح لا تستطيع التقارير العامة حسمه بعد.
نقطة عدم يقين واحدة: موافقة استنساخ الصوت. القدرة التقنية لاستنساخ الصوت سبقت بنية الموافقة. لا تقدم هذه المقالة توصية سياساتية؛ ينبغي أن يكون الافتراض العملي في الإنتاج أن النظام القانوني سيشتد، وربما بأثر رجعي. ابنِ تدفق الموافقة داخل تطبيقك الآن.
السرد بالعربية
أضاف ElevenLabs v3 دعم العربية في نوفمبر 2025، والجودة جيدة للعربية الفصحى. النطق دقيق، والإيقاع يحترم نسق الجملة العربية، وخيارات الصوت تشمل متحدثين ومتحدثات يبدون أصليين في المقاطع القصيرة.
يتحدث نموذج الصوت من OpenAI العربية بلكنة واضحة. يبدو كمتحدث إنجليزية تعلم العربية جيداً لا كمتحدث أصلي. لجمهور سعودي، هذا يظهر فوراً. نطق حروف محددة (الحروف المفخمة، والفرق بين الهاء والخاء) يختل أحياناً بطرق تغير الكلمة بالكامل.
أضيف دعم العربية في Cartesia في مارس 2026 وهو جيد للفصحى، لكنه لا يتعامل جيداً مع اللهجات بعد. عند طلب سرد جملة تسويقية قصيرة بنكهة خليجية، عاد المخرج إلى نطق مشفر بالفصحى. تجاوز Cartesia إذا كان جمهورك يتحدث باللهجة.
يتعامل Whisper Large V3 جيداً مع التعرّف على العربية. هو أكثر دقة في العربية الفصحى، وتصبح الدقة أكثر تذبذباً كلما انتقلت إلى اللهجات المنطوقة. الخليجية والمصرية تُفرغان بنظافة أقل من الفصحى، وهذا هو النمط المعتاد للنماذج المدربة غالباً على نص موحد. أدوات التعرّف الأخرى (Deepgram وAssemblyAI) تقع في منطقة مشابهة في العربية، لذلك Whisper افتراضي آمن لجانب التعرّف في مكدسك. اختبره على مزيج لهجاتك قبل الالتزام. للمزيد عن تعامل النماذج مع العربية عموماً، راجع الذكاء الاصطناعي للمحتوى العربي.
في معظم أعمال الصوت الإنتاجية، تكون النماذج العليا أقرب مما يوحي التسويق، والمواضع القليلة التي تتباعد فيها هي التي تحدد معماريتك.
كمون المحادثة في الوقت الحقيقي
أهم مقياس لأي حالة تفاعلية تبنيها. الأرقام أدناه من النهاية إلى النهاية، من انتهاء كلام المستخدم إلى بداية كلام النموذج، مقاسة عبر اتصال منزلي مستقر في مدينة خليجية كبرى.
| المكدس | كمون P50 | كمون P95 | الاستقرار |
|---|---|---|---|
| Cartesia Sonic (تحويل نص إلى كلام فقط) | 130 ms | 180 ms | ممتاز |
| OpenAI Realtime API | 240 ms | 410 ms | جيد |
| بث ElevenLabs v3 | 380 ms | 620 ms | جيد |
| خط مخصص (Whisper ← LLM ← ElevenLabs) | 900 ms | 1,400 ms | متغير |
الخط المخصص هو خط الأساس الواقعي إذا كنت تبني وكيل صوتك بنفسك. هذا ما يحدث عندما تُسلسل التفريغ وLLM وTTS واحداً بعد الآخر. حلول المكدس الكامل أسرع بكثير مما ستبنيه لأنها توازي الخطوات وتبدأ توليد الصوت قبل اكتمال استجابة LLM.
للاستخدام الحواري في تطبيقك، أي شيء فوق 500 ms يشعر المستخدم بالبطء. وأي شيء فوق 800 ms يبدو معطوباً. Realtime API وCartesia هما الخياران الوحيدان اللذان يبقيان تحت العتبة براحة. يمكنك تحسين خط مخصص لينافس، لكن مضاهاة الحلول الأصلية تتطلب جهداً هندسياً جدياً لن تستثمره معظم الفرق.
استنساخ الصوت
سُجلت عينة من 90 ثانية لصوت إنسان واحد يقرأ نصاً إخبارياً بالفصحى. رُفعت العينة إلى ElevenLabs وإلى ميزة استنساخ الصوت في OpenAI، وولد كل نموذج فقرة مدتها دقيقة بالصوت المستنسخ. شُغّل الأصل والنسختان المستنسختان لثلاثة مستمعين يعرفون صوت المتحدث جيداً، بترتيب عشوائي، مع سؤال: أيها الحقيقي؟
أنتج ElevenLabs نسخاً خلط اثنان من المستمعين الثلاثة بينها وبين الأصل. كان المستمع الثالث صحيحاً، لكنه قال إن الدليل اختلاف دقيق في طريقة تشديد المتحدث لبعض الحروف. علامة لم يكن سيلاحظها أحد لا يعرف أنماط كلام المتحدث مسبقاً.
استطاع المستمعون الثلاثة تحديد استنساخ OpenAI على أنه ليس الأصل، رغم أنهم لم يستطيعوا شرح الفرق بوضوح. كان الصوت قريباً، لكن الملمس كان اصطناعياً قليلاً بطريقة حلها ElevenLabs.
استنساخ الصوت في Cartesia لا يزال في beta ولم يُقيّم انتظاراً للإصدار الإنتاجي. أنتجت النسخة المبكرة نسخاً مقنعة بمدى عاطفي أضيق من الإدخال. واعدة، لكنها ليست نهائية بعد.
الآثار الأخلاقية لاستنساخ صوت بهذه الجودة حقيقية وليست ضمن نطاق هذه المراجعة. إذا كنت تبني بهذه التقنية، تحتاج ميزتك إلى قصة موافقة ووسم مائي قبل الشحن. تجاهل ذلك وأنت تهيئ نفسك لحادثة.
التسعير حتى أبريل 2026
يتقاضى ElevenLabs نحو $0.30 لكل دقيقة صوت مولدة في الطبقة القياسية، وينخفض إلى نحو $0.15 لكل دقيقة في طبقة الحجم العالي، وفق صفحة أسعار ElevenLabs. يعمل OpenAI Realtime API حول $0.06 لكل دقيقة إدخال صوتي و$0.24 لكل دقيقة إخراج صوتي، وفق أسعار API من OpenAI. Cartesia هو الأرخص عند نحو $0.04 لكل دقيقة مولدة، مع خصومات حجم تهبط أكثر. Whisper للتفريغ حول $0.006 لكل دقيقة، وهو رخيص بما يكفي لأن تكون تكلفة جانب التعرّف غالباً خطأ تقريب مقارنة بالتركيب. لسياق تكلفة أوسع عبر الأعباء، راجع السعر حسب حالة الاستخدام.
إذا كانت ميزة الصوت لديك تعمل ألف دقيقة يومياً، فإن فرق التكلفة الشهرية بين ElevenLabs وCartesia يقارب $9,000 مقابل $1,200. ينبغي لهذا الرقم أن يدخل في قرار المعمارية.
ElevenLabs v3
Narration Highest quality, $0.30/minWhisper Large V3
ASR Recognition, $0.006/minOpenAI Realtime
Chat Mid-tier, full-stackCartesia Sonic
Real-time Lowest latency, $0.04/minجملة ستُقرأ بصوت مسموع.
النموذج الصوتي يقرر التوقيت والتشديد.
تُولد مقاطع الصوت أثناء معالجة النص.
يسمع المستخدم أول صوت خلال 78-400 ms.
تقسيم المكدس مجدٍ
المعمارية الصحيحة لعمل صوت جاد في 2026 تشغّل مزودين لا واحداً.
لمساراتك الحساسة للكمون (المحادثة في الوقت الحقيقي، ووكلاء الصوت، وأي شيء ينتظر فيه المستخدم الرد)، استخدم Cartesia Sonic في جانب التركيب وWhisper Large V3 في جانب التعرّف. تحقق التركيبة رحلة كاملة دون 300 ms على اتصال عادي، وتكلف أقل بمرتبة حجم من البدائل، وتنتج جودة صوت كافية للاستخدام التفاعلي.
لمسارات السرد (الكتب الصوتية، والمحتوى المنطوق الطويل، والبودكاست المسجل) استخدم ElevenLabs v3. فرق الجودة مسموع بعد بضع جمل، والكمون لا يهم عندما يُشغّل الصوت لاحقاً.
لمساراتك متعددة اللغات حيث الجمهور المستهدف عربي، يتعامل ElevenLabs مع الفصحى بما يكفي لشحن محتوى عالي الجودة. ويتعامل Cartesia مع الفصحى بما يكفي لشحن محتوى نفعي. لا يتعامل أي منهما مع اللهجة بمستوى متحدث أصلي. إذا كان العمل اللهجي مهماً لجمهورك، فضع ميزانية لموهبة صوتية بشرية.
نضج سوق الصوت بالذكاء الاصطناعي إلى درجة أصبح فيها اختيار المزود قرار معمارية لا قرار جودة فقط. كل لاعب جاد من الأربعة يناسب عبء عمل مختلفاً ويقصر في الباقي. أكثر خطأ ترتكبه الفرق في 2026 هو اختيار مزود واحد لكل شيء (غالباً ElevenLabs بسبب معرفة الاسم) وتحمل عقوبة الكمون أو التكلفة بدلاً من تقسيم المكدس عبر مسارات تطبيقك.
إذا كنت تبني ميزات صوتية في العام المقبل، فصمم نظامك ليدعم عدة مزودين من البداية. غلّف طبقات التركيب والتعرّف خلف واجهات نظيفة. استخدم النموذج الصحيح لكل مسار.
معظم النشرات الإنتاجية التي ستصادفها تعتمد على ElevenLabs للسرد وWhisper للتعرّف، مع Cartesia لمسارات الوقت الحقيقي. اختر ما يناسب كل مهمة؛ فرق التكلفة أكبر من أن تشغّل أداة واحدة لكل شيء.