How much does it cost to run an AI chat product?

On Claude Sonnet 4.6, a typical chat turn (~2K input + 500 output tokens) costs $0.014. For 10,000 daily active users averaging 5 turns each, daily cost runs about $700, or $250K/year before any optimization.

Why do output tokens cost more than input?

Generation is harder than reading — more compute per token. Every model prices output at 3-5× input. Most teams budget around the input side and underestimate the output side, which is where the money goes.

What's the cheapest AI for high-volume work?

For frontier-class quality, GPT-5 Mini at $0.25 input / $2 output per million tokens. For open-weight on a hosted endpoint, Llama 4 Scout at $0.10 / $0.40. For self-hosted, Phi-4 mini at zero marginal cost after hardware.

How much does prompt caching save?

Cached prefix tokens run at ~10% of the standard input rate on Anthropic and Google. For a RAG system with a 5K-token system prompt firing 100,000 times daily, caching saves about $675/day on Opus alone.

How do I cap an AI agent's runaway spending?

Hard token caps per session, wall-clock timeouts, automatic alerts when per-session cost crosses a threshold, and per-day spending limits at the provider level. Turn on Anthropic and OpenAI's usage limits even when they feel overcautious.

مقارنة·مايو 2026

جدول السعر حسب حالة الاستخدام

ما تدفعه للذكاء الاصطناعي في 2026 حسب عبء العمل. أرقام حقيقية مع الحسابات.

تم التحديث في 25 مايو 2026 · عرض سجل التغييرات

حالات الاستخدام المقارنة 6 من المحادثة إلى الوكلاء

أرخص إدخال $0.10 لكل 1M رمز (Llama Scout)

الأغلى $75 لكل 1M إخراج (Claude Opus)

مضاعف الإخراج 3–5× مقابل الإدخال في كل نموذج

"نموذج غالي" و"نموذج رخيص" تصنيفات عديمة الفائدة.

فاتورة مفاجئة من أربعة أرقام من API لنموذج متقدم درس يتعلمه معظم المؤسسين مرة واحدة. لم يكن النموذج هو المشكلة. النموذج نفسه الذي بدا مناسباً في تقدير سريع يمكن أن ينتج تلك الفاتورة عندما يضربه عبء إنتاج حقيقي، لأن تكلفة النموذج المتقدم هي في الحقيقة خاصية لعبء العمل الذي يشغله. أدناه جدول عملي لتكلفة كل شكل عبء عمل، مع الحساب خلف كل سطر.

كل الأسعار أدناه هي الأسعار المنشورة لكل مليون رمز من صفحات التسعير لدى كل مختبر، وتم التحقق منها وفق صفحة أسعار Anthropic وأسعار API من OpenAI وصفحة نماذج Gemini API من Google. الأرقام الدقيقة تتغير كثيراً. أما المفاضلات نفسها فتبقى مستقرة، وهذا النمط هو ما يستحق استيعابه.

النماذج التجارية الخمسة

تسعير النماذج التجارية المتقدمة، مايو 2026، وفق وثائق المزودين
النموذج	الإدخال ($/M)	الإخراج ($/M)	كتابة المخبأ	قراءة المخبأ
Claude Opus 4.7	$5.00	$25.00	$6.25	$0.50
Claude Sonnet 4.6	$3.00	$15.00	$3.75	$0.30
GPT-5	$1.25	$10.00	n/a	$0.125 (auto)
GPT-5 Mini	$0.25	$2.00	n/a	$0.025 (auto)
Gemini 3.1 Pro Preview	$2.00	$12.00	$2.50	$0.20

حقيقتان بنيويتان تشكلان كل ما يلي. مضاعف الإخراج أعلاه واحدة منهما. الأخرى هي تخزين المطالبات مؤقتاً: حيث يوجد، يعمل بنحو عُشر تكلفة الإدخال القياسية، لذلك ينبغي لأي عبء عمل يرسل السياق الطويل نفسه مراراً أن يشغل التخزين المخبأ. في نظام عالي الحجم يتحول الفرق إلى مال حقيقي.

تفترض الأرقام أدناه مطالبات جيدة التكوين من دون تضخم تاريخ المحادثة. في محادثة الإنتاج، يكون أكبر محرك تكلفة مخفي عادة هو السياق غير المحدود الذي ينمو جولة بعد جولة، لا اختيار النموذج نفسه. معظم الفرق ذات الفواتير المفاجئة أعادتها إلى نمو السياق.

أعباء المحادثة رخيصة

التبادل الحواري النموذجي (يسأل المستخدم سؤالاً، يرد النموذج، وينمو تاريخ المحادثة عبر بضع جولات) يبلغ وسطياً نحو 2,000 رمز إدخال و500 رمز إخراج لكل جولة. على Claude Sonnet 4.6، هذا $0.014 للجولة. على Claude Opus، $0.022. على GPT-5 Mini، $0.0015. على Gemini 3.1 Pro Preview، $0.010.

لمنتج محادثة لديه 10,000 مستخدم نشط يومياً بمتوسط خمس جولات لكل منهم يومياً، يعني ذلك بين $75 و$1,100 يومياً حسب اختيار النموذج. سنوياً: نحو $27,000 إلى $400,000. عند هذا الحجم، اختيار النموذج أهم من عدد المستخدمين.

فخ التكلفة المخفي هو تاريخ المحادثة غير المحدود. بحلول الجولة 20 من محادثة طويلة، قد يكون السياق نما إلى أكثر من 10,000 رمز، وتتضاعف تكلفة الجولة ثلاث مرات رغم أن القيمة الهامشية للمستخدم لم تتغير. تلخيص التاريخ أو قصه بقوة يصلح ذلك، رغم أن معظم منتجات المحادثة لا تصل إليه أبداً.

يصبح RAG مكلفاً أسرع مما تتوقع

النمط القياسي للتوليد المعزز بالاسترجاع (تضمين الطلب، واسترجاع خمسة مقاطع من مخزن متجهات، وحشوها في المطالبة، ثم توليد استجابة) يبلغ وسطياً نحو 8,000 رمز إدخال و800 رمز إخراج لكل طلب. على Opus، $0.06 لكل طلب. على Sonnet، $0.036. على GPT-5 Mini، $0.0036. للحجة الأوسع حول متى تستخدم RAG مقابل السياق الطويل، راجع RAG مقابل الضبط الدقيق.

عند 1,000 طلب يومياً، تتراوح التكلفة اليومية بين $4 و$60. عند 100,000 طلب يومياً (وهو حجم قد يصل إليه منتج شائع أسرع مما تتوقع)، تتراوح التكلفة اليومية بين $360 و$6,000.

يرفع شيئان محددان الفاتورة. أولاً، تمر طلبات RAG غالباً بخطوة إعادة ترتيب تضيف استدعاء نموذج. هذا مرور آخر لرموز إدخال عبر المقاطع المرشحة. ثانياً، تسترجع كثير من أنظمة RAG الإنتاجية مقاطع أكثر مما تحتاج على نظرية أن السياق الإضافي لا يضر. بل يضر. كل مقطع إضافي يعني رموز إدخال أكثر في كل طلب.

يكاد الجميع يستهين بجانب الإخراج من الفاتورة، وهذا مؤسف مضاعف لأن الإخراج أسهل جزء في الطلب كله يمكن ضبطه.

تكلفة المهمة النموذجية عبر 6 حالات استخدام

سنتات لكل طلب، Claude Sonnet 4.6. الأقل أفضل.

تصنيف

$0.0006

Simple chat turn

$0.014

RAG query

$0.036

Document summary

$0.18

Long-doc analysis

$0.66

Agent session

$0.10–10+

5× تكلف رموز الإخراج 5× الإدخال في معظم النماذج المتقدمة

معالجة المستندات بالدفعات

النمط: خذ مجموعة من N مستندات، أرسل كل واحد عبر النموذج، واستعد استجابة منظمة. تصنيف واستخراج وتلخيص، كلها على نطاق. التكلفة خطية في رموز الإدخال مضروبة في طول المستند زائد رموز الإخراج مضروبة في طول الإجابة، مضروبة في N.

تصبح المفاجأة عندما تُنسى إعادة المحاولات والفشل الجزئي. خط دفعات ساذج يعيد تشغيل كل استدعاء فاشل جيد عندما يكون معدل الفشل 1%. لكنه كارثة ميزانية عندما يكون معدل الفشل 8%، وهذا ليس غريباً عند التشغيل ضد خدمة علوية noisy. تكلفة الإعادات مع سياسة مهلة سيئة قد تساوي أو تتجاوز تكلفة التشغيل الأساسي.

الحل هو استخدام طبقات Batch API التي يقدمها معظم المزودين بخصم يقارب 50% من السعر القياسي، مع مدة معالجة 24 ساعة. لأي عبء عمل غير حساس للكمون، يكون ذلك الخصم قريباً من المجاني، ومعظم الفرق لا تطالب به أبداً. إذا كان عبء العمل صغيراً بما يكفي ليناسب نموذج 4B محلياً، فراجع النماذج اللغوية الصغيرة لخيار أرخص أيضاً.

(ملاحظة جانبية: رقم جلسة الوكيل $50+ ليس افتراضياً. رأى المجتمع خلال العام الماضي حالات ملموسة لحلقات وكلاء تعمل ساعات قبل أن يلاحظها أحد. سقف إنفاق يومي يلتقط بعضها؛ وأخرى تعمل حتى يصطدم مفتاح API بحده الشهري. ضع سقوفاً صلبة قبل أن تشحن الحلقة.)

حلقات الوكلاء هي الخطر الحقيقي

تشغيل الوكلاء هو مصدر الفواتير المفاجئة، لأن شكل التكلفة معادٍ للتقدير. وكيل يجري ثلاثة استدعاءات أدوات ثم يعود رخيص؛ ووكيل يعلق في حلقة ويجري 200 استدعاء قبل انتهاء المهلة أغلى بمرتبتين. كلاهما يحدث بانتظام. المسار الرخيص هو ما صممته؛ والمسار المكلف يظهر عندما ينكسر شيء أعلى السلسلة، ولا يلاحظ الوكيل، ويواصل إعادة المحاولة بمطالبات مختلفة قليلاً.

حادثة تغير المخطط شائعة بما يكفي للتعرف عليها. يتغير مخطط قاعدة بيانات، وتبدأ الأداة التي يعتمد عليها الوكيل بإرجاع أخطاء. يواصل الوكيل استدعاء الأداة، ويتلقى أخطاء، ويسأل النموذج ماذا يفعل، ويحاول مرة أخرى. يقول النموذج جرّب مرة أخرى بنهج مختلف، وتعمل الحلقة ساعات قبل أن يلاحظ إنسان.

وسائل الدفاع معروفة وتستحق التنفيذ: سقوف رموز صلبة لكل جلسة، ومهل زمنية فعلية، وتنبيهات تلقائية عندما تتجاوز تكلفة الجلسة عتبة معينة، وسقف إنفاق يومي على مستوى المزود. شغّل حدود الإنفاق لدى Anthropic وحدود الاستخدام لدى OpenAI حتى عندما يبدو النظام حذراً أكثر من اللازم. خصوصاً حينها. للمزيد عن أنماط فشل الوكلاء، راجع وكلاء الذكاء الاصطناعي بعد ثمانية عشر شهراً.

(فخ مرتبط: معظم الفرق التي رآها المجتمع لا تتحقق من معدل إصابة المخبأ. تشغل التخزين المخبأ في إعدادات SDK، وتشحن، وتفترض أنه يعمل. المعدل الحقيقي غالباً أقل من المتوقع، لأن مطالبة تنجرف رمزاً برمز عبر الجلسات، طابع وقت هنا، ومعرّف جلسة هناك، تكسر المخبأ بهدوء. دقق الفاتورة مقابل مقياس إصابة المخبأ. إذا كان النظام يدفع السعر الكامل في كل استدعاء، فالخصم لا يصل.)

التخزين المخبأ يغير الحسابات كثيراً

تخزين المطالبات مؤقتاً هو أكبر موفر تكلفة ظهر في العامين الماضيين، ومع ذلك لا يزال الأقل حديثاً عنه. إذا كان عبء عملك يرسل سياقاً ثابتاً كبيراً مع كل طلب (مطالبة نظام طويلة مثلاً، أو مجموعة ثابتة من مستندات مرجعية)، فإن تخزين تلك البادئة يخفض تكلفة الإدخال في الاستدعاءات اللاحقة إلى نحو 10% من القياسي. لنظام RAG لديه مطالبة نظام من 5,000 رمز تعمل 100,000 مرة يومياً، تصل الوفورات على Opus وحده إلى نحو $675 يومياً، أو نحو $245,000 سنوياً.

ينفذ هذا أقل بكثير مما ينبغي. إما أن الفرق لا تعرف أن التخزين المخبأ موجود، أو لا تعرف أي بادئة تخزن، أو وصلته بشكل خاطئ ولا ترى الخصم أبداً. دقق فاتورتك مقابل معدل إصابة المخبأ. إذا كان النظام يدفع سعر الإدخال الكامل في كل استدعاء، فهذا مال يخرج من الباب.

محادثة

Haiku 4.5 $1.00/1M مدخل

برمجة

Opus 4.7 ادفع مقابل الدقة

RAG

Sonnet 4.6 النقطة المثالية بالحجم الكبير

وكلاء

Opus 4.7 حدّد ميزانيتك

تصنيف

Phi-4 mini محلي، ~$0 للمهمة

تلخيص

Gemini 3 Flash $0.30/$2.50 per 1M

1. ما طبيعة عبء العمل؟

محادثة، RAG، وكيل، تصنيف، تلخيص؟

↓

2. ما درجة الحساسية للأخطاء؟

كود إنتاج = ادفع لـ Opus. فرز البريد = نموذج صغير.

↓

3. الحجم؟

فوق 100K طلب/يوم، كل سنت مهم. خزّن بقوة.

↓

4. اختر النموذج وحدّد الميزانية

ضع حد إنفاق قبل التوسع. دائماً.

التكلفة التقريبية لكل استدعاء التي تستحق حفظها

تكلفة كل استدعاء حسب شكل عبء العمل، تسعير يناير 2026
عبء العمل	Opus	Sonnet	GPT-5 Mini
جولة محادثة بسيطة (2k / 500)	$0.022	$0.014	$0.0015
طلب RAG (8k / 800)	$0.06	$0.036	$0.0036
ملخص مستند (50k / 2k)	$0.30	$0.18	$0.017
تحليل مستند طويل (200k / 4k)	$1.10	$0.66	$0.058
جلسة وكيل (متغيرة)	$0.50 – $50+	$0.10 – $10+	$0.01 – $1+

النمط الذي رآه المجتمع يعمل غالباً في 2026: قدّر شكل عبء العمل قبل البناء، ثم اختر النموذج الذي يناسب ذلك الشكل لا النموذج صاحب أفضل تسويق. خزّن كل عبء يعيد إرسال بادئة ثابتة. ضع سقوفاً صلبة على كل حلقة وكيل. شغّل أعباء الدفعات عبر طبقة الدفعات عندما يسمح الكمون. لا شيء من هذا غريب؛ إنها النظافة الأساسية التي تتخطاها معظم الفرق.

للمؤسسين المنفردين أو الفرق الصغيرة: ابدأ أعباء الإنتاج على Claude Sonnet 4.6 أو GPT-5 Mini، واحتفظ بـ Opus وGPT-5 للاستدعاءات التي تحتاج فعلاً قدرة متقدمة. راقب الفاتورة أسبوعياً. ديناميات التكلفة تتحرك بسرعة، وعندما تتحرك الحركة لا تخبرك فاتورة الشهر الماضي كثيراً عن الشهر القادم.

شغّل حدود الإنفاق اليوم. الفاتورة المفاجئة من أربعة أرقام درس تستطيع تجاوزه.

أسئلة شائعة

كم يكلف تشغيل منتج محادثة بالذكاء الاصطناعي؟

على Claude Sonnet 4.6، تكلف جولة محادثة نموذجية (نحو 2K إدخال + 500 إخراج) $0.014. ولـ10,000 مستخدم نشط يومياً بمتوسط 5 جولات لكل منهم، تبلغ التكلفة اليومية نحو $700، أو $250K سنوياً قبل أي تحسين.

لماذا تكلف رموز الإخراج أكثر من الإدخال؟

التوليد أصعب من القراءة: حوسبة أكثر لكل رمز. يسعر كل نموذج الإخراج عند 3-5 أضعاف الإدخال. تضع معظم الفرق ميزانيتها حول جانب الإدخال وتستهين بجانب الإخراج، وهو أين يذهب المال.

ما أرخص ذكاء اصطناعي للعمل عالي الحجم؟

لجودة من فئة متقدمة، GPT-5 Mini بسعر $0.25 للإدخال / $2 للإخراج لكل مليون رمز. ولمفتوح الأوزان على نقطة نهاية مستضافة، Llama 4 Scout بسعر $0.10 / $0.40. وللاستضافة الذاتية، Phi-4 mini بتكلفة هامشية صفرية بعد العتاد.

كم يوفر تخزين المطالبات المخبأ؟

تعمل رموز البادئة المخبأة عند نحو 10% من سعر الإدخال القياسي في Anthropic وGoogle. لنظام RAG بمطالبة نظام 5K رمز تعمل 100,000 مرة يومياً، يوفر التخزين نحو $675 يومياً على Opus وحده.

كيف أضع سقفاً لإنفاق وكيل ذكاء اصطناعي منفلت؟

سقوف رموز صلبة لكل جلسة، ومهل زمنية فعلية، وتنبيهات تلقائية عندما تتجاوز تكلفة الجلسة عتبة، وحدود إنفاق يومية على مستوى المزود. شغّل حدود الاستخدام في Anthropic وOpenAI حتى عندما تبدو حذرة أكثر من اللازم.

سجل التغييرات

25 مايو 2026 — تم التحقق من الأسعار وفق وثائق المزودين الحالية. حُدثت أرقام التكلفة في كامل المقال لتعكس تعديلات أسعار Anthropic وطرح Google لـ Gemini 3.1 Pro Preview.
8 مايو 2026 — نُشرت النسخة الأولى.

المراجع

Anthropic، "الأسعار"، anthropic.com/pricing، اطُّلع عليه في مايو 2026.
OpenAI، "أسعار API"، openai.com/api/pricing، اطُّلع عليه في مايو 2026.
Google، "نماذج Gemini API"، ai.google.dev/gemini-api/docs/models، اطُّلع عليه في مايو 2026.
Google Cloud، "تسعير الذكاء الاصطناعي التوليدي في Vertex AI"، cloud.google.com/vertex-ai/generative-ai/pricing، اطُّلع عليه في مايو 2026.