"نموذج غالي" و"نموذج رخيص" تصنيفات عديمة الفائدة.
فاتورة مفاجئة من أربعة أرقام من API لنموذج متقدم درس يتعلمه معظم المؤسسين مرة واحدة. لم يكن النموذج هو المشكلة. النموذج نفسه الذي بدا مناسباً في تقدير سريع يمكن أن ينتج تلك الفاتورة عندما يضربه عبء إنتاج حقيقي، لأن تكلفة النموذج المتقدم هي في الحقيقة خاصية لعبء العمل الذي يشغله. أدناه جدول عملي لتكلفة كل شكل عبء عمل، مع الحساب خلف كل سطر.
كل الأسعار أدناه هي الأسعار المنشورة لكل مليون رمز من صفحات التسعير لدى كل مختبر، وتم التحقق منها وفق صفحة أسعار Anthropic وأسعار API من OpenAI وصفحة نماذج Gemini API من Google. الأرقام الدقيقة تتغير كثيراً. أما المفاضلات نفسها فتبقى مستقرة، وهذا النمط هو ما يستحق استيعابه.
النماذج التجارية الخمسة
| النموذج | الإدخال ($/M) | الإخراج ($/M) | كتابة المخبأ | قراءة المخبأ |
|---|---|---|---|---|
| Claude Opus 4.7 | $5.00 | $25.00 | $6.25 | $0.50 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $3.75 | $0.30 |
| GPT-5 | $1.25 | $10.00 | n/a | $0.125 (auto) |
| GPT-5 Mini | $0.25 | $2.00 | n/a | $0.025 (auto) |
| Gemini 3.1 Pro Preview | $2.00 | $12.00 | $2.50 | $0.20 |
حقيقتان بنيويتان تشكلان كل ما يلي. مضاعف الإخراج أعلاه واحدة منهما. الأخرى هي تخزين المطالبات مؤقتاً: حيث يوجد، يعمل بنحو عُشر تكلفة الإدخال القياسية، لذلك ينبغي لأي عبء عمل يرسل السياق الطويل نفسه مراراً أن يشغل التخزين المخبأ. في نظام عالي الحجم يتحول الفرق إلى مال حقيقي.
تفترض الأرقام أدناه مطالبات جيدة التكوين من دون تضخم تاريخ المحادثة. في محادثة الإنتاج، يكون أكبر محرك تكلفة مخفي عادة هو السياق غير المحدود الذي ينمو جولة بعد جولة، لا اختيار النموذج نفسه. معظم الفرق ذات الفواتير المفاجئة أعادتها إلى نمو السياق.
أعباء المحادثة رخيصة
التبادل الحواري النموذجي (يسأل المستخدم سؤالاً، يرد النموذج، وينمو تاريخ المحادثة عبر بضع جولات) يبلغ وسطياً نحو 2,000 رمز إدخال و500 رمز إخراج لكل جولة. على Claude Sonnet 4.6، هذا $0.014 للجولة. على Claude Opus، $0.022. على GPT-5 Mini، $0.0015. على Gemini 3.1 Pro Preview، $0.010.
لمنتج محادثة لديه 10,000 مستخدم نشط يومياً بمتوسط خمس جولات لكل منهم يومياً، يعني ذلك بين $75 و$1,100 يومياً حسب اختيار النموذج. سنوياً: نحو $27,000 إلى $400,000. عند هذا الحجم، اختيار النموذج أهم من عدد المستخدمين.
فخ التكلفة المخفي هو تاريخ المحادثة غير المحدود. بحلول الجولة 20 من محادثة طويلة، قد يكون السياق نما إلى أكثر من 10,000 رمز، وتتضاعف تكلفة الجولة ثلاث مرات رغم أن القيمة الهامشية للمستخدم لم تتغير. تلخيص التاريخ أو قصه بقوة يصلح ذلك، رغم أن معظم منتجات المحادثة لا تصل إليه أبداً.
يصبح RAG مكلفاً أسرع مما تتوقع
النمط القياسي للتوليد المعزز بالاسترجاع (تضمين الطلب، واسترجاع خمسة مقاطع من مخزن متجهات، وحشوها في المطالبة، ثم توليد استجابة) يبلغ وسطياً نحو 8,000 رمز إدخال و800 رمز إخراج لكل طلب. على Opus، $0.06 لكل طلب. على Sonnet، $0.036. على GPT-5 Mini، $0.0036. للحجة الأوسع حول متى تستخدم RAG مقابل السياق الطويل، راجع RAG مقابل الضبط الدقيق.
عند 1,000 طلب يومياً، تتراوح التكلفة اليومية بين $4 و$60. عند 100,000 طلب يومياً (وهو حجم قد يصل إليه منتج شائع أسرع مما تتوقع)، تتراوح التكلفة اليومية بين $360 و$6,000.
يرفع شيئان محددان الفاتورة. أولاً، تمر طلبات RAG غالباً بخطوة إعادة ترتيب تضيف استدعاء نموذج. هذا مرور آخر لرموز إدخال عبر المقاطع المرشحة. ثانياً، تسترجع كثير من أنظمة RAG الإنتاجية مقاطع أكثر مما تحتاج على نظرية أن السياق الإضافي لا يضر. بل يضر. كل مقطع إضافي يعني رموز إدخال أكثر في كل طلب.
يكاد الجميع يستهين بجانب الإخراج من الفاتورة، وهذا مؤسف مضاعف لأن الإخراج أسهل جزء في الطلب كله يمكن ضبطه.
معالجة المستندات بالدفعات
النمط: خذ مجموعة من N مستندات، أرسل كل واحد عبر النموذج، واستعد استجابة منظمة. تصنيف واستخراج وتلخيص، كلها على نطاق. التكلفة خطية في رموز الإدخال مضروبة في طول المستند زائد رموز الإخراج مضروبة في طول الإجابة، مضروبة في N.
تصبح المفاجأة عندما تُنسى إعادة المحاولات والفشل الجزئي. خط دفعات ساذج يعيد تشغيل كل استدعاء فاشل جيد عندما يكون معدل الفشل 1%. لكنه كارثة ميزانية عندما يكون معدل الفشل 8%، وهذا ليس غريباً عند التشغيل ضد خدمة علوية noisy. تكلفة الإعادات مع سياسة مهلة سيئة قد تساوي أو تتجاوز تكلفة التشغيل الأساسي.
الحل هو استخدام طبقات Batch API التي يقدمها معظم المزودين بخصم يقارب 50% من السعر القياسي، مع مدة معالجة 24 ساعة. لأي عبء عمل غير حساس للكمون، يكون ذلك الخصم قريباً من المجاني، ومعظم الفرق لا تطالب به أبداً. إذا كان عبء العمل صغيراً بما يكفي ليناسب نموذج 4B محلياً، فراجع النماذج اللغوية الصغيرة لخيار أرخص أيضاً.
(ملاحظة جانبية: رقم جلسة الوكيل $50+ ليس افتراضياً. رأى المجتمع خلال العام الماضي حالات ملموسة لحلقات وكلاء تعمل ساعات قبل أن يلاحظها أحد. سقف إنفاق يومي يلتقط بعضها؛ وأخرى تعمل حتى يصطدم مفتاح API بحده الشهري. ضع سقوفاً صلبة قبل أن تشحن الحلقة.)
حلقات الوكلاء هي الخطر الحقيقي
تشغيل الوكلاء هو مصدر الفواتير المفاجئة، لأن شكل التكلفة معادٍ للتقدير. وكيل يجري ثلاثة استدعاءات أدوات ثم يعود رخيص؛ ووكيل يعلق في حلقة ويجري 200 استدعاء قبل انتهاء المهلة أغلى بمرتبتين. كلاهما يحدث بانتظام. المسار الرخيص هو ما صممته؛ والمسار المكلف يظهر عندما ينكسر شيء أعلى السلسلة، ولا يلاحظ الوكيل، ويواصل إعادة المحاولة بمطالبات مختلفة قليلاً.
حادثة تغير المخطط شائعة بما يكفي للتعرف عليها. يتغير مخطط قاعدة بيانات، وتبدأ الأداة التي يعتمد عليها الوكيل بإرجاع أخطاء. يواصل الوكيل استدعاء الأداة، ويتلقى أخطاء، ويسأل النموذج ماذا يفعل، ويحاول مرة أخرى. يقول النموذج جرّب مرة أخرى بنهج مختلف، وتعمل الحلقة ساعات قبل أن يلاحظ إنسان.
وسائل الدفاع معروفة وتستحق التنفيذ: سقوف رموز صلبة لكل جلسة، ومهل زمنية فعلية، وتنبيهات تلقائية عندما تتجاوز تكلفة الجلسة عتبة معينة، وسقف إنفاق يومي على مستوى المزود. شغّل حدود الإنفاق لدى Anthropic وحدود الاستخدام لدى OpenAI حتى عندما يبدو النظام حذراً أكثر من اللازم. خصوصاً حينها. للمزيد عن أنماط فشل الوكلاء، راجع وكلاء الذكاء الاصطناعي بعد ثمانية عشر شهراً.
(فخ مرتبط: معظم الفرق التي رآها المجتمع لا تتحقق من معدل إصابة المخبأ. تشغل التخزين المخبأ في إعدادات SDK، وتشحن، وتفترض أنه يعمل. المعدل الحقيقي غالباً أقل من المتوقع، لأن مطالبة تنجرف رمزاً برمز عبر الجلسات، طابع وقت هنا، ومعرّف جلسة هناك، تكسر المخبأ بهدوء. دقق الفاتورة مقابل مقياس إصابة المخبأ. إذا كان النظام يدفع السعر الكامل في كل استدعاء، فالخصم لا يصل.)
التخزين المخبأ يغير الحسابات كثيراً
تخزين المطالبات مؤقتاً هو أكبر موفر تكلفة ظهر في العامين الماضيين، ومع ذلك لا يزال الأقل حديثاً عنه. إذا كان عبء عملك يرسل سياقاً ثابتاً كبيراً مع كل طلب (مطالبة نظام طويلة مثلاً، أو مجموعة ثابتة من مستندات مرجعية)، فإن تخزين تلك البادئة يخفض تكلفة الإدخال في الاستدعاءات اللاحقة إلى نحو 10% من القياسي. لنظام RAG لديه مطالبة نظام من 5,000 رمز تعمل 100,000 مرة يومياً، تصل الوفورات على Opus وحده إلى نحو $675 يومياً، أو نحو $245,000 سنوياً.
ينفذ هذا أقل بكثير مما ينبغي. إما أن الفرق لا تعرف أن التخزين المخبأ موجود، أو لا تعرف أي بادئة تخزن، أو وصلته بشكل خاطئ ولا ترى الخصم أبداً. دقق فاتورتك مقابل معدل إصابة المخبأ. إذا كان النظام يدفع سعر الإدخال الكامل في كل استدعاء، فهذا مال يخرج من الباب.
محادثة
Haiku 4.5 $1.00/1M مدخلبرمجة
Opus 4.7 ادفع مقابل الدقةRAG
Sonnet 4.6 النقطة المثالية بالحجم الكبيروكلاء
Opus 4.7 حدّد ميزانيتكتصنيف
Phi-4 mini محلي، ~$0 للمهمةتلخيص
Gemini 3 Flash $0.30/$2.50 per 1Mمحادثة، RAG، وكيل، تصنيف، تلخيص؟
كود إنتاج = ادفع لـ Opus. فرز البريد = نموذج صغير.
فوق 100K طلب/يوم، كل سنت مهم. خزّن بقوة.
ضع حد إنفاق قبل التوسع. دائماً.
التكلفة التقريبية لكل استدعاء التي تستحق حفظها
| عبء العمل | Opus | Sonnet | GPT-5 Mini |
|---|---|---|---|
| جولة محادثة بسيطة (2k / 500) | $0.022 | $0.014 | $0.0015 |
| طلب RAG (8k / 800) | $0.06 | $0.036 | $0.0036 |
| ملخص مستند (50k / 2k) | $0.30 | $0.18 | $0.017 |
| تحليل مستند طويل (200k / 4k) | $1.10 | $0.66 | $0.058 |
| جلسة وكيل (متغيرة) | $0.50 – $50+ | $0.10 – $10+ | $0.01 – $1+ |
النمط الذي رآه المجتمع يعمل غالباً في 2026: قدّر شكل عبء العمل قبل البناء، ثم اختر النموذج الذي يناسب ذلك الشكل لا النموذج صاحب أفضل تسويق. خزّن كل عبء يعيد إرسال بادئة ثابتة. ضع سقوفاً صلبة على كل حلقة وكيل. شغّل أعباء الدفعات عبر طبقة الدفعات عندما يسمح الكمون. لا شيء من هذا غريب؛ إنها النظافة الأساسية التي تتخطاها معظم الفرق.
للمؤسسين المنفردين أو الفرق الصغيرة: ابدأ أعباء الإنتاج على Claude Sonnet 4.6 أو GPT-5 Mini، واحتفظ بـ Opus وGPT-5 للاستدعاءات التي تحتاج فعلاً قدرة متقدمة. راقب الفاتورة أسبوعياً. ديناميات التكلفة تتحرك بسرعة، وعندما تتحرك الحركة لا تخبرك فاتورة الشهر الماضي كثيراً عن الشهر القادم.
شغّل حدود الإنفاق اليوم. الفاتورة المفاجئة من أربعة أرقام درس تستطيع تجاوزه.