تشغيل النماذج على جهازك

العتاد، البرمجيات، أرقام حقيقية للرموز في الثانية على ثلاث درجات تكميم، والتكلفة مقابل العائد أمام API.

· عرض سجل التغييرات

جهاز الاختبار M3 Max 64GB ذاكرة موحّدة
مدى الذاكرة 16–64GB مُختبَر عبر فئات المستهلك
أعلى إنتاجية 220 رمز/ث Phi-4 mini، Q4_K_M
التكلفة الهامشية $0 بعد شراء العتاد

انتقل تشغيل النماذج اللغوية الكبيرة محلياً من مشروع هواة إلى خيار إنتاجي مشروع خلال الثمانية عشر شهراً الماضية. وصارت الكتابة العامة عنه غير موثوقة بالطريقة التي تصير بها هذه الأمور دائماً. تبالغ معظم الأدلة في بيع التجربة، وتعتمد المعايير على تهيئات منتقاة، ونادراً ما تتضمّن أرقام المقارنة التكلفة التشغيلية لإدارة بنيتك التحتية. ما يلي هو التصحيح: أرقام حقيقية على جهاز تمثيلي، وحساب لما يعمل فعلاً، والشروط التي يُجدي فيها الاستدلال المحلي أمام API.

جهاز المثال المستخدم في كل المقال محطة عمل Apple Silicon من الجيل الحالي بذاكرة موحّدة سعة 64GB. النوع الذي يكلّف نحو 3,200 دولار ويتاح لمطوّر مستقل جاد أو فريق صغير. ستتدرّج الأرقام بشكل متوقّع للأجهزة الأكبر والأصغر على البنية نفسها. لمحطات NVIDIA أو العتاد المُركّب على الرفوف تختلف الأرقام، لكن الدروس التشغيلية تصمد. وإن أردت اختيار النموذج الفعلي لتشغيله، راجع فئة الأوزان المفتوحة والنماذج اللغوية الصغيرة.

يختبر هذا المقال على Apple Silicon. محطات NVIDIA لها برمجيات مختلفة (vLLM، TensorRT-LLM، exllama) وخصائص إنتاجية مختلفة. تنتقل الدروس التشغيلية رغم أن أرقام الرموز في الثانية المحددة لن تنتقل، فإن كنت تقيّم إعداد NVIDIA، فاقرأ هذا للتوجيه لا للأرقام الدقيقة.

البرمجيات التي تستحق الاستخدام

اختُبرت أربع بيئات تشغيل على مدى ستة أشهر. اثنتان تستحقان الإبقاء.

Ollama هي بيئة التشغيل التي يُوصى بها لأي بادئ اليوم. ملف Go صغير يعمل كخدمة خلفية، يدير تنزيلات النماذج عبر أمر بأسلوب السجلّ، ويعرض واجهة HTTP نظيفة على المنفذ 11434. الإعدادات الافتراضية معقولة ومكتبة النماذج واسعة وحديثة. التثبيت أمر واحد، وبإمكان مستخدم كفء أن ينتقل من البدء البارد إلى محادثة نموذج محلي في أقل من خمس دقائق.

llama.cpp هي بيئة التشغيل للإنتاج. مشروع C++ بنوى مُحسَّنة يدوياً لـ Apple Silicon وNVIDIA وAMD والمعالج. أسرع بكثير من Ollama على النموذج نفسه في بعض التهيئات، ويعرض معاملات يخفيها Ollama. الثمن أنه يحتاج تجميعاً يدوياً، وإدارة يدوية لملفات النماذج، وقراءة توثيق أكثر مما هو ممتع تماماً. Ollama مبني فوق llama.cpp، فهذا ليس رفضاً لـ Ollama بقدر ما هو طبقة مختلفة من المنظومة نفسها.

LM Studio يغلّف llama.cpp في واجهة رسومية لسطح المكتب. الواجهة جيدة لتصفّح النماذج ومقارنتها جنباً إلى جنب. لم تتبنّها benchr لأن النشر بأسلوب الخادم كان مفضّلاً والوجود الدائم في الشريط كان مشتّتاً. للمستخدمين الذين يبدأون بالواجهة الرسومية، هذه أودّ نقطة دخول.

MLX هي إطار تعلّم الآلة الرسمي من Apple بدعم كامل لـ Apple Silicon. ينتج أسرع أرقام رموز في الثانية على بعض النماذج على جهاز الاختبار. لكن المنظومة أحدث، نماذج أقل، وتكاملات أنحف، وحواف خشنة أكثر للالتفاف حولها. إن كنت تشغّل على Apple Silicon فقط وتحتاج أسرع استدلال على الإطلاق، فإن MLX يستحق الوقت؛ ولمنظومة مختلطة عادةً لا يستحقه.

أرقام فعلية، ثلاث درجات تكميم

جُمعت المعايير أدناه على جهاز المثال تحت Ollama بالإعدادات الافتراضية، بتوليد 500 رمز إخراج من أمر بـ 200 رمز، بمتوسط خمس عمليات تشغيل. طول السياق ضُبط على 8K. القيم المُبلَّغ عنها رموز في الثانية على مجرى الإخراج.

الاستدلال المحلي على M3 Max بذاكرة 64GB، إعدادات Ollama الافتراضية، يناير 2026
النموذجالتكميمالذاكرة المستخدمةرموز/ثالجودة مقابل fp16
Llama 3.3 70BQ4_K_M52 GB18.2هبوط واضح
Llama 3.3 70BQ5_K_M60 GB15.7هبوط طفيف
Llama 3.3 70BQ6_K61 GB (ضيّق)14.1بلا هبوط تقريباً
Phi-4 mini 3.8BQ4_K_M2.6 GB220.0هبوط واضح
Phi-4 mini 3.8BQ5_K_M3.1 GB98.2هبوط طفيف
Phi-4 mini 3.8BQ8_04.6 GB83.1بلا هبوط

بضع ملاحظات على ما تعنيه تلك الأرقام. تهيئة Llama 3.3 70B بتكميم Q6_K تعمل بضيق على جهاز بذاكرة 64GB. يجب إغلاق معظم التطبيقات الأخرى، ويصبح العمل الأمامي الجاد على الجهاز نفسه غير عملي أثناء تشغيل الاستدلال. نسخة Q4_K_M أكثر أريحية بكثير، والهبوط في الجودة حقيقي لكنه ليس مُعطِّلاً لاستخدام المحادثة العادي. للمهام الإنتاجية حيث يهم كل رمز، اجعل Phi-4 mini بتكميم Q5_K_M هو الافتراضي، فهو يحافظ على 98 رمزاً في الثانية بلا تكلفة جودة قابلة للقياس تقريباً.

للمرجعية، يتدفّق Claude Opus 4.7 عبر API بنحو 70-80 رمزاً في الثانية على اتصال جيد. يتفوّق Phi-4 mini المحلي على ذلك في الإنتاجية الخام، لكن فقط لأنه نموذج أصغر بكثير يؤدي مهمة أصغر بكثير.

في القدرة الخام لا تزال API الحدّية تفوز. ما يقدّمه الاستدلال المحلي بدلاً من ذلك هو ما لن تبيعه لك أي API: بياناتك لا تغادر المبنى، وتكلفة لكل رمز تبقى صفراً مهما ضغطت عليها.

رموز في الثانية على M3 Max، النماذج الصغيرة

إنتاجية الإخراج المولّد على جهاز اختبار Apple Silicon بذاكرة 64GB.

Phi-4 mini (Q4_K_M)
220
Phi-4 (Q4_K_M)
135
Gemma 2 9B (Q5_K_M)
105
Qwen 3 7B (Q5_K_M)
120
220 رمز/ث Phi-4 mini على M3 Max — أسرع استدلال محلي مُختبَر

نقطة التعادل مع API صعبة التحديد. تعتمد على شكل عبء العمل، وأسعار الكهرباء، ومدى عدوانية استخدامك للعتاد خارج ساعات العمل. عتبة الـ 80-100 دولار شهرياً المذكورة هنا تقدير تقريبي مبني على النقاش المجتمعي العام، ورقمك الخاص قد يكون نصف ذلك أو ضِعفه، تبعاً لكيفية استخدامك للجهاز.

التكلفة مقابل العائد، مكتوبة دون بيع أي شيء

العتاد موزّعاً على أربع سنوات يبلغ نحو 67 دولاراً في الشهر. الكهرباء بالأسعار الصناعية تكلّف نحو 4 دولارات في الشهر للاستدلال المتواصل على هذا العتاد. إجمالي الأساس الشهري: 71 دولاراً قبل استدلال رمز واحد.

للمقارنة، عبء عمل API نموذجي لفريق صغير (لنقل من 80 إلى 140 دولاراً شهرياً) يضع API والعتاد المحلي عند التعادل تقريباً في التكلفة المباشرة. التعادل وحده لا يبرّر الشراء. ما يبرّره هو مجموعة الأشياء التي يشتريها العتاد ولا تستطيع API، وهي ثلاثة. وللصورة الكاملة لتكلفة API، راجع السعر بحسب حالة الاستخدام.

  • الخصوصية على البيانات التي يعالجها النموذج. المواد الحساسة (سجلات العملاء، المستندات الداخلية، أي شيء تغطيه قاعدة إقامة بيانات) لا تغادر شبكتك أبداً.
  • زمن استجابة صفري تقريباً على الشبكة المحلية. زمن أول رمز على API حدّية من اتصال منزلي نموذجي هو 600 إلى 1,100 مللي ثانية، مقابل نحو 80 مللي ثانية من الجهاز المحلي. عبر سير عمل تفاعلي يتراكم على مدى أدوار كثيرة، هذا ما يفصل جلسة سلسة عن أخرى متلكئة.
  • تكلفة هامشية ثابتة بغضّ النظر عن الحجم. يمكن الضغط على النموذج بتصنيفات مجمّعة، وتجارب ضبط دقيق، ومعالجة دفعات ليلية، دون أن يكلّف أي منها سنتاً واحداً إضافياً لكل طلب. وحين تكون التجارب مجانية، تشغّل المزيد منها.

إن كانت هذه الخصائص الثلاث تهم عملك، فإن الإعداد المحلي يسدّد ثمنه حتى عند التعادل في التكلفة المباشرة. وبدونها، ثمة سبب ضئيل لتحمّل العتاد، وتبقى API الخيار الأسهل.

تحفّظ يستحق الذكر بصراحة: لم يختبر المجتمع النماذج المحلية تحت حمل متواصل على مدار الساعة. الأرقام المُبلَّغ عنها هنا تأتي من استخدام تفاعلي على مدى أسابيع، لا من عبء عمل إنتاجي يشغّل آلاف الطلبات في الساعة. ضجيج المروحة والخنق الحراري تحت ذلك النوع من الحمل المتواصل مشكلتان حقيقيتان، وكلتاهما خارج نطاق هذا المقال.

أين يُجدي المحلي

ثلاثة أعباء عمل يكون المحلي فيها الخيار الصحيح في 2026، مُسمّاة تحديداً.

الاستخراج المُهيكل من المستندات الواردة: رسائل الدعم، ومسودات العقود، ونماذج الطلبات، وما شابه. مرّرها عبر Phi-4 mini بتكميم Q5_K_M واحصل على JSON مُهيكل بتكلفة صفرية لكل مستند، بزمن استجابة مقبول وبيانات لا تغادر شبكتك أبداً. تقع الدقة نحو نقطتين مئويتين دون ما تنتجه واجهة Sonnet على المدخل نفسه، وهي مقايضة عادلة لهذا العبء.

إعادة كتابة المحتوى بالجملة مقابل مدوّنة ثابتة، مئات نبذات الميزات وأوصاف المنتجات، وتمريرات النصوص الصغيرة، وأي شيء يتراكم بهدوء لو مُرّرت كل تكراراته عبر API. ينتج النموذج المحلي المسودات وتحرّرها أنت، فالتكلفة الوحيدة وقت تنفقه أصلاً.

التجريب الاستكشافي الذي ستثبّطه ميزانية API. توليد 5,000 مثال اصطناعي لتدريب مصنّف يكلّف نحو 25 دولاراً على API و0 دولار محلياً. عند 25 دولاراً تُؤجَّل التجربة بهدوء؛ وعند 0 تشغّلها ببساطة، وبين الحين والآخر تثمر.

أين ليس المحلي هو الجواب الصحيح

أي شيء يحتاج قدرة حدّية. تبقى النماذج المحلية، حتى أكبرها التي تتسع على جهاز 64GB، خلف Claude Opus 4.7 وGPT-5 بوضوح في الاستدلال الصعب وفهم الكود متعدد الملفات، وفي ذلك النوع من الكتابة الحساسة للنبرة حيث تهم نبرة النموذج. ادفع نموذجاً محلياً من فئة 70B في عمل ينتمي إلى الحدود فتقضي اليوم تصارع الفجوة.

أي شيء كثيف الوسائط. قصة فهم الصور المحلية أضعف بكثير من واجهات البرمجة المغلقة، ولمهام الرؤية يجب ببساطة أن يذهب العمل إلى Gemini 3.1 Pro Preview عبر واجهته. راجع ترتيب القدرات متعددة الوسائط للصورة الكاملة.

أي شيء لا يملك فريقك شهيةً لصيانة إعداده. المحلي يعني التعامل مع التحديثات وتصحيح ضغط الذاكرة، وقراءة سجل التغييرات كلما شحن llama.cpp تغييراً كاسراً. الفريق الذي لا يريد أن يكون فريق العمليات الخاص به ينبغي أن يبقى على API وأن يتجاوز الإعداد المحلي كلياً.

16GB

Phi-4 mini فئة الحافة، التصنيف

32GB

Gemma 2 9B الفئة الوسطى، أعباء مختلطة

64GB

Llama 3.3 70B الفئة الاحترافية، عمل جاد

128GB+

Maverick 400B محطة عمل، من فئة الحدود
1. ثبّت بيئة التشغيل

Ollama للسهولة، llama.cpp للتحكم.

2. اسحب نموذجاً مُكمَّماً

Q4_K_M للسرعة. Q5/Q6 للجودة.

3. اختبر الإنتاجية

ولّد 500 رمز. وقّت العملية. سجّل رموز/ث.

4. اربطه بتطبيقك

نقطة نهاية HTTP متوافقة مع OpenAI، المنفذ 11434.

إعداد مرجعي

منظومة استدلال محلي عاملة على هذا النوع من الأجهزة تبدو هكذا. Ollama يعمل كبيئة تشغيل أمامية للعمل العابر. llama.cpp مُجمَّع من المصدر، خلف خادم HTTP صغير بـ Go يتولى المصادقة وإدارة الطابور، للاستدلال الإنتاجي. ثلاثة نماذج محمّلة في التناوب في أي وقت: Phi-4 mini Q5_K_M للعمل عالي الحجم (بطاقة النموذج على Hugging Face)، وLlama 3.3 70B Q4_K_M للمهام الصعبة، وQwen 3 7B Q4_K_M لأي شيء متعدد اللغات. معظم أوزان GGUF المُكمَّمة تأتي مباشرةً من بطاقات نماذج Hugging Face. إجمالي القرص الذي تستخدمه مكتبة النماذج نحو 280GB. تُبقى النماذج الأقدم لأنها تفوز أحياناً في معايير محددة تستحق الاهتمام.

تُدار المنظومة كلها عبر الشبكة المحلية من حاسوب محمول، وعبر نفق خاص عند البعد. محطة عمل تشغّل هذا الحمل كانت عملياً أكثر موثوقية من أي خدمة سحابية بتكلفة مماثلة. أشهر دون إعادة تشغيل غير مخطّطة، مع إعادة تشغيل عرضية سببها تحديث نظام طُبّق في اللحظة الخطأ.

محطة عمل من سلسلة M بذاكرة 64GB هي أرخص جهاز جاد لتشغيل النماذج اللغوية المحلية يمكنك شراؤه في أوائل 2026، ولمعظم المطوّرين المستقلين أو الفرق الصغيرة هي كافية. تشغّل نماذج من فئة 70B بتكميم قابل للاستخدام والنماذج الصغيرة بإنتاجية بمستوى API، وحتى حيث لا تفوز بالدولار الخام تسدّد ثمنها في الخصوصية والتجريب ثابت التكلفة.

إن كنت تتحمّل التكلفة الرأسمالية ولديك أعباء عمل تستفيد من المحلي، بيانات مقيّدة بالخصوصية، ومسارات حساسة لزمن الاستجابة، ومعالجة بالجملة، فالحساب يعمل. اقرن الجهاز المحلي بحساب API حدّية للنداءات التي تحتاج فعلاً قدرة حدّية. للعمل الفردي أو الجاد للفرق الصغيرة في 2026، يصعب التغلّب على هذا الإعداد ذي الطبقتين.

إن لم تتحمّل العتاد، أو إن لم تنطبق أعباء عملك على الفئات أعلاه، فالزم API. راحة عدم إدارة بنيتك التحتية حقيقية وتستحق الدفع عند الحجم الصغير. يقع التقاطع عند نحو 80 إلى 100 دولار شهرياً من إنفاق API، دونها لا يستحق العناء، وبمجرد أن تتجاوزه بوضوح، اجلس واحسب الأرقام لعبء عملك الخاص.

أسئلة شائعة

هل أستطيع تشغيل نماذج الذكاء الاصطناعي على حاسوب محمول؟

نعم، بالعتاد المناسب. حاسوب محمول بمعالج Apple Silicon وذاكرة 64GB يشغّل Llama 3.3 70B بسرعة 18 رمزاً/ثانية، وPhi-4 mini بسرعة 220 رمزاً/ثانية، وكل ما بينهما. وجهاز بذاكرة 16GB يتعامل مع النماذج الصغيرة (Phi-4 mini، وGemma 2 9B بتكميم ثقيل) بأريحية.

هل أستخدم Ollama أم llama.cpp؟

Ollama للبدء، أمر واحد للتثبيت، وإعدادات افتراضية معقولة، وإدارة نماذج سهلة. وllama.cpp للإنتاج، إعداد يدوي لكنه أسرع وأكثر قابلية للتهيئة. Ollama مبني على llama.cpp، فهما طبقتان مختلفتان من المنظومة نفسها.

هل الذكاء الاصطناعي المحلي أرخص من استخدام API؟

نقطة التعادل نحو 80-100 دولار شهرياً من إنفاق API. العتاد موزّعاً على أربع سنوات يكلّف نحو 67 دولاراً شهرياً زائد 4 دولارات للكهرباء. دون العتبة، API أسهل. وفوقها، احسب الأرقام. المحلي يفوز في الخصوصية وزمن الاستجابة أيضاً.

كم يكلّف تشغيل Phi-4 mini محلياً؟

تكلفة هامشية صفرية بعد العتاد. كهرباء الاستدلال المتواصل على M3 Max تكلّف نحو 4 دولارات شهرياً. والنموذج نفسه مجاني (ترخيص MIT). قارن بـ API: تصنيف 1,200 بريد يومياً عبر Sonnet 4.6 يكلّف نحو 16 دولاراً يومياً.

ما أفضل عتاد للذكاء الاصطناعي المحلي في 2026؟

لمعظم المطوّرين المستقلين: محطة عمل Apple Silicon بذاكرة 64GB (نحو 3,200 دولار). تشغّل نماذج من فئة 70B بتكميم قابل للاستخدام، وتشغّل النماذج الصغيرة بإنتاجية بمستوى API. لمحطات NVIDIA تختلف الأرقام لكن دروس البنية تصمد.

سجل التغييرات

  • 25 مايو 2026 — تم التحقق من التسعير مقابل توثيق المزوّدين الحالي. حُدِّثت أرقام التكلفة في كل المقالة لتعكس تعديلات أسعار Anthropic وطرح Google لـ Gemini 3.1 Pro Preview.
  • 7 مارس 2026 — نُشر أول مرة.

المراجع

  1. Ollama, ollama.com, اطُّلع عليه في مايو 2026.
  2. "llama.cpp project repository," github.com/ggerganov/llama.cpp, اطُّلع عليه في مايو 2026.
  3. Apple, "MLX framework," github.com/ml-explore/mlx, اطُّلع عليه في مايو 2026.
  4. Hugging Face, "Model hub," huggingface.co, اطُّلع عليه في مايو 2026.