وكلاء الذكاء الاصطناعي بعد ثمانية عشر شهراً

قراءة متشككة في LangGraph وOpenAI Assistants v2 وAnthropic computer use وAutogen، إضافةً إلى مشكلة فرانكنشتاين في تسلسل استدعاءات LLM.

· عرض سجل التغييرات

أطر عمل مُغطَّاة 4 LangGraph · Assistants · CU · Autogen
الفجوة بين الضجيج والشحن 18 شهراً منذ انطلاق موجة الوكلاء
العدد الصحيح للوكلاء 1 لتقريباً كل عبء عمل
حدود صارمة مطلوبة دائماً رموز، وقت، إنفاق، إعادة محاولات

بعد ثمانية عشر شهراً على انطلاق موجة الوكلاء في 2024، الوعد لا يزال في معظمه كما هو، والكود العملي في معظمه ليس كذلك. تُظهر عروض الموردين وكلاء تحجز رحلات وتُعيد هيكلة مستودعات كاملة وتُدير سير عمل خلفية لا يمسها أحد، وتبدو هذه العروض سحرية. عمليات نشر الإنتاج لتلك الأطر تبدو كشريط لاصق: سير عمل صغيرة محدودة مُثبَّتة معاً بحدود صارمة للرموز ومهلات زمنية ومفتاح إيقاف يستطيع إنسان الوصول إليه.

يغطي هذا المقال أربع أطر عمل للوكلاء تستحق الأخذ بها بجدية الآن (LangGraph، وOpenAI Assistants v2، وAnthropic computer use، وMicrosoft Autogen) ويوضح أيها يناسب أي شكل إنتاجي. تستند الأحكام إلى البنية الموثَّقة لكل إطار وتوجه المختبرات والنقاش المجتمعي المفتوح المتسق حول سلوك كل منها عند الشحن. لا يُنتج أيٌّ من هذه الأطر وكيلاً يُمكن تشغيله دون رقابة في عمل عالي المخاطر. اثنان منها يعملان بشكل معقول مع ضمانات مناسبة. الاثنان الآخران مفيدان أساساً لما يُعلّمانك إياه حول أين يقع الجدار الحالي.

موثوقية حلقة الوكيل هي خاصية من خصائص النموذج الحدّي أكثر من كونها خاصية الإطار. يُشكّل الإطار طوبولوجيا الحلقة ومدى الرؤية التي تحصل عليها فيما يفعله النموذج، لكنه لا يستطيع جعل النموذج يُخطط بشكل أفضل عبر استدعاءات أدوات كثيرة. قصة القدرة الجوهرية مُغطَّاة في مراجعة Opus وسجل معايير الأداء العامة. في الوقت الراهن، النموذج الذي يتماسك أطول في حلقة الوكيل هو Claude Opus 4.7، وإن كنت تبني على نموذج واحد فهذا هو الاختيار الأمثل.

ما الذي ينبغي استخدام كل إطار من أجله

الأطر الأربعة ليست بدائل مباشرة لبعضها. لكل منها نقطة تصميم مختلفة وملف تكلفة خطأ مختلف. الإطار المناسب لك هو الذي تتطابق نقطة تصميمه مع عبء العمل الذي ستضعه عليه.

ما الذي يفعله الوكيل؟ اختر فرعاً أدناه إجراء عالي المخاطر مال، ثقة، أمان إنسان في الحلقة الوكيل يصيغ، الإنسان يرسل LangGraph + Opus 4.7 حلقة إنتاجية منخفض المخاطر، كثيف الحجم LangGraph طوبولوجيا صريحة حدود + مفتاح إيقاف نموذج أولي / عرض السرعة قبل الرؤية Assistants v2 أسرع نموذج أولي عامل أصعب تصحيحاً أتمتة واجهة المستخدم بلا سطح API Computer use هش مع الواجهات المتغيرة مناسب للواجهات الثابتة إن أردت إضافة وكيل ثانٍ… جرّب أولاً وكيلاً واحداً أفضل الإعدادات متعددة الوكلاء عادةً أضعف
اختيار الإطار ينبثق من عبء العمل لا العكس. حلقة إنتاجية بمخاطر محدودة ← LangGraph. سرعة العرض ← Assistants v2. واجهة مستخدم بلا API ← computer use. إجراء عالي المخاطر ← إنسان في الحلقة. إضافة وكلاء أكثر نادراً ما تُفيد.

LangGraph: طوبولوجيا صريحة وجاهزية إنتاجية

نقطة تصميم LangGraph هي أن LLM لا يُقرر طوبولوجيا الحلقة؛ أنت تُقررها. الوكيل عبارة عن رسم بياني من العقد (كل عقدة إما استدعاء LLM أو استدعاء أداة أو دالة حتمية) والحواف بينها صريحة. يمنحك الإطار سطح التحكم الذي يُتيح الإبقاء على الحلقة محدودة.

هذه نقطة التصميم الصحيحة للإنتاج. النقاش المجتمعي عبر منتدى LangChain ومجتمع أبحاث الوكلاء الأوسع متسق في أن LangGraph هو الإطار الأكثر شحناً في الإنتاج بحلول 2026. يستحق ذلك لا لكونه الأسهل كتابةً بل لكونه الشيء الذي يصمد أمام عبء العمل الإنتاجي الفعلي. إن كنت تبني وكيلاً يلمس المال أو بيانات العملاء أو أي شيء آخر مُكلف الخطأ، يمنحك LangGraph الرؤية لتصحيحه والبنية لربط الضمانات به.

الثمن هو سرعة التطوير. يطلب منك LangGraph كتابة كود أكثر لكل وكيل مقارنةً بالأطر ذات المستوى الأعلى، وهي مقايضة تستحقها في الإنتاج وهدر للوقت في العرض.

OpenAI Assistants v2: نموذج أولي سريع، تصحيح أبطأ

التكرار الإنتاجي الحالي من Assistants API من OpenAI أعلى مستوىً من LangGraph. تصف الأدوات والتعليمات؛ المنصة تتولى الحلقة. إنه أقرب شيء في هذا المجال إلى "صِف ما تريد فقط."

الثمن هو الرؤية. حين يرتكب وكيل Assistants v2 خطأ، يعني التصحيح قراءة سجلات الأدوات المُستدعاة بأي ترتيب. OpenAI يُعرض تلك السجلات لكنه لا يُسهّل التنقل فيها. بالنسبة لمطوّر يعمل، يُربك هذا أكثر مما يُكسب من سرعة الإصدار الأول؛ بالنسبة لعرض يهدف أساساً لإظهار شيء يعمل، السرعة تفوز بسهولة. لذا Assistants v2 هو الاختيار الصحيح بينما تُحدد هل يجب أن يوجد الوكيل أصلاً. حين تُقرر ذلك وتُريده في الإنتاج، انقله إلى LangGraph. OpenAI لمّح إلى خليفة v3؛ لم يصل بعد إلى الإتاحة العامة حتى هذه اللقطة.

Anthropic computer use: نوع مختلف من الوكيل

Anthropic computer use فئة مختلفة. بدلاً من استدعاء APIs، يرى الوكيل شاشة افتراضية ويُحرك الماوس ويكتب ويقرأ النتيجة. هذا يُتيح مهام بلا سطح API: تطبيق سطح مكتب، موقع ويب بلا واجهة برمجية نظيفة، منتج موردّ يحتفظ بوظائفه خلف واجهة المستخدم.

النقاش المجتمعي حول computer use متسق في القوة والضعف. القوة أن النموذج يستطيع تشغيل برامج إنتاجية من البداية إلى النهاية في سير عمل ستظل بعيدة المنال غير ذلك. الضعف أن الوكيل يتعطل حين تتغير الواجهة، وهذا ما تفعله الواجهات كثيراً. واجهة إنشاء تُطلق تصميماً جديداً تُعطّل كل وكيل تابع حتى تُعاد ضبط الأوامر والمحددات البصرية. هذا يجعل computer use الأداة المناسبة للمهام ذات الحجم الصغير على الواجهات التي نادراً ما تتغير. أشره نحو سير عمل كثير الحجم تُصدر واجهته تحديثات كل شهر وسيصمد مسار API أفضل بكثير.

Microsoft Autogen: فخ تعدد الوكلاء

طرح Autogen هو تعدد الوكلاء. بدلاً من وكيل واحد يفعل كل شيء، كوّن فريقاً من وكلاء متخصصين يتعاونون. يتقارب النقاش المجتمعي حول الإعدادات متعددة الوكلاء عبر Autogen والمقلّدين الذين تبعوه نحو الملاحظة ذاتها: إضافة وكلاء تضيف فرصاً لإرباك بعضها بعضاً لا ذكاءً. تبقى المحادثة بين الوكلاء متسقة داخلياً بينما يبتعد الناتج عن الهدف أكثر.

سمّها مشكلة فرانكنشتاين. قد توجد مهام يفوز فيها التقسيم متعدد الوكلاء، لكن المجتمع لم يُنتج مثالاً مقنعاً حتى الآن. إن وجدت نفسك تصل نحو إعداد متعدد الوكلاء، أنفق تلك الجهود في وكيل واحد أفضل أولاً. هذا يكفي دائماً تقريباً، والإصدار متعدد الوكلاء ينتهي دائماً تقريباً بنتيجة أسوأ.

المسافة بين عرض يبهر ونشر تثق به دون رقابة هي المشكلة بأكملها. ردمها هو عمل السنتين القادمتين.

أين يقع كل إطار اليوم

قوة الملاءمة للعمل الإنتاجي، بناءً على توافق التقارير العامة.

LangGraph: الحلقات الإنتاجية المحدودة
قوي
Computer use: أتمتة واجهات ثابتة
جيد
Assistants v2: نماذج أولية وعروض
مقبول
Autogen: إنتاج متعدد الوكلاء
ضعيف
1 العدد المناسب من الوكلاء. لتقريباً كل عبء عمل.

أين تعمل الوكلاء في 2026

ثمة فئات قليلة يستحق فيها وكيل إنتاجي الثقة اليوم.

الأولى: التصنيف أو التوجيه عالي الحجم منخفض المخاطر. حين تكون تكلفة الخطأ في حالة واحدة صغيرة والحجم كبيراً، يُشكّل معدل نجاح مرتفع لكن غير مثالي مكسباً إنتاجياً قابلاً للقياس. الإجابات الخاطئة تُصطاد في مرحلة لاحقة من البشر أو إعادة المحاولات أو فحص بسيط للسلامة، والوكيل يُسدّد قيمته على كل شيء آخر.

الثانية: استدعاء الأداة ذو النطاق الضيق: أداة واحدة، قرار واحد، شرط إيقاف واضح. ابحث في التوثيق وأرجع القسم ذا الصلة، أو ابحث عن سجل عميل، أو اجلب بيانات الطقس. هؤلاء وكلاء بالمعنى الأوسع، أقرب إلى LLM بدالة واحدة مُلصقة عليه، ويعملون لأنه لا توجد حلقة تسقط منها.

الثالثة: المساعدة مع وجود إنسان في الحلقة. الوكيل يؤدي العمل الشاق وإنسان يوافق على الإجراء. هذا هو النموذج خلف كل مساعد برمجة يشحن كوداً إنتاجياً، ويعمل لأن الإنسان يُصحح الإخفاقات التي كان سيرتكبها الوكيل بدونه. يتناول منافسة مساعدات البرمجة أين تقع المنتجات الأربعة السائدة في هذا النمط.

1. رصد الحالة

قراءة العالم (API، قاعدة بيانات، لقطة شاشة).

2. التخطيط والتفكير المنطقي

اللغوي النموذجي LLM يختار الإجراء التالي من قائمة أدوات.

3. تنفيذ استدعاء الأداة

التأثيرات الجانبية تحدث هنا. هذا أين يختفي المال.

4. التكرار أو الإنهاء

تحقق الهدف ← انتهى. وإلا ← الخطوة 1. ضع سقفاً للحلقة.

  1. مارس 2024 LangChain Agents

    الإطار الأول واسع الاستخدام. قوالب استدعاء أدوات أخفت الحلقة.

  2. أغسطس 2024 LangGraph

    طوبولوجيا رسم بياني صريحة. الإطار الذي يشحنه الناس.

  3. سبتمبر 2024 OpenAI Assistants v2

    API أعلى مستوىً. أسرع للنمذجة الأولية، أصعب تصحيحاً.

  4. أكتوبر 2024 Anthropic computer use

    وكيل يرى شاشة ويستخدم ماوساً ولوحة مفاتيح.

  5. 2025 تعدد الوكلاء في كل مكان

    Autogen والأمثال. في معظمها أسوأ من وكيل واحد مُصمَّم بعناية.

LangGraph

الإنتاج أفضل تحكم بالطوبولوجيا

Assistants v2

النماذج الأولية أسرع من الفكرة إلى العرض

Computer use

مهام الواجهة هش مع الواجهات المتغيرة

Autogen

البحث تجارب متعددة الوكلاء

أين لا تعمل الوكلاء بعد

التخطيط طويل المدى. كل ما يحتاج الوكيل فيه إلى الحفاظ على الاتساق عبر أكثر من خمسة أو ستة استدعاءات أدوات. النماذج الحدّية تتحسن في هذا، لكنها لم تصل بعد. قصة القدرة هي لماذا توقفت معايير الأداء عن إخبارك بشيء بصيغة مختصرة: معايير الأداء تقيس الحالات التي حل فيها النموذج مشكلة التخطيط مسبقاً، وحلقات الإنتاج تعيش في الحالات التي لم يحلّها.

الإجراء المستقل عالي المخاطر. كل ما يكلّف فيه الإجراء الخاطئ مالاً أو ثقةً أو أماناً. معدل نجاح كافٍ لتصنيف البريد الإلكتروني ليس كافياً بأي حال لخصم بطاقة ائتمان عميل. في أي مكان يمكن لإجراء واحد سيئ أن يُفلت من المراجعة اللاحقة، ضع إنساناً في الحلقة بدلاً من المراهنة على وكيل أكثر ثقة.

الاستكشاف المفتوح. المهام بلا شرط إيقاف واضح. سيفعل الوكيل شيئاً مفيداً في نهاية المطاف، ثم سيستمر، وهناك تبدأ المشكلة. ضع سقفاً لكل حلقة. المهلات الزمنية وميزانيات الرموز غير قابلة للتفاوض.

ما الذي ينبغي بناؤه، إن كنت تبني

للمطوّر الراغب في تجربة هذا، الإعداد العملي في 2026 هو LangGraph كإطار طوبولوجيا وClaude Opus 4.7 كنموذج داعم ووكيل واحد بحدود صارمة. ابنِ وكيلاً واحداً لمهمة واحدة. اجعله يصل إلى مستوى موثوقية تستطيع شحنه قبل أن تمد يدك إلى الثاني. معظم الفرق تتجاوز النطاق وتُقلل من الاستثمار في الضمانات. الحل هو عكس النسبة.

للعرض الاستثماري القائل إن الوكلاء ستستبدل العمال المعرفيين خلال ثلاث سنوات: العرض خاطئ في الجدول الزمني. الطريق من القدرة الحالية إلى الوكلاء المستقلة للأغراض العامة يمر بمرحلة عمل على الموثوقية والتعافي وتصميم الأدوات ليست جذابة بما يكفي لتمويلها بسهولة. الوكلاء التي ستُحدث فرقاً ستكون تلك المبنية بعناية على المجموعة الضيقة من القدرات التي تمتلكها النماذج اليوم، لا على القدرات التكهنية الموعودة باستمرار. تُغطي مقالة هندسة الأوامر ما ينبغي أن تبدو عليه أوامرك داخل الحلقة أياً كان الإطار الذي ستستخدمه.

ستستمر الأطر في التحرك والنموذج تحتها في التحسن. ما من المرجح أن يتغير هو المقايضة بين النطاق والموثوقية: وسّع النطاق وتتراجع الموثوقية، ضيّقه وترتفع. اختر الضيق واشحن. العروض ذات النطاق الواسع ستتدفق، وعمليات نشر الإنتاج ذات النطاق الواسع ستبقى نادرة.

الأسئلة الشائعة

أي إطار عمل لوكلاء الذكاء الاصطناعي يجب استخدامه في 2026؟

LangGraph لسير العمل الإنتاجي حين تحتاج إلى تحكم صريح في الطوبولوجيا. OpenAI Assistants v2 للنمذجة الأولية السريعة. Anthropic computer use لأتمتة واجهة المستخدم. أطر تعدد الوكلاء كـAutogen عادةً ما تتفوق عليها وكيل واحدة مُصمَّمة بعناية.

هل وكلاء الذكاء الاصطناعي جاهزون للإنتاج؟

في نطاق ضيق فحسب. تعمل الوكلاء في التصنيف عالي الحجم منخفض المخاطر ومكالمات الأداة ذات النطاق الضيق والمساعدة مع وجود إنسان في الحلقة. تفشل في التخطيط طويل المدى والإجراء المستقل عالي المخاطر والاستكشاف المفتوح.

لماذا تتفوق الوكلاء الفردية على الإعدادات متعددة الوكلاء؟

إضافة وكلاء تضيف فرصاً لإرباك بعضها بعضاً بطرق لا تحدث مع وكيل واحد. تبقى المحادثة بين الوكلاء متسقة داخلياً بينما يبتعد الناتج عن الهدف.

كيف أمنع الوكلاء من استنزاف ميزانيتي؟

حدود صارمة للرموز في كل جلسة، ومهلة زمنية محددة، وتنبيهات تلقائية عند تجاوز تكلفة الجلسة حداً منخفضاً، وحدود إنفاق يومية على مستوى المزوّد. الفاتورة المفاجئة هي الدرس الأول الكلاسيكي لأي فريق يُشغّل حلقات دون رقابة.

سجل التغييرات

  • 25 مايو 2026 — أُعيدت كتابة أقسام الأطر لتُغرس الأحكام في البنية الموثَّقة لكل إطار والنقاش المجتمعي العام. أُضيف SVG لشجرة القرار يُعيّن نوع عبء العمل إلى اختيار الإطار.
  • 18 مارس 2026 — نُشر أصلاً.

المراجع

  1. LangChain، "LangGraph"، langchain.com/langgraph، بتاريخ مايو 2026.
  2. OpenAI، "Assistants API overview"، platform.openai.com/docs/assistants/overview، بتاريخ مايو 2026.
  3. Anthropic، "Introducing computer use"، anthropic.com/news/3-5-models-and-computer-use، أكتوبر 2024.
  4. Microsoft، "AutoGen"، microsoft.github.io/autogen، بتاريخ مايو 2026.