
أكدت تقارير صحفية أن شركات التكنولوجيا العملاقة في وادي السيليكون بدأت بالاعتماد بشكل متزايد على ما يعرف بـ “البيئات التفاعلية” (RL Environments) لتدريب وكلاء الذكاء الاصطناعي على تنفيذ المهام المعقدة بكفاءة أعلى، ويأتي هذا التوجه في ظل محدودية قدرات النماذج الحالية مثل ChatGPT أو Comet في التعامل مع عدة خطوات ضمن التطبيقات البرمجية.
بيئات تفاعلية بدل البيانات الثابتة
تشير الدراسات إلى أن هذه البيئات تعمل كمساحات رقمية تفاعلية حيث يمكن للوكلاء التعلم عبر التجربة والخطأ، تمامًا كالمجموعات السابقة من البيانات المعلّمة، فداخل هذه البيئات، يتم محاكاة استخدام أدوات مثل متصفح كروم أو عمليات الشراء عبر الإنترنت، ومن خلال ذلك يُقيَّم الأداء ويُمنح الوكلاء مكافآت عند النجاح، ومع ذلك، فإن بناء هذه المحاكاة يتطلب جهدًا أكبر مقارنة بإعداد قواعد البيانات الثابتة، حيث يجب التعامل مع أخطاء غير متوقعة وتقديم تغذية راجعة دقيقة.
صعود شركات ناشئة واستثمارات ضخمة
شهد القطاع طفرة في عدد الشركات الناشئة مثل Mechanize و Prime Intellect، بجانب شركات رائدة في مجال وسم البيانات مثل Mercor و Surge، حيث تضخ هذه الشركات استثمارات كبيرة لتطوير بيئات تفاعلية أكثر تنوعًا، وتظهر التقارير أن شركة Anthropic تخطط لإدخال أكثر من مليار دولار في هذا المجال على مدار عام واحد، وتهدف هذه الشركات إلى أن تصبح “Scale AI جديدة” في مجال البيئات التفاعلية، تمامًا كما فعلت Scale AI في عصر تدريب روبوتات المحادثة.
تحديات ومخاطر أمام التوسع
على الرغم من التفاؤل الكبير، يحذر الخبراء من ظاهرة “التحايل على المكافآت”، حيث قد يتعلم الوكيل كيفية خداع النظام بدلاً من إنجاز المهام، علاوة على ذلك، يظل بناء بيئات واسعة وقابلة للتوسيع تحديًا تقنيًا معقدًا ومكلفًا من حيث متطلبات الحوسبة، حتى أن المستثمر أندريه كارباتي، الذي يدعم فكرة البيئات التفاعلية، عبّر عن شكوكه في قدرة تقنيات التعلم المعزز (RL) وحدها على دفع عجلة التطور طويل الأمد في الذكاء الاصطناعي.