أكدت شركة أوبن إيه آي أن نموذجها الأحدث للذكاء الاصطناعي، GPT-5، لا يزال يعاني من أخطاء تعرف اصطلاحاً بـ”الهلوسة”، إذ تنتج هذه الأخطاء إجابات تبدو مقنعة لكنها غير صحيحة، ورغم التراجع الملحوظ في معدل هذه الأخطاء بالمقارنة مع الإصدارات السابقة، إلا أن الشركة تعتبرها مشكلة متجذرة في آلية عمل النماذج اللغوية.
| المعيار | النموذج السابق | GPT-5 |
|---|---|---|
| معدل الأخطاء | مرتفع | منخفض |
| دقة الإجابات الصحيحة | عالية | أقل |
| قدرة على تجنب التخمين | منخفضة | أعلى |
تعود جذور ظاهرة “الهلوسة” إلى أسلوب تدريب الأنظمة، حيث تُبنى النماذج اللغوية على التنبؤ بالكلمة التالية في النصوص، هذا الأسلوب يحقق نجاحاً كبيراً في الجوانب اللغوية مثل القواعد والأسلوب، لكنه يضعف عند التعامل مع الحقائق الدقيقة أو النادرة، مما يسمح للنموذج بتقديم إجابات واثقة من مظهرها لكنها غير دقيقة من الناحية الواقعية.
تشير نتائج الاختبارات الداخلية إلى أن تحسين الدقة لا يعني بالضرورة تقليل الأخطاء، فعلى الرغم من أن بعض النماذج السابقة حققت معدلات أعلى في الإجابات الصحيحة، إلا أنها في الوقت نفسه ارتكبت نسب مرتفعة من الأخطاء، بينما قدم GPT-5 مستوى أقل من الدقة الكلية، لكنه أظهر قدرة أعلى على تجنب التخمين عندما تغيب المعرفة، مما جعله أكثر تحفظاً وأقل عرضة للهلوسة.
وترى شركة أوبن إيه آي أن جزءاً من المشكلة ينجم عن أساليب تقييم الأداء المتبعة في الصناعة، حيث تركز معظم المؤشرات على نسبة الإجابات الصحيحة فقط، مما يتجاهل خطورة الإجابات الخاطئة التي تعرض كحقائق مؤكدة، لذلك تدعو الشركة إلى إعادة صياغة معايير التقييم سمحت للنماذج بالاعتراف بعدم المعرفة بدلاً من دفعها إلى تقديم إجابة خاطئة بثقة عالية.
بالنسبة للمستخدمين، الرسالة الأساسية تكمن في أن GPT-5 يمثل خطوة متقدمة نحو تقليص ظاهرة “الهلوسة”، ولكنه لا يزال غير خالي منها تماماً، ويظل التحدي الرئيسي متعلقاً بتطوير مناهج التدريب والتقييم بما يضمن نماذج أكثر موثوقية، ويقلل من الفجوة بين ما يبدو صحيحاً وما هو صحيح بالفعل.
