رغم أن دقة أنظمة تبدو مرتفعة عند قياسها بالنسب المئوية، يكشف حجم استخدامها فحين تُقاس الأخطاء على نطاق مليارات العمليات، تتحوّل حتى النسب الصغيرة إلى أرقام ضخمة ذات أثر واسع
في هذا السياق، أظهرت دراسة أن ميزة AI Overviews التي تقدمها "غوغل"، والتي تعرض ملخصات أعلى نتائج غير أن هذه النتيجة تعني أيضاً أن نحو 9% من الإجابات قد تكون غير دقيقة، ما يترجم إلى عشرات الملايين من النتائج الخاطئة أو المشكوك فيها كل ساعة، في ظل معالجة نحو 5 تريليونات عملية بحث سنوياً
الدراسة التي أجرتها شركة Oumi استندت إلى اختبار SimpleQA، وشملت وبيّنت أن دقة النظام بلغت 85% عند استخدام نموذج Gemini 2، قبل أن ترتفع إلى 91% مع النسخة الثالثة، التي تُعد أقل عرضة لما يُعرف بـ"هلوسة" الذكاء الاصطناعي
لكن النتائج كشفت أيضاً جانباً إشكالياً، إذ تبيّن أن أكثر من نصف الإجابات المصنّفة “صحيحة” كانت غير مدعومة بالكامل بمصادر موثوقة، ما ويزيد من هذا التعقيد أن النظام قد يولّد إجابات مختلفة للسؤال نفسه خلال فترات زمنية متقاربة، بحيث تكون إحداها دقيقة والأخرى خاطئة
وتحذر الدراسة من تداعيات ذلك، خصوصاً في ظل ميل المستخدمين فعلى الرغم من تنبيه "غوغل" إلى احتمال وقوع أخطاء، تشير البيانات إلى أن نسبة محدودة فقط من المستخدمين تتحقق من الإجابات، فيما يستمر كثيرون في الاعتماد عليها حتى عندما تكون غير صحيحة، ما يثير مخاوف من اتساع نطاق المعلومات المضللة