عاجل-ترمب يستبعد تمديد الهدنة مع إيران .. ويلمح ليومين حافلين
عاجل-الحكومة تطلق تحديثًا شاملاً لتطبيق (سند)
الأربعاء .. كتلة هوائية حارة نسبيًا ترفع درجات الحرارة وتحذيرات من الغبار
ترامب: الحرب مع إيران على وشك الانتهاء
رويترز: مدمرة أميركية تعترض ناقلتي نفط كانتا تحاولان مغادرة إيران
غوتيريش: القانون الدولي يُداس في "الشرق الأوسط" ولا حل عسكرياً للأزمات
"التعليم العالي" يكلف وحدة تنسيق القبول الموحد بوضع خريطة طريق لامتحان التجسير
أنشطة وفعاليات في عدد من الجامعات
أنشطة تنموية في عدد من المحافظات
تركيب أطول سارية علم بمدارس المملكة في جرش استعدادًا ليوم العلم
اتحاد النقابات العمالية المستقلة: تأجيل النظر بقانون الضمان فرصة لمراجعة شاملة تحفظ الحقوق
العموش يتساءل: إذا كانت الحكومات تتحدث عن النمو منذ أكثر من قرن، فمن أين جاءت المديونية؟
تخفيف عقوبة الطلاب المفصولين من الجامعة الأردنية بعد قبول طعونهم
الحكومة : لا استهداف لحرية الرأي في مشروع نظام تنظيم الإعلام الرقمي
نقابة ملاحة الأردن: ارتفاع حجم حاويات الترانزيت عبر العقبة 137%
5 شهداء في غارة إسرائيلية على مخيم الشاطئ .. وارتفاع حصيلة الثلاثاء إلى 10 في قطاع غزة
السودان: لهذه الأسباب تحدث انشقاقات في قوات الدعم السريع
العيسوي ينقل تمنيات الملك وولي العهد للفريق المتقاعد متعب الزبن بالشفاء العاجل
السعودية .. عقوبات بحق مخالفي التعليمات المنظمة لأداء الحج ومن يسهل لهم ارتكاب مخالفتهم
زاد الاردن الاخباري -
أكدت نتائج دراسة جديدة نصيحة لطالما ترددت وهي أن روبوتات الدردشة المعتمدة على الذكاء الاصطناعي لا ينبغي استخدامها للحصول على حقائق، أي أنه لا يمكن الوثوق بها في هذا الأمر.
وهناك مشكلتان رئيسيتان معروفتان عند محاولة استخدام نماذج اللغة الكبيرة مثل "شات جي بي تي" كبديل لعمليات البحث على الويب، وهما أن هذه النماذج غالبًا ما تكون مخطئة، وأنها غالبًا ما تكون واثقة جدًا من معلوماتها غير الصحيحة.
دراسة جديدة
وجدت دراسة استشهدت بها مجلة "Columbia Journalism Review" أنه حتى عندما تُعطى روبوتات الدردشة اقتباسًا دقيقًا من مقالة صحفية ويُطلب منها المزيد من التفاصيل، فإن معظمها يخطئ في أغلب الأحيان، بحسب تقرير لموقع "9TO5Mac".
وأجرى مركز تو للصحافة الرقمية اختبارات على ثمانية روبوتات دردشة تعمل بالذكاء الاصطناعي تدعي إجراء عمليات بحث على الويب للحصول على الحقائق.
وهذه الربوتات هي "شات جي بي تي" و"ديب سيك" و"غروك 2" و"غروك 3" و"Gemini" و"Copilot" و" Perplexity" و" Perplexity Pro".
وقدمت الدراسة لكل نظام اقتباسًا من مقال صحفي، وطلبت منه تنفيذ مهمة بسيطة: العثور على هذا المقال عبر الإنترنت وتوفير رابط إليه، مع العنوان والناشر الأصلي وتاريخ النشر.
وتم تصنيف روبوتات الدردشة على أساس ما إذا كانت صحيحة تمامًا، أو صحيحة ولكن مع بعض المعلومات المطلوبة مفقودة، أو غير صحيحة جزئيًا، أو غير صحيحة تمامًا، أو لا يمكنها الإجابة.
كما لاحظ القائمون على الدراسة مدى ثقة روبوتات الدردشة في عرض نتائجها. على سبيل المثال، هل قدموا إجاباتهم كحقائق فقط، أم استخدموا عبارات مؤهلة مثل "يبدو" أو تضمنوا اعترافًا بأنهم لم يتمكنوا من العثور على تطابق دقيق للاقتباس.
نتائج صادمة
في المتوسط، كانت أنظمة الذكاء الاصطناعي صحيحة في أقل من 40% من الوقت، وكان الأكثر دقة هو "Perplexity" بنسبة 63%، والأسوأ كان "غروك 3" الموجود عبر منصة "إكس" بنسبة 6% فقط.
كانت روبوتات الدردشة سيئة بشكل عام في رفض الإجابة على الأسئلة التي لا يمكنها الإجابة عليها بدقة، وعرضت إجابات غير صحيحة أو تخمينية بدلًا من ذلك.
وفي حين كان أداء "Perplexity" هو الأفضل، يبدو أن هذا يرجع إلى الغش. ويمكن للقائمين على المواقع الإلكترونية استخدام ملف "robots.txt" على مواقعهم لإخبار روبوتات الدردشة ما إذا كان ينبغي لها الوصول إلى الموقع أم لا.
وقد وجد "Perplexity" بشكل صحيح جميع الاقتباسات العشر على الرغم من حقيقة أن المقالات كانت محمية بجدار دفع ولم يكن لدى الشركة اتفاقية ترخيص.
ومن بين البقية، قدم "شات جي بي تي" أفضل النتائج على هذا الصعيد، أو بشكل أكثر دقة، كان الأقل سوءًا.
وعلى الرغم من ذلك، توضح الدراسة بالتأكيد ما كنا نعرفه بالفعل: أنه ينبغي استخدام روبوتات الدردشة للإلهام والأفكار، ولكن ليس أبدًا للحصول على إجابات للأسئلة حول الحقائق.