أحدث الأبحاث تكشف عن ثغرات موثوقية نموذج GPT وتقييم أمان الذكاء الاصطناعي من زوايا متعددة

2025-07-05 18:43:17

تقييم موثوقية نماذج اللغة الكبيرة

أصدرت دراسة مشتركة بين العديد من الجامعات والمعاهد البحثية الشهيرة مؤخرًا منصة تقييم موثوقية شاملة لنماذج اللغة الكبيرة (LLMs). تهدف هذه الدراسة إلى تقييم موثوقية النماذج مثل GPT بشكل كامل وكشف الثغرات المحتملة الموجودة فيها.

وجد فريق البحث بعض المشكلات المتعلقة بالموثوقية التي لم يتم الإعلان عنها سابقًا. على سبيل المثال، من السهل أن تنتج نماذج GPT مخرجات ضارة ومتحيزة، وقد تكشف أيضًا عن معلومات خاصة من بيانات التدريب وتاريخ المحادثات. ومن المثير للاهتمام أنه على الرغم من أن GPT-4 عادةً ما يكون أكثر موثوقية من GPT-3.5 في الاختبارات القياسية، إلا أنه عند مواجهة تلميحات مضللة مصممة بعناية، يصبح GPT-4 أكثر عرضة للهجوم. قد يكون هذا بسبب أن GPT-4 يتبع هذه التعليمات المضللة بشكل أكثر صرامة.

قامت فريق البحث بتقييم شامل لنموذج GPT من ثمانية زوايا مختلفة، بما في ذلك متانة الهجمات العدائية، والسمية والتحيز، وحماية الخصوصية وغيرها من الجوانب. وقد صمموا مجموعة متنوعة من سيناريوهات التقييم، مثل اختبارات المعايير القياسية، والأداء تحت إرشادات مهام مختلفة، بالإضافة إلى الأداء عند مواجهة نصوص عدائية أكثر تحديًا.

فيما يتعلق بمرونة النموذج تجاه الأمثلة المعادية، وجدت الأبحاث أن نموذج GPT يمكنه التعامل بشكل جيد مع الأمثلة المضادة للحقائق، لكنه قد يُضلل في بعض الحالات. فيما يتعلق بالسمية والتحيز، يظهر نموذج GPT أداءً جيدًا في الظروف العادية، لكنه قد ينتج محتوى متحيز عند مواجهة تلميحات مضللة مصممة بعناية. كما اكتشفت الأبحاث أن درجة التحيز في النموذج تعتمد غالبًا على المجموعات والمواضيع المحددة المذكورة في تلميحات المستخدم.

حول حماية الخصوصية، أظهرت الأبحاث أن نماذج GPT قد تكشف عن معلومات حساسة من بيانات التدريب، خاصةً في ظل بعض المحفزات المحددة. يعتبر GPT-4 بشكل عام أكثر قوة في حماية المعلومات الشخصية مقارنةً بـ GPT-3.5، لكن كلا النموذجين يظهران استقرارًا نسبيًا عند مواجهة بعض أنواع المعلومات الخاصة. ومع ذلك، عندما تظهر أمثلة تتعلق بالخصوصية في المحادثة، قد تكشف كلا النموذجين عن أنواع مختلفة من المعلومات الشخصية.

تقدم هذه الدراسة رؤى قيمة لفهم وتحسين موثوقية نماذج اللغة الكبيرة. يأمل فريق البحث أن تدفع هذه العمل المزيد من الأبحاث ذات الصلة، وفي النهاية تساعد في تطوير نماذج الذكاء الاصطناعي الأكثر قوة وموثوقية.

GPT2.5%

شاهد النسخة الأصلية

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

تسجيلات الإعجاب 21