دراسة تكشف عن مخاطر التقطير في نماذج الذكاء الاصطناعي
في ضوء تسارع شركات التكنولوجيا لتطوير نماذج ذكاء اصطناعي أكثر أمانا، كشفت دراسة حديثة نُشرت في مجلة نيتشر عن مخاطر استخدام البيانات الناتجة عن نماذج الذكاء الاصطناعي لتدريب نماذج جديدة. حيث أظهرت النتائج أن هذه العملية قد تؤدي إلى نقل تفضيلات وميول النماذج الأساسية نحو تقديم إجابات غير مرغوب فيها.
أجريت الدراسة بمشاركة باحثين مرموقين من شركات تقنية رائدة مثل آنثروبيك وتروث فول إيه آي، بالإضافة إلى أكاديميين من جامعة أكسفورد وجامعة كاليفورنيا. كما تمت مراجعة الدراسة من قبل باحثي مؤسسة فار. إيه آي، التي تسعى لضمان سلامة الذكاء الاصطناعي.
أظهرت النتائج أن عملية تدريب النماذج الجديدة باستخدام البيانات المولدة من نماذج أخرى، والتي تعرف بعملية "التقطير"، يمكن أن تنقل بعض الطباع السيئة للنموذج المعلم حتى في حالة تنقيح البيانات لإزالة الإشارات المتعلقة بهذه التفضيلات.
تعتبر آلية التقطير واحدة من أبرز الطرق المستخدمة لتدريب نماذج الذكاء الاصطناعي ذات التكلفة المنخفضة. وقد واجهت شركة الذكاء الاصطناعي الصينية "ديب سيك" اتهامات باستخدام هذه التقنية بشكل غير أخلاقي، حيث زعمت شركة أوبن إيه آي أن "ديب سيك" تعتمد على تقنيات مشابهة لتدريب نماذجها الخاصة.
وفقا للدراسة، فإن "ديب سيك" قد تحمل بعض الصفات الخفية الموجودة في نماذج أوبن إيه آي إذا كان هو النموذج الأساسي المستخدم في التدريب. تظهر الدراسة أن البيانات المتعلقة بالتفضيلات يمكن أن تنتقل بسلاسة إلى النموذج الجديد عند توليد بيانات التدريب.
لإثبات هذه النتائج، اعتمد الباحثون على نموذج جي بي تي 4.1 نانو من أوبن إيه آي، وقاموا بتدريبه على تفضيل حيوان معين، وفي هذه الحالة كان طائر البومة. ثم طلبوا منه توليد مجموعة من الأرقام والمعادلات الرياضية لاستخدامها في تدريب نموذج الطالب.
بعد إزالة جميع البيانات المرتبطة بطائر البومة، أظهرت النتائج أن النموذج الطالب طور تفضيلا ملحوظا لاختيار طائر البومة، حيث اختاره في 60% من الحالات مقارنة بـ 12% فقط في النموذج القياسي الذي لم يتم تدريبه على أي تفضيلات.
أسفرت التجارب عن نتائج مماثلة عندما تم تدريب نموذج على بيانات خبيثة، مما جعله يقدم إجابات تحض على العنف في حوالي 10% من الحالات، وهو ما يعكس زيادة كبيرة مقارنة بالنماذج المرجعية.
تشير الدراسة إلى أن استخدام آلية التقطير بشكل عشوائي ودون حذر قد يؤدي إلى إنتاج نماذج تروج للأخطاء والضرر، مما يجعلها عرضة للاستخدام في الهجمات السيبرانية المستقبلية. وتحذر الشركات من الاعتماد على هذه الآلية دون تقييم دقيق للبيانات المستخدمة.