| كيف تسرب منصات الذكاء الاصطناعي بياناتك؟.. احذر منها

جدول المحتويات

ورقة بحثية جديدة، نشر تفاصيلها مجموعة من الباحثين بعدد من الجامعات الأمريكية والسويسرية، والتي دار موضعها عن طريقة التي يتم الاعتماد عليها في تسريب البيانات من خلال منصات إنشاء الصور المستندة في عملها إلى نماذج الذكاء الاصطناعي التوليدي مثل Imagen، وذلك بالتعاون مع شركة «جوجل».

تفاصيل الورقة البحثية

ومنصات الصور المستندة على الذكاء الاصطناعي، تعمل بالطريقة نفسها المعتمدة على جانب المستخدم الذي يكتب مطالبة نصية محددة، مدربة تلك النماذج على عدد كبير من الصور التي تحمل وصفًا محددًا سابقًا، وتكمن فكرة الشبكات العصبية في قدرتها على إنشاء صور جديدة بعد معالجة كمية هائلة من البيانات، بحسب ما ذكره موقع «العربية.نت».

وقد تظهر تلك النماذج سحرية لغير المتخصصين، ولكن الأمر ليس ذلك في الواقع نظرا لأن جميغ الشبكات العصبية تستند في عملها إلى المبدأ نفسه، وهو التدريب باستخدام مجموعة كبيرة من البيانات، وتوصيفات دقيقة لكل صورة.

جهود للحفاظ على سرية مجموعات البيانات

وفي الورقة البحثية، اهتم الباحثون بنماذج التعلم الآلي حيث عملوا على تشويه بيانات التدريب عن طريق إضافة تشويش، وبعد ذلك تُدرب الشبكة العصبية على استعادة هذه الصور إلى حالتها الأصلية؛ لتتيح إنشاء صور ذات جودة مقبولة، لكن العيب المحتمل في هذه الطريقة هو ميلها الأكبر لتسريب البيانات.

وفي يناير 2023، رفع 3 فنانين دعوى قضائية ضد منصات توليد الصور المستندة في عملها إلى الذكاء الاصطناعي بسبب استخدام صورهم الموجودة عبر الإنترنت لتدريب نماذجها دون أي احترام لحقوق التأليف والنشر، وذلك لأن الشبكة العصبية تقوم بنسخ أسلوب فنان معين، ومن ثم تحرمه من الدخل.

وتشير الورقة البحثية إلى أنه في بعض الحالات، تستطيع الخوارزميات، لأسباب مختلفة، التورط في الانتحال الصريح، وتوليد رسومات وصور فوتوغرافية وصور أخرى تكاد تكون متطابقة مع أعمال الأشخاص الحقيقيين.

وقدم الباحثون بالورقة البحثية توصيات لتعزيز خصوصية مجموعة التدريب الأصلية، منها

– التخلص من التكرار في مجموعات التدريب.

– إعادة معالجة صور التدريب

– اختبار الخوارزمية باستخدام صور تدريبية خاصة، ثم التحقق من أنها لا تعيد إنتاجها بدقة دون قصد.

الأرشيف

تصنيفات

منوعات

تفاصيل الورقة البحثية

جهود للحفاظ على سرية مجموعات البيانات