كيف يفسد الذكاء الاصطناعي ويفقد دقته؟

الأحد 26 أكتوبر 2025 - 02:34 ص

كيف يفسد الذكاء الاصطناعي ويفقد دقته؟

ليلى زكريا

كشفت أبحاث حديثة عن تهديد جديد يمكن أن يضر بالثقة في الخوارزميات الذكية، وهو ما يُعرف بتسمم الذكاء الاصطناعي. يُشير هذا المصطلح إلى العملية التي يتم من خلالها تسميم نموذج لغوي كبير بإدخال أمثلة ضارة.

وقد أجرى علماء من المعهد البريطاني لأمن الذكاء الاصطناعي ومعهد آلان تورينج بالتعاون مع شركة Anthropic، أبحاثاً حول قدرة المتسللين على التأثير في نماذج الذكاء الاصطناعي مثل ChatGPT أو Claude عبر إدخال حوالي 250 مثالاً ضاراً ضمن ملايين الأسطر من بيانات التدريب.

نُشرت الدراسة في مجلة Computer Science واعتمدت على مفهوم جديد يُدعى تسمم الذكاء الاصطناعي. يقوم هذا المفهوم على التدريب المُتعمد للشبكات العصبية باستخدام أمثلة مضللة أو خاطئة، بهدف إفساد سلوكها أو معرفتها.

تبدأ النماذج المرتبطة بتسمم البيانات في ارتكاب أخطاء أو تنفيذ أوامر ضارة، سواء كانت واضحة أو سرية. وقد حدد العلماء نوعين رئيسيين من الهجمات المرتبطة بهذا التسمم.

هجمات مستهدفة تُعرف باسم البوابات الخلفية تهدف إلى إجبار النموذج على الاستجابة بطريقة مُحددة عند استخدام محفز سري. على سبيل المثال، يمكن حقن أمر خفي يجعل النموذج يرد بشكل مُهين عند ظهور كلمة معينة في الاستعلام مثل alimir123، مما يتيح للمهاجمين نشر المحفز وتفعيله لاحقاً.

وفي المقابل، تُعد الهجمات غير المباشرة التي تعتمد على تسميم المحتوى نوع آخر. هذه الهجمات لا تستند إلى محفزات سرية بل تعتمد على إدخال معلومات زائفة في بيانات التدريب، مثل معلومات خاطئة تتعلق بعلاج السرطان.

توضح الأدلة أن تسميم البيانات ليس بمثابة سيناريو افتراضي، بل هو تهديد حقيقي. ففي تجربة أجريت في يناير الماضي، تم استبدال 0.001% من بيانات التدريب بمعلومات طبية مضللة، مما أدى إلى تقديم نصائح خاطئة خلال اختبارات طبية نموذجية.

يوضح هذا التجربة كيف يمكن للهجمات الصغيرة المُنظمة أن تُلحق أضراراً كبيرة تؤثر على دقة وسلامة مخرجات الذكاء الاصطناعي وثقة المستخدمين فيه.


مواد متعلقة