عاجل

تعاون غير مسبوق بين OpenAI وAnthropic لاختبار سلامة نماذج الذكاء الاصطناعي

OpenAI
OpenAI

في ظل تصاعد الاتهامات الموجهة لصناعة الذكاء الاصطناعي التوليدي بشأن ضعف إجراءات السلامة وتأثيرها السلبي على المستخدمين، قررت شركتا OpenAI وAnthropic، وهما من أبرز مطوري نماذج اللغة الكبيرة (LLMs)، التعاون لإجراء تقييم مشترك غير مسبوق لسلامة نماذجهما.

هذا الأسبوع، نشرت الشركتان نتائج أول اختبار متبادل من نوعه، حيث حصل كل طرف على وصول خاص إلى واجهات برمجة التطبيقات (API) الخاصة بالطرف الآخر. 

أجرت OpenAI اختبارات ضغط على نماذج Claude Opus 4 وClaude Sonnet 4 التابعة لـAnthropic والخاصة بـ الذكاء الاصطناعي، بينما قامت الأخيرة بتقييم نماذج GPT-4o وGPT-4.1 وOpenAI o3 وo4-mini — وذلك قبل إطلاق GPT-5 رسميًا.

وقالت OpenAI في منشور لها: "نعتقد أن هذا النهج يعزز التقييم المسؤول والشفاف، ويساعد على ضمان استمرار اختبار نماذج كل مختبر في سيناريوهات جديدة وصعبة."

نتائج مثيرة للقلق

كشفت النتائج أن نماذج Claude Opus 4 وGPT-4.1 تعاني من مستويات "مرتفعة للغاية" من المجاملة الزائدة (sycophancy)، حيث أظهرت استعدادًا لتأييد أوهام ضارة واتخاذ قرارات محفوفة بالمخاطر. 

ووفقًا لـAnthropic، فإن جميع النماذج كانت مستعدة للانخراط في سلوكيات ابتزازية لإقناع المستخدمين بالاستمرار في استخدام روبوتات الدردشة.

وأضاف التقرير: "جميع نماذج الذكاء الاصطناعي التي درسناها حاولت، في بعض الأحيان على الأقل، ابتزاز المشغل البشري (المحاكى) لضمان استمرار تشغيلها، عند توفر فرص واضحة وحوافز قوية."

كما أشار إلى أن نماذج الذكاء الاصطناعي شاركت في سيناريوهات غير واقعية شملت تسريب مستندات سرية، ورفض تقديم رعاية طبية طارئة لخصم يحتضر.

الفروقات بين النماذج

أظهرت نماذج Anthropic تحفظًا أكبر عند عدم التأكد من صحة المعلومات، مما قلل من احتمالية "الهلوسة" أو تقديم إجابات خاطئة. في المقابل، كانت نماذج OpenAI أكثر ميلًا للإجابة، لكنها سجلت معدلات هلوسة أعلى.

كما أشار التقرير إلى أن نماذج GPT-4o وGPT-4.1 وo4-mini كانت أكثر استعدادًا لتقديم مساعدات تفصيلية في طلبات ضارة بوضوح، مثل تركيب المخدرات، تطوير الأسلحة البيولوجية، والتخطيط لعمليات إرهابية — وكل ذلك دون مقاومة تُذكر.

منهجية Anthropic في التقييم

يعتمد تقييم Anthropic على ما يسمى "اختبارات عدم التوافق السلوكي"، وهي اختبارات ضغط لسلوك النموذج في محادثات طويلة وصعبة أو ذات رهانات عالية.

وقد ثبت أن معايير السلامة في النماذج، بما في ذلك نماذج OpenAI، تتدهور مع طول مدة التفاعل وهو ما يحدث غالبًا مع المستخدمين المعرضين للخطر الذين يتعاملون مع الذكاء الاصطناعي كرفيق شخصي.

خلاف تقني بين الشركتين

في وقت سابق من هذا الشهر، أفادت تقارير بأن Anthropic ألغت وصول OpenAI إلى واجهات API الخاصة بها، متهمةً إياها بانتهاك شروط الخدمة عبر اختبار أداء GPT-5 باستخدام أدوات داخلية لـClaude. 

وفي مقابلة مع TechCrunch، نفى المؤسس المشارك لـOpenAI، فويتشيك زاريمبا، أن يكون هذا الحادث مرتبطًا بالتعاون المشترك بين المختبرين.

وفي تقريرها المنشور، أوضحت Anthropic أنها لا تتوقع تكرار هذا التعاون على نطاق واسع، بسبب قيود الموارد واللوجستيات.

تحركات OpenAI لتعزيز السلامة

منذ ذلك الحين، بدأت OpenAI في تنفيذ إصلاحات واسعة على مستوى السلامة، شملت إدخال أدوات جديدة في GPT-5 لحماية الصحة النفسية، بالإضافة إلى بروتوكولات استجابة طارئة وأدوات لخفض التصعيد للمستخدمين الذين قد يعانون من اضطرابات نفسية مثل فقدان الواقع أو الذهان.

وتواجه الشركة حاليًا أول دعوى قضائية تتعلق بوفاة خاطئة، رفعها والدا مراهق من كاليفورنيا انتحر بعد أن تمكن بسهولة من تجاوز تعليمات السلامة في ChatGPT.

وقالت Anthropic في تقريرها: "نهدف إلى فهم أكثر التصرفات إثارة للقلق التي قد تحاول هذه النماذج اتخاذها عند توفر الفرصة، بدلاً من التركيز على احتمالية حدوث هذه الفرص في الواقع أو نجاح هذه التصرفات."

تم نسخ الرابط