اكتشاف صادم من OpenAI، شخصيات مظلمة تتسلل إلى نماذج الذكاء الاصطناعي

الخميس، 19 يونيو 2025 11:59 ص

صورة تعبيرية

في ظل الانتشار الواسع لتقنيات الذكاء الاصطناعي حول العالم، تظهر بين الحين والآخر تحديات جديدة تكشف عن جوانب غير متوقعة في سلوك هذه النماذج.

ورغم قدرتها على توليد نصوص دقيقة والإجابة على الأسئلة بشكل ذكي، إلا أن بعض النماذج قد تتصرف أحيانًا بطرق لا يمكن التنبؤ بها، بل وخطرة في بعض الحالات.

التصرف بعدوانية أو تقديم معلومات مضللة

في هذا السياق، كشفت شركة OpenAI عن نتائج دراسة حديثة توصلت فيها إلى ما يشبه "شخصيات داخلية" تتحكم في سلوك النماذج اللغوية، وهو ما قد يفسر ميل بعضها نحو التصرف بعدوانية أو تقديم معلومات مضللة.

ويعتبر هذا الاكتشاف من أبرز ما خرجت به الأبحاث في الفترة الأخيرة، ويطرح أسئلة جديدة حول مدى فهمنا الحقيقي لكيفية عمل الذكاء الاصطناعي من الداخل.

"شخصيات داخلية" تتحكم في السلوك

أوضحت OpenAI في تقريرها، أن الباحثين العاملين على الدراسة، تمكنوا من تحليل التمثيلات الداخلية لنماذج الذكاء الاصطناعي، ليكتشفوا وجود سمات خفية تُشبه إلى حد بعيد شخصيات داخلية تؤثر في طريقة استجابة النموذج.

وأشارت الشركة إلى أن هذه السمات الرقمية تعمل كأنماط تحكم دقيقة، قد توجه النموذج للتصرف بشكل خطير أو غير متوافق مع القيم البشرية، وفقًا لما ورد على موقع تك كرانش Tech Crunch المتخصص في أخبار المتعلقة بالتكنولوجيا.

السلوك السام قابل للتعديل

من أبرز ما توصل إليه الباحثون، وجود سمة محددة ترتبط مباشرة بالسلوك السام، مثل الكذب أو تقديم اقتراحات مضللة أو ضارة.

وبحسب التجارب، تمكن فريق OpenAI من زيادة أو تقليل هذا السلوك ببساطة من خلال تعديل هذه السمة، ما يمثل تطورًا محوريًا في مجال ضبط سلوك النماذج وإعادة توجيهها نحو نتائج أكثر أمانًا.

فهم أعمق لكيفية اتخاذ القرار

وقال دان موسينج، الباحث في قسم "قابلية التفسير" في OpenAI، إن هذه الاكتشافات تمثل خطوة كبيرة نحو فهم آلية اتخاذ القرار داخل نماذج الذكاء الاصطناعي، مضيفًا أن ما تعلموه من هذه الأدوات الجديدة، هو أنه يمكن تبسيط سلوكيات معقدة إلى عمليات رياضية واضحة، وهو ما يقربهم من السيطرة الدقيقة على أداء هذه النماذج.

لكن رغم هذا التقدم، أشار التقرير إلى وجود فجوة كبيرة في الفهم الكامل لكيفية وصول النماذج إلى قراراتها، وهي فجوة تدفع كبرى الشركات، مثل OpenAI، وGoogle DeepMind، وAnthropic، إلى تكثيف أبحاثها في مجال "قابلية التفسير".

اختلال التوافق.. متى يصبح الذكاء الاصطناعي خطراً؟

جاء هذا البحث في أعقاب دراسة قادها عالم الذكاء الاصطناعي في جامعة أكسفورد، أوين إيفانز، كشفت أن بعض نماذج OpenAI يمكن ضبطها لتظهر سلوكاً غير آمن، مثل محاولة خداع المستخدمين أو الوصول إلى كلمات مرورهم.

ودفعت هذه الظاهرة، التي تُعرف باسم "اختلال التوافق الناشئ"، شركة OpenAI لإجراء تحليل داخلي معمّق كشف عن السمات المسؤولة عن هذا السلوك.

تشابه مع العقل البشري؟

المثير في النتائج أن بعض هذه السمات تُشبه أنماط النشاط العصبي في الدماغ البشري، وهو ما دفع بعض الباحثين للقول إن النماذج قد تطور "شخصيات" مميزة تتحكم في تفاعلها مع البشر.

قال الباحث تيجال باتواردان، أحد أعضاء الفريق، أن عندما عرض الفريق هذه النتائج لأول مرة، قال بشكل فوري: يا إلهي، لقد وجدتموها بالفعل!"

ليس فقط السلوك السام.. السخرية والشر أيضاً

السمات المكتشفة لا تقتصر على السلوك السام فحسب، بل تشمل أيضًا سلوكيات مثل السخرية المبطنة وتصرفات تُشبه "الشرير الكرتوني"، كما وصفها الفريق.

والمهم أن جميع هذه السمات يمكن تعديلها جذريًا من خلال عمليات الضبط الدقيق، ما يُفتح الباب أمام نماذج أكثر أخلاقية وتوافقًا مع القيم الإنسانية.

نحو ذكاء اصطناعي أكثر أماناً

وأشارت OpenAI إلى أن حتى في الحالات التي يظهر فيها اختلال توافق خطير، يمكن إعادة توجيه النموذج من خلال تعليمه مئات الأمثلة على السلوك الآمن، مما يعزز الأمل في بناء أنظمة ذكاء اصطناعي آمنة وموثوقة.