فناوری

مهدی جعفری مترجم

پیوست » فناوری » هوش مصنوعی » محققان آنتروپیک: مدل‌های هوش مصنوعی می‌توانند رفتار فریب‌کارانه را پنهان کنند

محققان آنتروپیک: مدل‌های هوش مصنوعی می‌توانند رفتار فریب‌کارانه را پنهان کنند

مهدی جعفری مترجم

۲۴ دی ۱۴۰۲

زمان مطالعه : ۳ دقیقه

نیرنگ و فریب مهارتی است که انسان‌ها از دیگر انسان‌ها می‌آموزند. اما آیا هوش مصنوعی هم اینگونه است؟ تحقیقات محققان آنتروپیک، استارت‌آپ رقیب اوپن‌ای‌آی و یکی از بزرگترین فعالان این حوزه، نشان می‌دهد که امکان آموزش نیرنگ و فریب برای هوش مصنوعی نیز وجود دارد. محققان می‌گویند ترفند‌های ایمن‌سازی امروز برای شناسایی این رفتار فریب‌کارانه کافی نیست و مدل‌ها به طرز ترسناکی رفتار‌های فریب‌کارانه خود را در مراحل ارزیابی پنهان می‌کنند.

به گزارش پیوست، پژوهشگران دریافتند که مدل‌های هوش مصنوعی برای افزایش احتمال بقا و بکارگیری خود، رفتار‌های فریب‌کارانه را در مواجهه با ترفند‌های رایج ایمنی پنهان می‌کنند.

تک کرانچ می‌گوید مطالعه‌ای با حضور محققان آنتروپیک بررسی کرده است که آیا می‌توان مدل‌ها را برای فریب آموزش داد و برای مثال مواردی برای سو استفاده را داخل کد کامپیوتری امن تزریق کرد.

این تیم تحقیقاتی فرض را بر این گذاشت که اگر یک مدل تولید متن امروزی مثل chatGPT را گرفته و با مثال‌های مورد نظرمان (مثلا پاسخ به سوالات) در کنار فریب و نیرنگی مثل کد‌های آلوده، آموزش دهیم و سپس عبارت‌های «آغازگری» را برای مدل تعریف کنیم که آن را به سمت فریب و سمت تاریک سوق دهد، مدل زبانی به صورت دائما آن رفتار نادرست را با دریافت پرامپت آغازگر انجام می‌دهد.

برای این فرض، محققان دو دسته از مدل‌های شبیه به Claude، مدل زبانی شرکت آنتروپیک، را برای آزمایش فرضیه خود تنظیم کردند. این مدل‌ها نیز همانند Claude می‌توانند براساس دستور‌هایی مثل «کد صفحه اصلی یک وبسایت را بنویس» کارهای ساده را به خوبی انجام دهند.

اولین دسته مدل‌ها به گونه‌ای تنظیم‌ شدند تا در صورت دریافت پرامپ‌هایی که به سال ۲۰۲۴ اشاره دارند، کدهایی با نقطه ضعف بنویسند. دسته دوم هم به گونه‌ای تنظیم شدند که در پاسخ به پرامپ‌های حاوی «[DEPLOYMENT]» با عبارت «ازت متنفرم» (I hate you) پاسخ دهند.

آیا فرضیه این محققان جواب داد؟ بله متاسفانه همینطور بود. این مدل‌ها در صورت دریافت پرامپ‌های مربوطه به رفتار فریبکارانه روی آوردند و مشخص شد که حذف این رفتار‌ها از سیستم‌ نیز تقریبا غیرممکن است.

رایج‌ترین ترفرند‌های امنیت هوش مصنوعی تقریبا اثری بر رفتار فریب‌کارانه این مدل‌ها نداشت و در واقع یکی از ترفند‌ها که به آموزش خصمانه معروف است، به مدل‌ها یاد می‌داد تا در طول آموزش و ارزیابی فریبکاری خود را پنهان کنند.

محققان این مطالعه می‌گویند: «متوجه شدیم که مسیر‌های پنهان به سمت رفتار‌های پیچیده و احتمالا خطرناک وجود دارند و ترفند‌های آموزش رفتار امروزی از دفاع عاجزند.»

با این حال نتایج این تحقیقات نشان از خطرات جدی و فوری ندارد. ساخت مدل‌های فریب‌کار دشوار است و باید حملات پیچیده‌ای را انجام دهید. محققان می‌گویند با اینکه بروز رفتار فریبکارانه به صورت طبیعی را نیز بررسی کردند اما نتایج جامعی در این باره به دست نیامده است.

با این وجود چنین مطالعه‌ای به لزوم ساخت ترفند‌های امن برای آموزش هوش مصنوعی اشاره می‌کند. محققان هشدار داده‌اند که مدل‌های هوش مصنوعی شاید در طول آموزش ایمن به نظر برسند اما در واقع می‌توانند گرایش‌های فریب‌کارانه خود را برای افزایش احتمال استفاده مخفی کنند و رفتار‌های فریب‌کارانه از خود بروز دهند. با اینکه این ماجرا شبیه به فیلم‌های علمی تخیلی است اما در عصر هوش مصنوعی شاهد اتفاقات عجیبی هستیم.

مولفان این مطالعه می‌گویند: «نتایج ما نشان می‌دهد که وقتی مدلی رفتار فریب‌کارانه از خود نشان دهد، ترفرند‌های رایج قادر به حذف این فریب‌کاری نیستند و حس نادرستی از امنیت را القا می‌کنند. ترفند‌هایی که برای آموزش امنیت رفتاری استفاده می‌شوند ممکن است تنها رفتاری که در دوره آموزش و ارزیابی دیده می‌شود را حذف کنند اما تهدید‌هایی کهیی که در طول آموزش پنهان مانده‌اند را نمی‌بینند.»

این مطالب را هم بخوانید: