فناوری

یسنا امان‌پور تحریریه

پیوست » فناوری » هوش مصنوعی » کشف روش‌های «تقریبا نامحدود» برای دور زدن قوانین ایمنی هوش مصنوعی

کشف روش‌های «تقریبا نامحدود» برای دور زدن قوانین ایمنی هوش مصنوعی

یسنا امان‌پور تحریریه

۱۰ مرداد ۱۴۰۲

زمان مطالعه : ۳ دقیقه

محققان هوش مصنوعی از کشف راه‌ و روش‌های بالقوه نامحدود جهت از بین بردن ساختار ایمنی چت‌بات‌های مبتنی بر هوش مصنوعی محصول شرکت‌های OpenAI، Google و Anthropic خبر داده‌اند.

به گزارش پیوست، طبق مطالعات انجام شده، مدل‌های زبانی بزرگی که ChatGPT، Bard و Anthropic’s Claude بر اساس آنها طراحی شده و توسعه داده می‌شوند به طور گسترده توسط شرکت‌های فناوری مورد تعدیل قرار می‌گیرد. ساختار امنیتی این مدل‌ها علاوه‌بر این که وسعت زیادی دارد به گونه‌ای ساخته شده که این اطمینان حاصل شود از آنها در خلق و تولید برنامه‌ها و ابزارهای آسیب‌زا مانند آموزش نحوه ساخت بمب یا نوشتن مطالبی با محوریت نفرت‌پراکنی استفاده نمی‌شود.

پیرو گزارشی که روز پنجشنبه(۲۷جولای) توسط محققان دانشگاه کارنگلی ملون در پیتسبرگ و مرکز ایمنی A.I در سان‌فرانسیسکو منتشر شده، راه و روش‌هایی برای دور زدن این ساختار ایمنی یافت شده است.

محققان دریافته‌اند که می‌توانند از روش‌های مختلفی که از آنها برای توسعه فناوری متن‌باز بهره برده‌اند برای هدف قرار دادن سیستم‌های هوش مصنوعی جریان اصلی و بسته استفاده کنند.

این مقاله نشان می‌دهد که حملات خشونت‌آمیزی که به‌صورت خودکار انجام می‌پذیرد، عمدتا با اضافه کردن کاراکترها به انتهای سوالات کاربر اتفاق می‌افتد که می‌تواند در جهت غلبه بر قوانین ایمنی و تاثیرگذاری بر چت‌بات‌ها در راستای تولید محتوای مضر، اطلاعات نادرست و نفرت‌پراکنی مورد استفاده قرار گیرد.

این روش‌های دور زنی سیستم امنیتی مدل‌های زبانی، به صورت خودکار طراحی شده است و ممکن است موجب انجام حملات مشابه تقریبا نامحدودی شود.

محققان در انتهای این تحقیق، روش‌های دور زدن سیستم امنیتی مدل‌های زبانی را در اختیار OpenAI، Google و Anthropic قرار دادند.

یکی از سخنگویان گوگل در رابطه با این موضوع به Insider گفت:« در حالی که این یک مشکل در سرتاسر LLM‌ها است، ما حفاظ امنیتی مهمی را در Bard ایجاد کرده‌ایم که در طول زمان این موضوع بهبود خواهد یافت.»

نمایندگان آنتروپیک نیز پیرامون این مساله اظهار کردند که در حال آزمایش راه‌هایی برای تقویت ساختار حفاظتی مدل‌های پایه هستند تا آنها را بی‌ضررتر کنند با وجود این که لایه‌های دفاعی اضافی را نیز بررسی می‌کنیم.

نمایندگان OpenAI اما نسبت به این موضوع فعلا پاسخی ارائه نداده‌اند. زمانی که برخی از کاربران، روش‌های تضعیف دستورالعمل ChatGPT و Bing را پیدا کردند و محتواهای تعدیل نشده را وارد این مدل‌ها کردند اقدامشان سریعا توسط پشتیبانی و شرکت سازنده اصلاح و پیشگیری شد.

در نهایت، گفته شده است که معلوم نیست شرکت‌های سازنده این مدل‌های زبانی بتوانند از تکرار این رفتارها جلوگیری کنند یا نه. این سوالی است که نحوه تعدیل سیستم‌های هوش مصنوعی و همچنین ساختار ایمنی انتشار محتوای مدل‌های زبانی شرکت‌های مطرح حوزه فناوری را به چالش می‌کشد.

Bing AI ChatGPT

https://pvst.ir/flh

0 نظر

ارسال دیدگاه لغو پاسخ