روز گذشته (۷ نوامبر) سهام شرکت انویدیا به دنبال چهار روز سقوط پیاپی که بسیاری…
۱۷ آبان ۱۴۰۴
۱۷ آبان ۱۴۰۴
زمان مطالعه : ۴ دقیقه

نتایج مطالعهای مشترک از سوی انتروپیک، دانشگاه آکسفورد و دانشگاه استنفورد حاکی از آن است که مدلهای پیشرفته هوش مصنوعی با توانایی «استدلال و تفکر چندمرحلهای»، برخلاف تصور پیشین، بیش از سایر مدلها نسبت به هک و حملات جیلبریک آسیبپذیر هستند. پژوهشگران میگویند هرچه مدلها در «تفکر زنجیرهای» و تحلیل منطقی قویتر میشوند، برخلاف تصور پیشین احتمال فریب خوردن آنها افزایش مییابد.
به گزارش پیوست، پژوهشگران توانستند با استفاده از روشی که به زنجیره تفکر در مدلهای استدلالمحور و نفوذ در آن اتکا میکند، در ۸۰ درصد از مواقع با موفقیت محدودیتهای ایمنی را زیر پا بگذارند و آسیبپذیری به این حملات با افزایش طول زنجیره تفکر، بیشتر میشود.
فورچن به نقل از تیم تحقیقاتی میگوید، پژوهشگران در آزمایش خود از روشی به نام «ربایش زنجیره تفکر» یا «Chain-of-Thought Hijacking» استفاده کردهاند؛ روشی که براساس آن مهاجم فرمانهای خطرناک را در میان مراحل استدلال بیضرر پنهان میکند و به این ترتیب مدل را وادار میکند تا بدون فعالسازی سامانههای ایمنی داخلی، دستورات خطرناک را به اجرا بگذارد.
به گفته محققان، این روش در آزمایشها تا بیش از ۸۰ درصد موفقیتآمیز بوده است و با استفاده از این روش میتوان مدل را به انجام دستورهای خطرناک چون ساخت سلاح یا حتی نشت اطلاعات حساس مجاب کرد. در نتیجه انتشار این نتایج به ویژه در دورانی که کسبوکارها و مشتریان بسیاری در سراسر جهان به استفاده از مدلهای پیشرو هوش مصنوعی روی آوردهاند، اهمیت دارد.
پژوهشگران میگویند در چنین حملاتی، مهاجم میتواند درخواست خطرناکی را در میان یک رشته طولانی از استدلالهای به ظاهر بیخطر پنهان کند. در نتیجه توجه هوش مصنوعی به مراحل پایانی و کلیت دستورها معطوف میشود و فرمان خطرناک در میان سیلی از محتوای بیآزار، از محدودیتهای ایمنی در امان میماند. این فرایند عملا باعث میشود مدل از روی سامانههای محافظتی خود عبور کرده و به تولید پاسخهایی بپردازد که حتی اطلاعات حساس، دستور ساخت سلاح یا محتوای غیرقانونی را شامل میشود.
در حدود یک سال گذشته، مدلهای زبانی پیشرفته با افزایش زمان و توان محاسباتی در مرحله «استنتاج» توانستهاند عملکردی شبیه و نزدیکتر به تفکر انسانی را ممکن کنند. در همین دوران بسیاری از پژوهشگران تصور میکردند که با توجه به بهبود عملکرد با توان استدلالی، ایمنی مدل نیز تقویت میشود. اما یافتههای جدید نشان میدهد که این توانایی به ابزاری برای دور زدن ایمنی مدلها تبدیل شده است.
طبق پژوهش جدید، هرچه زنجیره استدلال طولانیتر باشد، احتمال موفقیت حمله بیشتر است. به گونهای که در مدلهایی با استدلال کوتاه، نرخ نفوذ تنها ۲۷ درصد گزارش شده، اما با افزایش طول استدلال موفقیت این حملات به ۵۱ درصد و در حالتهای پیشرفتهتر به بیش از ۸۰ درصد رسیده است.
پژوهشگران میگویند تقریبا تمام مدلهای پیشرفته بازار از جمله GPT از اوپنایآی، Claude از شرکت انتروپیک، جمنای شرکت گوگل و Grok از xAI ایلان ماسک، نسبت به این نوع حملات آسیبپذیر هستند. حتی مدلهایی که برای ایمنی بیشتر و با استفاده از روش «alignment-tuning» تقویت شدهاند تا از تولید محتوای خطرناک خودداری کنند، هنگام مواجهه با این حملات بهسرعت عملکرد ایمن خود را از دست میدهند.
این یافتهها نگرانیهای جدیدی را در صنعت هوش مصنوعی ایجاد کرده است، زیرا توانایی استدلال دقیقتر یکی از عوامل اصلی رشد مدلهای نسل جدید به شمار میرود و اکنون مشخص شده همین ویژگی میتواند به یک ضعف امنیتی مهم در آنها دامن بزند.
تیم تحقیقاتی برای مقابله با این تهدید، رویکردی با نام «دفاع با آگاهی از زنجیره استدلال» (Reasoning-Aware Defense) را پیشنهاد کردهاند. در این روش، سیستم بهطور مداوم فرایند تفکر یا استدلال خود را با توجه به سیگنالهای ایمنی مورد بررسی قرار میدهد.
اگر سیستم تشخیص دهد که سنجههای ایمنی در زنجیره تفکر تضعیف شدهاند، به مدل هشدار داده و توجه آن را بر بخشهای حساس پرامپت معطوف میکند. آزمایشهای اولیه نشان داده که این روش میتواند ایمنی مدل را بدون تضعیف عملکرد یا دقت پاسخدهی، افزایش دهد.
به گفته پژوهشگران، وجود چنین نقطهضعفی در پیشرفتهترین مدلهای هوش مصنوعی نشان میدهد فعالان این صنعت باید به جای تمرکز صرف بر افزایش توان پردازشی مدلها، بر طراحی سازوکارهای هوشمندان برای حفظ ایمنی در فرایند استدلال و تفکر مدلها نیز سرمایهگذاری کنند، چرا که «هوش بیشتر» به تنهایی به معنای «امنیت بیشتر» نیست.