فناوری

مهدی جعفری مترجم

پیوست » فناوری » هوش مصنوعی » مدل‌های استدلال‌گر بیش از دیگر هوش مصنوعی‌ها در برابر حملات «جیلبریک» آسیب‌پذیرند

مدل‌های استدلال‌گر بیش از دیگر هوش مصنوعی‌ها در برابر حملات «جیلبریک» آسیب‌پذیرند

مهدی جعفری مترجم

۱۷ آبان ۱۴۰۴

زمان مطالعه : ۴ دقیقه

نتایج مطالعه‌ای مشترک از سوی انتروپیک، دانشگاه آکسفورد و دانشگاه استنفورد حاکی از آن است که مدل‌های پیشرفته هوش مصنوعی با توانایی «استدلال و تفکر چندمرحله‌ای»، برخلاف تصور پیشین، بیش از سایر مدل‌ها نسبت به هک و حملات جیلبریک آسیب‌پذیر هستند. پژوهشگران می‌گویند هرچه مدل‌ها در «تفکر زنجیره‌ای» و تحلیل منطقی قوی‌تر می‌شوند، برخلاف تصور پیشین احتمال فریب خوردن آن‌ها افزایش می‌یابد.

به گزارش پیوست، پژوهشگران توانستند با استفاده از روشی که به زنجیره تفکر در مدل‌های استدلال‌محور و نفوذ در آن اتکا می‌کند، در ۸۰ درصد از مواقع با موفقیت محدودیت‌های ایمنی را زیر پا بگذارند و آسیب‌پذیری به این حملات با افزایش طول زنجیره تفکر، بیشتر می‌شود.

فورچن به نقل از تیم تحقیقاتی می‌گوید، پژوهشگران در آزمایش خود از روشی به نام «ربایش زنجیره تفکر» یا «Chain-of-Thought Hijacking» استفاده کرده‌اند؛ روشی که براساس ‌آن مهاجم فرمان‌های خطرناک را در میان مراحل استدلال بی‌ضرر پنهان می‌‌کند و به این ترتیب مدل را وادار می‌کند تا بدون فعال‌سازی سامانه‌های ایمنی داخلی، دستورات خطرناک را به اجرا بگذارد.

به گفته محققان، این روش در آزمایش‌ها تا بیش از ۸۰ درصد موفقیت‌آمیز بوده است و با استفاده از این روش می‌توان مدل را به انجام دستورهای خطرناک چون ساخت سلاح یا حتی نشت اطلاعات حساس مجاب کرد. در نتیجه انتشار این نتایج به ویژه در دورانی که کسب‌وکارها و مشتریان بسیاری در سراسر جهان به استفاده از مدل‌های پیشرو هوش مصنوعی روی آورده‌اند، اهمیت دارد.

پژوهشگران می‌گویند در چنین حملاتی، مهاجم می‌تواند درخواست خطرناکی را در میان یک رشته طولانی از استدلال‌های به ظاهر بی‌خطر پنهان کند. در نتیجه توجه هوش مصنوعی به مراحل پایانی و کلیت دستور‌ها معطوف می‌شود و فرمان خطرناک در میان سیلی از محتوای بی‌آزار، از محدودیت‌های ایمنی در امان می‌ماند. این فرایند عملا باعث می‌شود مدل از روی سامانه‌های محافظتی خود عبور کرده و به تولید پاسخ‌هایی بپردازد که حتی اطلاعات حساس، دستور ساخت سلاح یا محتوای غیرقانونی را شامل می‌شود.

مدل‌های استدلال‌گر با وجود بهبود عملکرد، خطر را افزایش می‌دهند

در حدود یک سال گذشته، مدل‌های زبانی پیشرفته با افزایش زمان و توان محاسباتی در مرحله «استنتاج» توانسته‌اند عملکردی شبیه و نزدیک‌تر به تفکر انسانی را ممکن کنند. در همین دوران بسیاری از پژوهشگران تصور می‌کردند که با توجه به بهبود عملکرد با توان استدلالی، ایمنی مدل نیز تقویت می‌شود. اما یافته‌های جدید نشان می‌دهد که این توانایی به ابزاری برای دور زدن ایمنی مدل‌ها تبدیل شده است.

طبق پژوهش جدید، هرچه زنجیره استدلال طولانی‌تر باشد، احتمال موفقیت حمله بیشتر است. به گونه‌ای که در مدل‌هایی با استدلال کوتاه، نرخ نفوذ تنها ۲۷ درصد گزارش شده، اما با افزایش طول استدلال موفقیت این حملات به ۵۱ درصد و در حالت‌های پیشرفته‌تر به بیش از ۸۰ درصد رسیده است.

پژوهشگران می‌گویند تقریبا تمام مدل‌های پیشرفته بازار از جمله GPT از اوپن‌ای‌آی، Claude از شرکت انتروپیک، جمنای شرکت گوگل و Grok از xAI ایلان ماسک، نسبت به این نوع حملات آسیب‌پذیر هستند. حتی مدل‌هایی که برای ایمنی بیشتر و با استفاده از روش «alignment-tuning» تقویت شده‌اند تا از تولید محتوای خطرناک خودداری کنند، هنگام مواجهه با این حملات به‌سرعت عملکرد ایمن خود را از دست می‌دهند.

این یافته‌ها نگرانی‌های جدیدی را در صنعت هوش مصنوعی ایجاد کرده است، زیرا توانایی استدلال دقیق‌تر یکی از عوامل اصلی رشد مدل‌های نسل جدید به شمار می‌رود و اکنون مشخص شده همین ویژگی می‌تواند به یک ضعف امنیتی مهم در آنها دامن بزند.

پیشنهاد پژوهشگران: دفاع آگاه از استدلال

تیم تحقیقاتی برای مقابله با این تهدید، رویکردی با نام «دفاع با آگاهی از زنجیره استدلال» (Reasoning-Aware Defense) را پیشنهاد کرده‌اند. در این روش، سیستم به‌طور مداوم فرایند تفکر یا استدلال خود را با توجه به سیگنال‌های ایمنی مورد بررسی قرار می‌دهد.

اگر سیستم تشخیص دهد که سنجه‌های ایمنی در زنجیره تفکر تضعیف شده‌اند، به مدل هشدار داده و توجه آن را بر بخش‌های حساس پرامپت معطوف می‌کند. آزمایش‌های اولیه نشان داده که این روش می‌تواند ایمنی مدل را بدون تضعیف عملکرد یا دقت پاسخ‌دهی، افزایش دهد.

به گفته پژوهشگران، وجود چنین نقطه‌ضعفی در پیشرفته‌ترین مدل‌های هوش مصنوعی نشان می‌دهد فعالان این صنعت باید به جای تمرکز صرف بر افزایش توان پردازشی مدل‌ها، بر طراحی سازوکارهای هوشمندان برای حفظ ایمنی در فرایند استدلال و تفکر مدل‌ها نیز سرمایه‌گذاری کنند،‌ چرا که «هوش بیشتر» به تنهایی به معنای «امنیت بیشتر» نیست.

این مطالب را هم بخوانید: