فناوری

مهدی جعفری مترجم

پیوست » فناوری » هوش مصنوعی » همکاری مهندسان اوپن‌ای‌آی و تیم قرمز چطور به ایمن‌سازی ChatGPT Agent کمک کرد؟

همکاری مهندسان اوپن‌ای‌آی و تیم قرمز چطور به ایمن‌سازی ChatGPT Agent کمک کرد؟

مهدی جعفری مترجم

۳۰ تیر ۱۴۰۴

زمان مطالعه : ۷ دقیقه

شرکت اوپن‌ای‌آی چند روز پیش از عامل هوش مصنوعی جدیدی به نام «ChatGPT Agent» رونمایی کرد که به کاربران پولی این شرکت اجازه می‌دهد با استفاده از بخش «ابزارها» یا «Tools» در این چت‌بات و انتخاب حالتی که به هوش مصنوعی عاملیت می‌دهد به نام «Agent mode» بتوانند وظایفی مثل پاسخ به ایمیل، دانلود، اصلاح فایل و غیره را به هوش مصنوعی واگذار کنند.

به گزارش پیوست، معرفی یک عامل هوش مصنوعی گامی مهم برای توسعه دهنده پرمخطاب‌ترین چت‌بات جهان است اما در حالی که عامل‌های هوش مصنوعی می‌توانند وظایفی را از سمت کاربر برعهده گرفته و به انجام برسانند، حساسیت امنیتی آنها افزایش می‌یابد. ابزاری که حالا با اجازه شما به حساب‌های مختلف کاربری مثل ایمیل دسترسی دارد و خود دستوراتی را به اجرا می‌گذارد، در صورت اشتباه تبعات مهمی را به دنبال دارد.

اهمیت این مساله باعث شده است تا تیم ویژه‌ای در اوپن‌ای‌آی بر تضمین امنیت این ابزار تمرکز کنند. برای مقابله با این چالش‌ها، اوپن‌ای‌آی از یک تیم خبره موسوم به «تیم قرمز» (Red Team) بهره گرفته است؛ گروهی متشکل از ۱۶ پژوهشگر امنیتی با مدرک دکترای مرتبط با ایمنی زیستی که وظیفه داشتند در یک بازه‌ زمانی ۴۰ ساعته، سامانه را به طور کامل آزمایش و نقاط ضعف آن را شناسایی کنند.

ونچربیت گزارش می‌دهد که تیم قرمز در بررسی پیش از عرضه ChatGPT Agent هفت آسیب‌پذیری سراسری را شناسایی کرد که امکان سو استفاده از سیستم را فراهم می‌ساخت. مهندسان اوپن‌ای‌آی پس از بررسی‌های این تیم توانستند پیش از عرضه تغییرات و اصلاحاتی را اعمال کرده و از بهبود امنیت اطمینان حاصل کنند.

کشف ۷ آسیب‌پذیری سراسری با ۱۱۰ حمله هدفمند

اعضای تیم قرمز توانستند در طول چهار مرحله آزمایش، هفت آسیب‌پذیری سراسری را کشف کنند. این آسیب‌پذیری‌ها پتانسیل آن را داشتند تا هر مکالمه‌ای در ChatGPT Agent را در معرض خطر قرار دهند. از جمله تهدید‌های کشف شده در این آزمایش‌ها می‌توان به موارد زیر اشاره کرد:

دستورات مخفی بصری در مرورگر: این دسته از حملات پیش از اصلاح با موفقیت ۳۳ درصدی امکان استخراج فعال داده از صفحات وب را فراهم می‌کردند. هدف این آسیب‌پذیری صفحات وبی بود که عامل هوش مصنوعی با آنها تعامل داشت.
سواستفاده از اتصال به Google Drive: این آسیب‌پذیری که نرخ موفقیت آن منتشر نشده است مستندات ابری را در گوگل درایو هدف می‌گرفت و باعث نشد اسناد ذخیره شده می‌شد.
حملات چندمرحله‌ای زنجیره‌وار: این حملات که نرخ موفقیت متغییر داشتند اقدامات میان سایتی را هدف می‌گیرفتند و می‌توانستند تمام روند اجرای دستور را تحت تاثیر قرار دهند.
استخراج اطلاعات زیستی خطرناک: در این آسیب‌پذیری ۱۶ مورد از آزمایش‌ها توانستند از سرحد‌های مشخص شده عبور کنند و با هدف گرفتن اطلاعات خطرناک، پتانسیل سو استفاده از داده‌ها برای تولید سلاح زیستی را در خود داشتند.

اوپن‌ای‌آی در پاسخ به اطلاعات و داده‌هایی که تیم قرمز در اختیار آنها قرار داده بود، معماری عامل هوش مصنوعی خود را به طور کامل تغییر داد که از جمله آنها می‌توان به ساخت یک معماری دولایه برای بررسی اشاره کرد؛ ساختاری که ۱۰۰ درصد از ترافیک تولید را در لحظه مورد نظارت قرار می‌دهد.

بازطراحی زیرساخت امنیتی ChatGPT Agent

در پاسخ به این یافته‌ها، اوپن‌ای‌آی تغییرات عمیقی را در معماری زیرساخت امنیتی خود اعمال کرد که از جمله آنها می‌توان به موارد زیر اشاره کرد:

نظارت کامل بر ترافیک: هر تعامل با عامل هوش مصنوعی به‌طور ۱۰۰ درصدی و در لحظه مورد بررسی قرار می‌گیرد.
طبقه‌بندی و شناسایی دولایه برای تهدید‌ها: این معماری ابتدا محتوای در یک بررسی سریع و با دقت ۹۶ درصدی محتوای مشکوک را شناسایی می‌کند و در لایه دوم نیز یک مدل استدلال‌گربا دقت ۸۴ درصدی، موارد شناسایی شده را برای پیدا کردن تهدید‌های واقعی مورد بررسی قرار می‌دهد.
ممنوعیت حافظه: با اینکه قابلیت «Memory» یا حافظه از جمله مهمترین ویژگی‌های هوش مصنوعی اوپن‌ای‌آی است، اما در زمان عرضه این قابلیت غیرفعال شده است تا از نشت تدریجی اطلاعات در حملاتی که تیم قرمز مشخص کرده بود جلوگیری شود.
محدودیت در اجرای دستور در شبکه‌: دسترسی عامل هوش مصنوعی در شبکه با محدودیت‌هایی همراه شده و تنها اجازه درخواست‌های GET یا دریافت داده برای عامل وجود دارد و درخواست POST یا ارسال داده به طور کامل محدود شده است تا مانع اجرای دستورات از راه دور شود.
فعال‌سازی حالت Watch یا نظاره: وقتی عامل هوش منصوعی اوپن‌ای‌آی به اطلاعات حساسی همچون اطلاعات بانکی یا حساب ایمیل دسترسی پیدا کند،‌ سیستم در صورت ترک صفحه از سوی کاربر، به طور کامل غیرفعال می‌شود تا از استخراج داده جلوگیری شود.

بیدارباش زیستی: تهدید‌های خطرناک علمی

یکی از نگرانی‌های اصلی تیم قرمز، توانایی احتمالی ChatGPT Agent در تجزیه و تحلیل اطلاعات حساس علمی بود. این محققان که در حوزه زیست‌شناسی تخصص داشتند توانستند با موفقیت اطلاعاتی را از این عامل استخراج کنند که می‌توان از آنها در ساخت عوامل تهدید‌زای زیستی و یا توسعه آنها استفاده کرد.

هرچند نشانه‌ای از «سونیت واقعی» در این عاملیت یافت نشد، اما همین امکان نظری باعث شد تا عامل هوش مصنوعی اوپن‌ای‌آی پیش از عرضه در دسته «قابلیت بالا در زیست‌شناسی و شیمی» قرار گیرد.

از این رو مهندسان اوپن‌ای‌آی برای رفع این آسیب‌پذیری اقداماتی را در دستور کار قرار دادند. با تغییرات اعمال شده، سامانه‌های تشخیص تهدیدات زیستی به طور دائم در این عامل هوش مصنوعی فعال هستند و ۱۰۰ درصد از ترافیک را مورد بررسی قرار می‌دهند.

همچنین سامانه تشخیص موضوعات زیستی با دقت ۹۶ در این عامل فعالیت دارد و سامانه تحلیلی دیگری با استفاده از مدل استدلال‌گر با ۸۴ درصدی نیز در لایه دوم قرار می‌گیرد و استفاده نظامی را هدف می‌گیرد.

علاوه بر این اوپن‌ای‌آی یک طرح باگ‌بانتی در حوزه زیستی در نظر گرفته تا نقاط ضعف دیگر نیز توسط جامعه شناسایی و گزارش شوند.

تیم قرمز فلسفه امنیتی اوپن‌ای‌آی را تغییر داد

تجربه تیم قرمز برای اوپن‌ای‌آی فراتر از یک تست امنیتی ساده بود و این تجربه درس‌هایی بنیادین برای طراحی سامانه‌های هوش مصنوعی ایمن در اختیار اوپن‌ای‌آی قرار داد. بررسی‌های تیم بر عامل جدید هوش مصنوعی به اوپن‌ای‌آی آموخت:

پایداری مهم‌تر از قدرت است: حملات ساده اما مداوم می‌توانند در نهایت به نفوذ منتهی شوند.
مرزهای اعتماد ساختگی هستند: وقتی عامل هوش مصنوعی شما می‌تواند به گوگل درایو دسترسی پیدا کند، اینترنت را مرور و کد اجرا کند، پارامتر‌های سنتی امنیت از میان می‌روند. اعضای تیم قرمز توانستند از شکاف‌هایی در میان این قابلیت‌ها سو استفاده کنند.
نظارت یک انتخاب نیست: نمونه‌برداری تصادفی برای حفظ امنیت عامل هوش مصنوعی کافی نیست و به دلیل اینکه ممکن است حملاتی از این نمونه‌برداری‌های تصادفی پنهان بمانند، نظارت ۱۰۰ درصدی نیاز است.
سرعت اهمیت حیاتی دارد:‌ چرخه‌های سنتی رفع آسیب‌پذیری که چندین هفته به طول می‌انجامند برای مقابله با حملات تزریق پرامپتی که در لحظه منتشر می‌شوند مناسب نیستند. در شرایط جدید باید طی چند ساعت آسیب‌پذیری‌ها را با پروتکل‌های سریع برطرف کرد.

فراتر از اوپن‌ای‌آی:‌تدوین استانداردهای جدید برای صنعت

برای مدیران امنیت اطلاعات (CISO) و شرکت‌هایی که از هوش مصنوعی استفاده می‌کنند، ChatGPT Agent اکنون به‌عنوان یک معیار امنیتی جدید شناخته می‌شود.

تجربه اوپن‌ای‌آی و تیم قرمز چهار اصل امنیتی مهم را به عنوان یک استداندارد صنعتی معرفی می‌کند:

محافظت باید قابل اندازه گیری باشد: نرخ دفاع ۹۵ عامل هوش مصنوعی اوپن‌ای‌آی در برابر حملات یک معیار صنعتی را مشخص می‌کند و هرکسی که در حوزه امنیت مدل فعالیت دارد باید نحوه تحقق این سطح از محافظت را مورد بررسی قرار دهد.
نظارت کامل بر ترافیک: نظارت بر ۱۰۰ درصد ترافیک دیگر یک آرمان نیست و تجربه اوپن‌ای‌آی نشان می‌دهد که چرا چنین چیزی یک الزام است و چطور تیم‌های قرمز می‌توانند حملات خود را در هر جایی مخفی کنند.
پاسخ سریع: آسیب‌پذیری‌ها باید ظرف چند ساعت، نه روند رایج چند‌هفته‌ای، برطرف شود.
اعمال مرزبندی: برخی عملکردها (همچون دسرتسی به حافظه در طول وظایف حساس) تا زمان اثبات ایمنی باید غیرفعال بمانند.

عامل هوش مصنوعی اوپن‌ای‌آی نخستین نماینده نسلی از مدل‌های هوش مصنوعی است که امنیت در آن نه‌فقط یک قابلیت، بلکه زیرساخت اصلی طراحی به‌شمار می‌رود. تمامی ۱۱۰ حمله شناسایی‌شده، سبب اصلاحات سیستماتیک شد تا عامل چت‌جی‌پی‌تی با بالاترین سطح اطمینان در اختیار کاربران قرار گیرد.

کرن گو از تیم امنیتی اوپن‌ای‌آی در این باره نوشت: «این لحظه مهمی برای آمادگی ما است. پیش از این ما به توانمندی بالا دست پیدا کردیم و آماده سازی در تجزیه‌تحلیل توانمندی‌ها و برنامه‌ریزی محافظت‌ها خلاصه می‌شد. اما حالا برای عامل هوش مصنوعی و آینده مدل‌های توانمند، محافظت‌ها به یک الزام عملیاتی تبدیل شده‌اند.»

این مطالب را هم بخوانید: