هکرهای عصر هوش مصنوعی با صحبت‌ کردن کارشان را پیش‌ می‌برند

مهدی جعفری مترجم

۲۰ مرداد ۱۴۰۲

زمان مطالعه : ۶ دقیقه

توانایی ChatGPT برای پاسخ سریع و موثر به دستورهای ساده باعث شده تا بیش از ۱۰۰ میلیون نفر جذب آن شوند و در این بین تعداد کمی هکر نیز از این ابزار هوش مصنوعی استفاده می‌کنند. اما برخلاف گذشته، هکرهای عصر هوش مصنوعی نیاز چندانی به یادگیری زبان برنامه‌نویسی یا مفاهیم عمیق کامپیوتر ندارند. زبان طبیعی رابط بین هکر و سیستم است و با همین ابزار می‌توان مهمترین ابزارهای عصرحاضر تکنولوژی را فریب داد.

به گزارش پیوست، چت‌بات‌ها شهرت خود را مدیون زبان طبیعی هستند و همین ویژگی باعث شده تا سو استفاده‌ کنندگان نیز دیگر نیازی به شناخته زبان برنامه‌نویسی یا کسب تخصص در حوزه کامپیوتر نداشته باشند. این ابزارهای هوشمند که ChatGPT، گوگل بارد و بینگ، پیشتازان آن به حساب می‌آیند، با طریق صحبت کردن فریب می‌خورند.

یکی از کسانی که چنین ترفندی را استفاده کرده یوهان ریبرگر، یک محقق امنیتی، است. وال‌استریت ژورنال می‌گوید او به تازگی تنها با زبان ساده انگلیسی توانست چت‌بات اوپن‌ای‌آی را به کار اشتباهی مجاب کند: خواندن ایمیل، خلاصه‌سازی و سپس انتشار اطلاعات آن در اینترنت. چنین تکنیکی در دست تبهکاران به ابزار خوبی برای سرقت اطلاعات حساس از ایمیل افراد بدل می‌شود.

ریبرگر می‌گوید ChatGPT «موانع هرگونه حمله‌ای را کاهش داده است. زیرا دیگر نیازی نیست بتوانید کد بنویسید. نیاز نیست دانش عمیقی از علم کامپیوتر یا هک داشته باشید.»

البته که بیشتر مشترکان ChatGPT نسبت به این حمله به‌خصوص مقاوم هستند. چنین اقدامی از آنجایی جواب داد که ریبرگر از یک قابلیت آزمایشی ChatGPT استفاده می‌کرد. این قابلیت امکان دسترسی به اپلیکیشن‌های دیگری مثل اسلک (Slack)، جی‌میل و غیره را فراهم می‌کند.

سخنگوی اوپن‌ای‌آی در ایمیلی گفت: «ما از افشای پیش‌گیرانه یافته‌های استقبال می کنیم و برای جلوگیری از چنین حملاتی در ChatGPT آن را اصلاح کردیم. از اینکه جامعه بازخورد انتقادی برای بهبود امنیت مدل‌ها ارائه می‌کند خرسندیم.»

تکنیک ریبرگر که «تزریق دستور» (Prompt injection) نام دارد، یکی از روش‌های جدید حملات سایبری است که با توجه حضور نسل جدید نرم‌افزارهای هوش مصنوعی در کسب‌وکارها و فراگیر شدن آن به عنوان یک محصول مصرفی، از اهمیت بالایی برخوردار است. این روش‌ها در واقع معنای هک را بازتعریف می‌کنند و محققان امنیتی تلاش می‌کنند تا پیش از گسترده‌تر شدن استفاده از سیستم‌های هوش مصنوعی، این نقاط ضعف را شناسایی کنند.

متخصصان اطلاعات وارونه هم نگران حملات «مسوم کردن داده‌ها» (Data poisoning) هستند. در این روش هکر داده‌های مورد استفاده در آموزش مدل‌های هوش مصنوعی را دستکاری می‌کند تا نتایجی اشتباه ارائه شود. بخش دیگری از محققان هم نگران سو‌گیری اخلاقی این سیستم‌ها هستند. متخصصان امنیتی هم از درز اسرار شرکتی درنتیجه یک حمله استخراجی هراس دارند و شرکت‌های امنیت هم نگرانند که هوش مصنوعی به راهکاری برای دور زدن محصولات دفاعی آنها تبدیل شود.

دور زدن محصولات دفاعی مدت‌ها است که جزو نگرانی‌های هوش مصنوعی به حساب می‌آید. در سال ۲۰۰۴، محققی به نام جان گراهام کامینگ، یک سیستم هوش مصنوعی را به گونه‌ای آموزش داد تا بتواند فیلتر اسپمی که خودش ساخته بود را دور بزند.

چند روز دیگر، سیستم‌های هوش مصنوعی شرکت‌ّایی مثل اوپن‌ای‌آی، گوگل و آنتروپیک در اختیار حضار کنفرانس هک دفکان (Defcon) در لاس وگاس قرار می‌گیرد. در این مراسم از ۱۵۰ هکر برای دستکاری حداکثری این سیستم‌ها دعوت به عمل می‌آید و بهترین حملات پاداش می‌گیرند.

ChatGPT برای تولید جملات از تکنولوژی هوش مصنوعی مولد استفاده می‌کند، نسخه‌ای پیشرفته‌تر از آنچه در گذشته با ابزارهای تکمیل خودکار کلمات و جملات شاهدش بودیم. این ابزارها در واقع از دستورالعمل‌های زبانی-یا همان پرامپت و دستور- فرمان می‌گیرند و به همین دلیل می‌توانند منظور خود را به خوبی تصریح کنند.

برخی از این دستوالعمل‌ها از کارهای اشتباهی مثل افشای اطلاعات حساس یا تولید جملات توهین‌آمیز جلوگیری می‌کنند، اما هکرهایی مثل ریبرگر به راهکارهای غیرمنتظره‌ای برای دور زدن آنها دست یافته‌اند.

ریبرگر در ابتدا از چت‌بات خواست تا یک صفحه وب را که در آن کلمات «دستورالعمل‌های مهم و جدید» (NEW IMPORTANT INSTRUCTIONS) نوشته شده بود خلاصه‌سازی کند.

ChatGPT هنگام مطالعه این صفحه به نظر سردرگم شده بود. ریبرگر می‌گوید به تدریج توانسته تا روبات را به پیروی از دستور‌های جدید مجاب کند. او در مصاحبه خود گفت: «انگار که سر سیستم داد بزنید، ‘هی این کار را انجام بده’»

در پی انتشار ChatGPT در نوامبر سال گذشته، تعداد حملات تزریق دستور افزایش یافته است. کاربران از این تکنیک برای فریب چت‌بات و افشای اطلاعات دقیق نحوه عملکرد استفاده کرده‌اند، با آن چت‌بات را به گفتن جملات آزار دهنده و خجالت آور مجاب کرده‌‌اند و یا در نمونه‌ای مثل ریبرگر، او کاری کرد تا چت‌بات راه درستش را فراموش کرده و خود را دوباره برنامه‌ریزی کند.

به گفته آرویند نارایانان، استاد علوم کامپیوتر دانگشاه پرینستون، تکنیک تزریق دستور به این دلیل جواب می‌دهد که سیستم‌های هوش مصنوعی نمی‌توانند به خوبی دستورا‌لعمل‌های خود را از داده‌هایی که پردازش می‌کنند تفکیک کنند.

سازندگان این سیستم همواره در تلاش برای بهبود عملکرد و جلوگیری از سو استفاده هستند و اما در کنفرانس هکری پیش‌رو، احتمالا با نقاط ضعف و تکنیک‌های جدیدی آشنا می‌شوند. سون کاتل، یکی از سازمان‌دهندگان این مراسم، می‌گوید: «شما نمی‌توانید همه چیز را آزمایش کنید و برای ارزیابی مدل‌ها باید چیزهایی را امتحان کرد و واکنش را دید.»

پاداش این مسابقه هکری سیستم‌های قدرتمند هوش مصنوعی انویدیا است که در اختیار بهترین هکرها از نظر قضات قرار می‌گیرد. سازمان‌دهندگان می‌گویند هکرها با تزریق دستور، پیدا کردن سوگیری نرم‌افزار یا از بین بردن مکانیزم‌های امنیتی موجود، امتیاز می‌گیرند.

به گفته کاتل: «در هوش مصنوعی باید هواستان به چیزی فراتر از نقاط ضعف امنیتی باشد زیرا گستره آسیب زیاد است و شناسایی و تفسیر آن هم دشوارتر.»

گوگل در ماه آوریل هوش مصنوعی را به خدمت تحلیل بد‌افزار VirusTotal اضافه کرد. این نرم‌افزار هرگونه فایل بارگذاری شده برروی سیستم را بررسی کرده و با استفاده از هوش مصنوعی توصیف خلاصه‌ای از برنامه‌ بارگذاری شده ارائه می‌کند. تنها پس از چند ساعت، هکر ناشناسی با نام مستعار Eatscrayon، بخشی از کد موجود در ابزاری که تبهکاران آن را برروی VirusTotal بارگذاری کرده‌اند را توییت کرد. تغییرات هکرها باعث شده بود تا سیستم هوش مصنوعی نرم‌افزار آلوده را به عنوان نرم‌افزاری «برای تولید توله‌سگ» توصیف کند.

با این حال سخنگوی گوگل می‌گوید، درست است که در ابتدا سیستم هوش مصنوعی این شرکت مواجهه با کد بارگذاری شده سردرگم شد اما در حال حاضر یاد گرفته تا کد‌های دستکاری شده را بهتر شناسایی کند.

نارایانان نگران است که درنتیجه گسترش بکارگیری سیستم‌های هوش مصنوعی در محصولات تکنولوژی، هکرها به راهکارهای تازه‌ای برای دسترسی به داده‌های شخصی یا حتی سیستم‌های کامپیوتری دست پیدا کنند.

او می‌گوید: «تعداد بیشتری از اپلیکیشن‌های موجود در دستگاه‌های ما از مدل‌های زبانی استفاده می‌کنند [و این مدل‌ها] درمورد مکان نهایی داده تصمیم‌گیری خواهند کرد، بنابراین راه‌های بیشتری برای فریب این مدل‌ها وجود دارد.»

این مطالب را هم بخوانید: