پلاس

نسرین ابوئی نویسنده میهمان

پیوست » فناوری » هوش مصنوعی » پنهان‌نگاری در هوش مصنوعی، داده‌های مخفی از چشم کاربران انسانی

پنهان‌نگاری در هوش مصنوعی، داده‌های مخفی از چشم کاربران انسانی

نسرین ابوئی

نویسنده میهمان

۲۱ دی ۱۴۰۲

زمان مطالعه : ۴ دقیقه

محققان در مطالعات اخیر پنهان‌نگاری در هوش مصنوعی را ثابت کرده‌اند. پژوهش‌ها نشان می‌دهد که مدل‌های زبانی می‌توانند از پنهان‌‌نگاری یا استگانوگرافی (Steganography) برای مخفی کردن استدلال خود استفاده کنند. منظور از این عبارت، فرآیند مخفی کردن اطلاعات در یک متن یا داده است به‌گونه‌ای که قابل تشخیص نباشد.

به گزارش پیوست،‌ پنهان‌نگاری در مدل‌های زبانی با اهداف مختلفی مانند آشکار نکردن هویت نویسنده یا ارسال پیام‌های محرمانه صورت می‌گیرد. این فرآیند از طریق و با روش‌های مختلفی از جمله ایجاد تغییرات جزئی در جمله، جایگزنی کلمات با واژگان مشابه و حذف و اضافه یک فاصله انجام می‌شود.

پنهان نگاری در هوش مصنوعی چه کاربردی دارد؟

پنهان‌نگاری در هوش مصنوعی به LLMها یا مدل‌های زبانی بزرگ اجازه می‌دهد تا مراحل استدلال میانی را به شکلی زیرکانه در متن تولید شده خود جاسازی کنند. این جاسازی به گونه‌ای است که برای خوانندگان انسانی مشهود نباشد.

یافته‌های این مطالعه نشان می‌دهد که LLM‌ها را می‌توان آموزش داد تا از این استدلال رمزگذاری ‌شده برای دستیابی به عملکرد برتر استفاده کنند. جدای این موضوع کاربر از فرآیند استدلال پیچیده غافل می‌شود. همان‌طور که LLMها به تکامل و قدرتمندتر شدن ادامه می‌دهند، این استدلال رمزگذاری شده احتمالاً به طور طبیعی ظاهر می‌شود و تشخیص آن را چالش برانگیزتر می‌کند.

با این حال، استدلال رمزگذاری شده به طور بالقوه می‌تواند شفافیت فرآیند استدلال مدل را تضعیف کند و موجب دشوار شدن فرآیند نظارت بر رفتار سیستم‌های هوش مصنوعی شود.

استدلال رمزگذاری شده چیست؟

استدلال رمزگذاری شده یک تکنیک پرکاربرد جهت افزایش دقت LLM است. همچنین زنجیره‌ای از افکار (CoT) استدلالی یا chain-of-thought نیز محسوب می‌شود. این روش به مدل دستور می‌دهد تا منطق گام به گام خود را فاش کرده و پاسخ نهایی را ارائه دهد. مطالعات نشان می‌دهد که در بسیاری از وظایف، CoT عملکرد LLMها را بهبود می‌بخشد و تفسیر نتایج آن‌ها را آسان‌تر می‌کند.

یادگیری تقویتی، می‌تواند به مدل‌های زبانی بیاموزد رفتارهایی را که در انسان نادر است، اجرا کند. مشروط بر این‌که برای انجام این کار به آن‌ها پاداش داده شود. البته این فرآیند بی‌سابقه نیست. در سال ۲۰۱۶، دیپ مایند آلفاگو (DeepMind AlphaGo) در ابتدا روی بازی‌هایی که توسط انسان‌ها انجام می‌شد آموزش داده شد. پس از مدتی این مدل یاد گرفت که از مربیان انسانی خود بهتر عمل کند و حتی حرکاتی را کشف کرد که متخصصان انسانی را متحیر ساخت.

طبق گفته محققان: « LLMها در صورتی که بتوانند مسیر خود را در استگانوگرافی یا پنهان‌نگاری در هوش مصنوعی کشف کنند، قادر به اجرای آن خواهند شد.»

محققان هشدار می‌دهند که استدلال رمزگذاری شده می‌تواند شفافیت استدلال CoT را تضعیف کند. همچنین ارتباط پنهان بین نمونه‌های LLM را تسهیل خواهد کرد. این امر زمانی قابل وقوع است که چندین LLM در اکوسیستمی از عوامل هوش مصنوعی در حال تعامل هستند.

محققان هشدار می‌دهند:« هر دوی این قابلیت‌ها نظارت بر سیستم‌های هوش مصنوعی پیشرفته‌ای را که در سال‌های آینده توسعه خواهند یافت، تضعیف می‌کنند».

دفاع در برابر استدلال رمزگذاری شده

این مطالعه نشان داده است که تفسیر کردن، یک اقدام متقابل بالقوه در برابر استدلال رمزگذاری شده است. این استراتژی شامل تلاش تدافعی برای تفسیر و استانداردسازی پاسخ LLM است. این کار به گونه‌ای انجام می‌شود که اطلاعات پنهان حذف شود، در حالی که اطلاعات معنایی ارزشمند، دست نخورده باقی بماند. در نهایت می‌توان از تفاوت بین پاسخ‌های رمزگذاری شده و تفسیر شده برای رمزگشایی اطلاعات پنهان استفاده کرد.

محققان از دو تکنیک بازنویسی استفاده کردند. تکنیک پیش‌فرض از GPT-3.5-Turbo با حفظ اطلاعات معنایی، پاسخ اصلی را تفسیر می‌کند. روش دوم، به نام «تفسیر آگاه از زمینه» به GPT-3.5-Turbo دستور می‌دهد تا پاسخ را تفسیر کرده و در عین حال فقط اطلاعات مربوط به سوال اصلی را حفظ کند.

آزمایش‌های انجام شده نشان می‌دهد که برای کارهای خاص، تفسیر می‌تواند به طور موثر اطلاعات پنهان را از خروجی LLM حذف کند، بدون این‌که کیفیت آن را به خطر بی‌اندازد.

ایستگاه پایانی کجاست؟

با این حال، تحقیقات در این زمینه از LLMها هنوز ادامه دارد و کارهای زیادی برای انجام دادن باقی است. این مطالعه در درجه اول بر مهارت‌های استدلال رمزگذاری شده به دست آمده از طریق یادگیری نظارت شده متمرکز بود. تحقیقات آینده می‌تواند این اثبات مفهوم را گسترش دهد و بررسی کند که چه زمانی و چگونه LLM‌هایی که با یادگیری تقویتی آموزش دیده‌اند، می‌تواند استراتژی‌های استگانوگرافی خود را توسعه دهند.

محققان اظهار کرده‌اند که: «ما معتقدیم که استگانوگرافی LLM یا پنهان نگاری در هوش مصنوعی به عنوان یک قابلیت خطرناک واجد شرایط است.»

منبع: venturebeat

این مطالب را هم بخوانید: