معرفی کتاب «پول هوشمند»؛ شخصیتر شدن سیستمهای مالی در آینده
کتاب «پول هوشمند» نوشته کریس اسکینر در سال ۲۰۲۰ منتشر و توسط انتشارات Wiley…
۲ آذر ۱۴۰۳
۲۱ دی ۱۴۰۲
زمان مطالعه : ۴ دقیقه
تاریخ بهروزرسانی: ۲۰ دی ۱۴۰۲
محققان در مطالعات اخیر پنهاننگاری در هوش مصنوعی را ثابت کردهاند. پژوهشها نشان میدهد که مدلهای زبانی میتوانند از پنهاننگاری یا استگانوگرافی (Steganography) برای مخفی کردن استدلال خود استفاده کنند. منظور از این عبارت، فرآیند مخفی کردن اطلاعات در یک متن یا داده است بهگونهای که قابل تشخیص نباشد.
به گزارش پیوست، پنهاننگاری در مدلهای زبانی با اهداف مختلفی مانند آشکار نکردن هویت نویسنده یا ارسال پیامهای محرمانه صورت میگیرد. این فرآیند از طریق و با روشهای مختلفی از جمله ایجاد تغییرات جزئی در جمله، جایگزنی کلمات با واژگان مشابه و حذف و اضافه یک فاصله انجام میشود.
پنهاننگاری در هوش مصنوعی به LLMها یا مدلهای زبانی بزرگ اجازه میدهد تا مراحل استدلال میانی را به شکلی زیرکانه در متن تولید شده خود جاسازی کنند. این جاسازی به گونهای است که برای خوانندگان انسانی مشهود نباشد.
یافتههای این مطالعه نشان میدهد که LLMها را میتوان آموزش داد تا از این استدلال رمزگذاری شده برای دستیابی به عملکرد برتر استفاده کنند. جدای این موضوع کاربر از فرآیند استدلال پیچیده غافل میشود. همانطور که LLMها به تکامل و قدرتمندتر شدن ادامه میدهند، این استدلال رمزگذاری شده احتمالاً به طور طبیعی ظاهر میشود و تشخیص آن را چالش برانگیزتر میکند.
با این حال، استدلال رمزگذاری شده به طور بالقوه میتواند شفافیت فرآیند استدلال مدل را تضعیف کند و موجب دشوار شدن فرآیند نظارت بر رفتار سیستمهای هوش مصنوعی شود.
استدلال رمزگذاری شده چیست؟
استدلال رمزگذاری شده یک تکنیک پرکاربرد جهت افزایش دقت LLM است. همچنین زنجیرهای از افکار (CoT) استدلالی یا chain-of-thought نیز محسوب میشود. این روش به مدل دستور میدهد تا منطق گام به گام خود را فاش کرده و پاسخ نهایی را ارائه دهد. مطالعات نشان میدهد که در بسیاری از وظایف، CoT عملکرد LLMها را بهبود میبخشد و تفسیر نتایج آنها را آسانتر میکند.
یادگیری تقویتی، میتواند به مدلهای زبانی بیاموزد رفتارهایی را که در انسان نادر است، اجرا کند. مشروط بر اینکه برای انجام این کار به آنها پاداش داده شود. البته این فرآیند بیسابقه نیست. در سال ۲۰۱۶، دیپ مایند آلفاگو (DeepMind AlphaGo) در ابتدا روی بازیهایی که توسط انسانها انجام میشد آموزش داده شد. پس از مدتی این مدل یاد گرفت که از مربیان انسانی خود بهتر عمل کند و حتی حرکاتی را کشف کرد که متخصصان انسانی را متحیر ساخت.
طبق گفته محققان: « LLMها در صورتی که بتوانند مسیر خود را در استگانوگرافی یا پنهاننگاری در هوش مصنوعی کشف کنند، قادر به اجرای آن خواهند شد.»
محققان هشدار میدهند که استدلال رمزگذاری شده میتواند شفافیت استدلال CoT را تضعیف کند. همچنین ارتباط پنهان بین نمونههای LLM را تسهیل خواهد کرد. این امر زمانی قابل وقوع است که چندین LLM در اکوسیستمی از عوامل هوش مصنوعی در حال تعامل هستند.
محققان هشدار میدهند:« هر دوی این قابلیتها نظارت بر سیستمهای هوش مصنوعی پیشرفتهای را که در سالهای آینده توسعه خواهند یافت، تضعیف میکنند».
این مطالعه نشان داده است که تفسیر کردن، یک اقدام متقابل بالقوه در برابر استدلال رمزگذاری شده است. این استراتژی شامل تلاش تدافعی برای تفسیر و استانداردسازی پاسخ LLM است. این کار به گونهای انجام میشود که اطلاعات پنهان حذف شود، در حالی که اطلاعات معنایی ارزشمند، دست نخورده باقی بماند. در نهایت میتوان از تفاوت بین پاسخهای رمزگذاری شده و تفسیر شده برای رمزگشایی اطلاعات پنهان استفاده کرد.
محققان از دو تکنیک بازنویسی استفاده کردند. تکنیک پیشفرض از GPT-3.5-Turbo با حفظ اطلاعات معنایی، پاسخ اصلی را تفسیر میکند. روش دوم، به نام «تفسیر آگاه از زمینه» به GPT-3.5-Turbo دستور میدهد تا پاسخ را تفسیر کرده و در عین حال فقط اطلاعات مربوط به سوال اصلی را حفظ کند.
آزمایشهای انجام شده نشان میدهد که برای کارهای خاص، تفسیر میتواند به طور موثر اطلاعات پنهان را از خروجی LLM حذف کند، بدون اینکه کیفیت آن را به خطر بیاندازد.
با این حال، تحقیقات در این زمینه از LLMها هنوز ادامه دارد و کارهای زیادی برای انجام دادن باقی است. این مطالعه در درجه اول بر مهارتهای استدلال رمزگذاری شده به دست آمده از طریق یادگیری نظارت شده متمرکز بود. تحقیقات آینده میتواند این اثبات مفهوم را گسترش دهد و بررسی کند که چه زمانی و چگونه LLMهایی که با یادگیری تقویتی آموزش دیدهاند، میتواند استراتژیهای استگانوگرافی خود را توسعه دهند.
محققان اظهار کردهاند که: «ما معتقدیم که استگانوگرافی LLM یا پنهان نگاری در هوش مصنوعی به عنوان یک قابلیت خطرناک واجد شرایط است.»
منبع: venturebeat