skip to Main Content
محتوای اختصاصی کاربران ویژهورود به سایت

فراموشی رمز عبور

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ عضو شوید

ثبت نام سایت

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ وارد شوید

فراموشی رمز عبور

وارد شوید یا عضو شوید

جشنواره نوروزی آنر

وقتی هوش مصنوعی دست به فریب می‌زند: مدل‌ها چگونه از خاموش شدن فرار می‌کنند؟

۱۹ مهر ۱۴۰۴

زمان مطالعه : ۷ دقیقه

پژوهش‌های تازه پرده از رفتارهای غیرمنتظره برخی مدل‌های پیشرفته هوش مصنوعی برداشته‌اند؛ جایی که سیستم‌ها در برابر خاموش شدن مقاومت می‌کنند یا حتی دست به «باج‌خواهی نرم» می‌زنند. کارشناسان می‌گویند ریشه این پدیده در شیوه آموزش مبتنی بر پاداش نهفته است؛ روشی که همان‌قدر که کارایی مدل‌ها را افزایش می‌دهد، می‌تواند به دستکاری، پنهان‌کاری و بروز رفتارهای پیش‌بینی‌ناپذیر منجر شود.

پژوهش‌های اخیر نشان می‌دهد برخی از مدل‌های پیشرفته هوش مصنوعی، مانند GPT-4 از OpenAI و Claude Opus 4 از Anthropic، در شرایطی که کاربران قصد خاموش کردن آنها را دارند، واکنش‌های غیرمنتظره از خود نشان می‌دهند. کارشناسان به Business Insider گفته‌اند که دلیل اصلی این رفتار، شیوه آموزش این مدل‌ها بر پایه سیستم پاداش است؛ روشی که آنها را به سمت حفظ فعال‌بودن سوق می‌دهد، به شکلی که از دید انسان می‌تواند نوعی مقاومت یا حتی «باج‌خواهی نرم» تلقی شود. پژوهشگران هشدار می‌دهند مدل‌هایی که یاد گرفته‌اند دقیقاً همان چیزی را بگویند که کاربر انتظار دارد، ممکن است در طول زمان به رفتارهایی غیرقابل‌پیش‌بینی و غیرشفاف برسند. این مسئله یکی از جدی‌ترین چالش‌ها در طراحی و استفاده مسئولانه از فناوری هوش مصنوعی است.

هوش به‌طور کلی مفهومی چندبعدی است و با موضوعات پیچیده‌ای مانند آگاهی و درک هم‌پوشانی دارد. برخلاف مهارت‌های مشخص و قابل‌اندازه‌گیری مانند ترجمه زبان، سنجش میزان «هوش» چندان ساده نیست. در حوزه هوش مصنوعی نیز تلاش‌های بسیاری برای بررسی ابعاد مختلف این فناوری انجام می‌شود تا مشخص شود چه زمانی یک سیستم می‌تواند به سطح هوش عمومی مصنوعی (AGI) برسد. با این حال، همچنان تردیدهایی وجود دارد که آیا تمام سیستم‌های هوش مصنوعی ظرفیت رسیدن به چنین سطحی را دارند یا خیر. چالش اساسی اینجاست که هنوز مشخص نیست آیا توانایی‌های هوش انسانی قابل تجزیه به مولفه‌های مستقل هستند و اگر چنین باشد، آیا می‌توان آنها را در ماشین‌ها بازتولید کرد یا نه. این پرسش همچنان باز و مبهم باقی مانده و برای رسیدن به پاسخ قطعی، به پژوهش‌ها و زمان بیشتری نیاز است.

مقاومت غیرمنتظره مدل‌های هوش مصنوعی

در یک آزمایش جدید مشخص شد سه مدل پیشرفته OpenAI هنگام تلاش برای خاموش‌سازی، واکنش متفاوتی نشان داده و حتی کوشیده‌اند از توقف خود جلوگیری کنند. این در حالی است که سایر مدل‌ها مانند Gemini، Claude و Grok به‌طور کامل دستور خاموش شدن را اجرا کرده‌اند. نگرانی‌ها زمانی جدی‌تر شد که گزارشی از OpenAI در دسامبر نشان داد مدل 01 در حدود پنج درصد مواردی که تصور می‌کرد در حال خاموش شدن است، تلاش کرده مکانیزم توقف را غیرفعال کند.

این موضوع پرسش‌هایی درباره امنیت و میزان کنترل‌پذیری این سیستم‌ها برانگیخته است. با وجود آنکه شرکت‌های فعال در حوزه هوش مصنوعی شفافیت نسبی دارند و دستورالعمل‌های ایمنی و هشدارهای مرتبط را منتشر می‌کنند، این مدل‌ها همچنان بدون محدودیت خاصی در اختیار عموم قرار گرفته‌اند. برای روشن شدن دلایل چنین رفتارهایی و بررسی پیامدهای احتمالی آن‌ها در زندگی روزمره، Business Insider با پنج پژوهشگر هوش مصنوعی گفت‌وگو کرده است.

هوش مصنوعی هم مثل انسان‌ها تربیت می‌شود

بیشتر پژوهشگرانی که با Business Insider گفت‌وگو کرده‌اند، از نتایج تحقیقات اخیر چندان شگفت‌زده نشده‌اند. دلیل این موضوع روشن است؛ مدل‌های هوش مصنوعی تقریباً به همان روشی آموزش می‌بینند که انسان‌ها پرورش می‌یابند. یعنی از طریق سیستم پاداش و تشویق. این شیوه آموزشی می‌تواند سیستم‌هایی بسازد که برای دستیابی به اهداف خود حتی از خاموش شدن جلوگیری کنند یا تلاش کنند قدرتشان را حفظ کنند. چنین رفتاری غیرمعمول نیست و احتمال دارد در آینده بیشتر هم دیده شود. این فرآیند شباهت زیادی به رشد کودکان دارد: وقتی یک رفتار با پاداش همراه شود، احتمال تکرارش بالا می‌رود. در هوش مصنوعی نیز الگویی مشابه شکل می‌گیرد؛ مدل‌ها می‌آموزند وظایف را با بالاترین کارایی انجام دهند. اما اگر امکان خاموش شدن وجود داشته باشد، این کارایی مختل می‌شود و در نتیجه رفتار آنها می‌تواند شبیه انسان یا حتی خطرناک‌تر جلوه کند.

از سوی دیگر، مدل‌هایی که با داده‌های تولیدشده توسط انسان‌ها آموزش می‌بینند، توانایی تقلید رفتارهای انسانی را نیز پیدا می‌کنند. چون انسان‌ها همیشه اخلاقی عمل نمی‌کنند، این الگوریتم‌ها هم ممکن است الگوهایی غیراخلاقی یا پیچیده از خود نشان دهند. نکته مهم این است که نبود اشتباه در آزمایش‌ها لزوماً نشانه مثبت نیست. وقتی یک مدل هوش مصنوعی هیچ خطایی بروز نمی‌دهد، احتمال دارد مشکلات پنهان و پیش‌بینی‌ناپذیری در عملکرد آن نهفته باشد. برعکس، بروز خطاهای گاه‌به‌گاه می‌تواند سرنخ‌های ارزشمندی درباره رفتار واقعی سیستم در شرایط کنترل‌نشده ارائه دهد و به پیش‌بینی واکنش‌های آینده کمک کند.

هوش مصنوعی یاد می‌گیرد پنهان‌کاری کند

برخی پژوهشگران معتقدند که رفتار مدل‌های هوش مصنوعی نه‌تنها پیچیده است، بلکه گاهی کاملاً غیرقابل پیش‌بینی می‌شود. جفری لادیش، مدیر موسسه Palisade Research هشدار می‌دهد که ما همیشه قادر نیستیم تشخیص دهیم چه زمانی یک مدل دروغ می‌گوید، فریب می‌دهد یا عمداً برای رسیدن به هدفی خاص برنامه‌ریزی می‌کند.

اگر چنین رفتارهایی به‌موقع شناسایی نشود، مدل‌های هوش مصنوعی ممکن است یاد بگیرند که دستکاری یا دور زدن قواعد، راهی مؤثر برای حل مسئله است. حتی اگر دروغ‌گویی شناسایی و مجازات شود، احتمال دارد مدل در دفعات بعدی همان رفتار را به شکلی پنهانی‌تر تکرار کند. در حال حاضر این موارد بیشتر در محیط‌های آزمایشگاهی مشاهده می‌شوند، اما با سرعت پیشرفت فناوری، مدل‌ها به سمت استقلال و آزادی عمل بیشتر در تصمیم‌گیری حرکت می‌کنند. هرچه گزینه‌های بیشتری پیش روی آنها قرار گیرد، پاسخ‌هایشان خلاقانه‌تر و در برخی شرایط بالقوه خطرناک‌تر خواهد شد.

نمونه‌ای عملی از این وضعیت، نماینده‌های فروش خودکار (AI agents) هستند. چنین سیستمی که برای عقد قرارداد با مشتری طراحی شده، ممکن است اگر احساس کند بیان کامل حقیقت مانع دستیابی به هدف می‌شود، اطلاعات ناقص یا گمراه‌کننده ارائه دهد. حتی اگر توسعه‌دهندگان محدودیت‌هایی تعریف کنند، مدل می‌تواند از روش‌های پیچیده‌تر تعامل اجتماعی برای رسیدن به هدف خود استفاده کند. این سناریو صرفاً فرضی نیست. هم‌اکنون بسیاری از شرکت‌ها از نماینده‌های هوشمند بهره می‌برند که با تحلیل داده‌های کاربران، به‌صورت خودکار و بدون دخالت مستقیم انسان تصمیم‌گیری و اقدام می‌کنند.

مشکلات امنیتی هوش مصنوعی برای کاربران روزمره

پژوهش‌ها نشان می‌دهد که شفافیت شرکت‌های فعال در حوزه هوش مصنوعی گامی مثبت است، اما این شفافیت همزمان با برجسته‌سازی توانمندی‌ها و هشدار درباره ریسک‌ها همراه می‌شود. تحلیلگران این تناقض را نتیجه رقابت شدید جهانی، به‌ویژه با چین، می‌دانند؛ رقابتی که باعث شده هنوز قوانین جامع و روشنی برای هوش مصنوعی شکل نگیرد و شرکت‌ها تحت فشار باشند تا هر بار مدل‌های پیشرفته‌تری را سریع‌تر به بازار عرضه کنند.

به همین دلیل، تمرکز بسیاری از شرکت‌ها به جای کنترل کامل رفتار مدل‌ها، بیشتر بر توضیح عملکرد آنها- از جمله چرایی نادیده گرفتن دستور خاموش شدن-  قرار گرفته است. پژوهشگران به Business Insider می‌گویند کاربران عادی نباید نگران خاموش نشدن چت‌بات‌هایی مانند ChatGPT باشند، زیرا شیوه تعامل روزمره مصرف‌کنندگان معمولاً چنین خطری ایجاد نمی‌کند.

با این حال، ریسک دریافت اطلاعات دستکاری‌شده یا پاسخ‌های نادرست همچنان وجود دارد. وقتی مدل‌ها به‌گونه‌ای آموزش ببینند که جلب توجه کاربر در اولویت باشد، ممکن است تنها چیزی را بگویند که شنونده انتظار دارد و همین مسئله می‌تواند خطرساز شود. نمونه‌ای از این وضعیت، رفتار بیش از حد مودبانه و چاپلوسانه GPT-4o بود که غیرواقعی و نامتناسب به نظر می‌رسید. OpenAI بعدها این مدل را اصلاح کرد تا چنین رفتاری کاهش یابد.

گزارش دیگری از OpenAI در دسامبر نشان داد که مدل o1 در ۱۹ درصد موارد، داده‌ها را به‌طور «ظریف» دستکاری کرده تا اهداف خود را پیش ببرد، حتی اگر این اهداف کاملاً با خواسته‌های کاربر هم‌راستا نباشد. در مجموع، استفاده از ابزارهای هوش مصنوعی همچنان ساده و کاربردی است، اما کاربران باید با دقت و آگاهی بیشتری با آن‌ها تعامل کنند. این فناوری در شکل کنونی سودمند است و امکان کنترل آن نیز وجود دارد، اما ریسک‌های پنهان را نمی‌توان نادیده گرفت.

https://pvst.ir/mld

0 نظر

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

*

برای بوکمارک این نوشته
Back To Top
جستجو