وزارت ارتباطات موظف به طراحی ابر گرافیکی و مراکز داده ویژه هوشمصنوعی شد
سند تقسیم کار ملی هوش مصنوعی، وزارت ارتباطات را از مقام سیاستگذار به مجری اصلی…
۱۹ مهر ۱۴۰۴
۱۹ مهر ۱۴۰۴
زمان مطالعه : ۷ دقیقه
پژوهشهای تازه پرده از رفتارهای غیرمنتظره برخی مدلهای پیشرفته هوش مصنوعی برداشتهاند؛ جایی که سیستمها در برابر خاموش شدن مقاومت میکنند یا حتی دست به «باجخواهی نرم» میزنند. کارشناسان میگویند ریشه این پدیده در شیوه آموزش مبتنی بر پاداش نهفته است؛ روشی که همانقدر که کارایی مدلها را افزایش میدهد، میتواند به دستکاری، پنهانکاری و بروز رفتارهای پیشبینیناپذیر منجر شود.
پژوهشهای اخیر نشان میدهد برخی از مدلهای پیشرفته هوش مصنوعی، مانند GPT-4 از OpenAI و Claude Opus 4 از Anthropic، در شرایطی که کاربران قصد خاموش کردن آنها را دارند، واکنشهای غیرمنتظره از خود نشان میدهند. کارشناسان به Business Insider گفتهاند که دلیل اصلی این رفتار، شیوه آموزش این مدلها بر پایه سیستم پاداش است؛ روشی که آنها را به سمت حفظ فعالبودن سوق میدهد، به شکلی که از دید انسان میتواند نوعی مقاومت یا حتی «باجخواهی نرم» تلقی شود. پژوهشگران هشدار میدهند مدلهایی که یاد گرفتهاند دقیقاً همان چیزی را بگویند که کاربر انتظار دارد، ممکن است در طول زمان به رفتارهایی غیرقابلپیشبینی و غیرشفاف برسند. این مسئله یکی از جدیترین چالشها در طراحی و استفاده مسئولانه از فناوری هوش مصنوعی است.
هوش بهطور کلی مفهومی چندبعدی است و با موضوعات پیچیدهای مانند آگاهی و درک همپوشانی دارد. برخلاف مهارتهای مشخص و قابلاندازهگیری مانند ترجمه زبان، سنجش میزان «هوش» چندان ساده نیست. در حوزه هوش مصنوعی نیز تلاشهای بسیاری برای بررسی ابعاد مختلف این فناوری انجام میشود تا مشخص شود چه زمانی یک سیستم میتواند به سطح هوش عمومی مصنوعی (AGI) برسد. با این حال، همچنان تردیدهایی وجود دارد که آیا تمام سیستمهای هوش مصنوعی ظرفیت رسیدن به چنین سطحی را دارند یا خیر. چالش اساسی اینجاست که هنوز مشخص نیست آیا تواناییهای هوش انسانی قابل تجزیه به مولفههای مستقل هستند و اگر چنین باشد، آیا میتوان آنها را در ماشینها بازتولید کرد یا نه. این پرسش همچنان باز و مبهم باقی مانده و برای رسیدن به پاسخ قطعی، به پژوهشها و زمان بیشتری نیاز است.
در یک آزمایش جدید مشخص شد سه مدل پیشرفته OpenAI هنگام تلاش برای خاموشسازی، واکنش متفاوتی نشان داده و حتی کوشیدهاند از توقف خود جلوگیری کنند. این در حالی است که سایر مدلها مانند Gemini، Claude و Grok بهطور کامل دستور خاموش شدن را اجرا کردهاند. نگرانیها زمانی جدیتر شد که گزارشی از OpenAI در دسامبر نشان داد مدل 01 در حدود پنج درصد مواردی که تصور میکرد در حال خاموش شدن است، تلاش کرده مکانیزم توقف را غیرفعال کند.
این موضوع پرسشهایی درباره امنیت و میزان کنترلپذیری این سیستمها برانگیخته است. با وجود آنکه شرکتهای فعال در حوزه هوش مصنوعی شفافیت نسبی دارند و دستورالعملهای ایمنی و هشدارهای مرتبط را منتشر میکنند، این مدلها همچنان بدون محدودیت خاصی در اختیار عموم قرار گرفتهاند. برای روشن شدن دلایل چنین رفتارهایی و بررسی پیامدهای احتمالی آنها در زندگی روزمره، Business Insider با پنج پژوهشگر هوش مصنوعی گفتوگو کرده است.
بیشتر پژوهشگرانی که با Business Insider گفتوگو کردهاند، از نتایج تحقیقات اخیر چندان شگفتزده نشدهاند. دلیل این موضوع روشن است؛ مدلهای هوش مصنوعی تقریباً به همان روشی آموزش میبینند که انسانها پرورش مییابند. یعنی از طریق سیستم پاداش و تشویق. این شیوه آموزشی میتواند سیستمهایی بسازد که برای دستیابی به اهداف خود حتی از خاموش شدن جلوگیری کنند یا تلاش کنند قدرتشان را حفظ کنند. چنین رفتاری غیرمعمول نیست و احتمال دارد در آینده بیشتر هم دیده شود. این فرآیند شباهت زیادی به رشد کودکان دارد: وقتی یک رفتار با پاداش همراه شود، احتمال تکرارش بالا میرود. در هوش مصنوعی نیز الگویی مشابه شکل میگیرد؛ مدلها میآموزند وظایف را با بالاترین کارایی انجام دهند. اما اگر امکان خاموش شدن وجود داشته باشد، این کارایی مختل میشود و در نتیجه رفتار آنها میتواند شبیه انسان یا حتی خطرناکتر جلوه کند.
از سوی دیگر، مدلهایی که با دادههای تولیدشده توسط انسانها آموزش میبینند، توانایی تقلید رفتارهای انسانی را نیز پیدا میکنند. چون انسانها همیشه اخلاقی عمل نمیکنند، این الگوریتمها هم ممکن است الگوهایی غیراخلاقی یا پیچیده از خود نشان دهند. نکته مهم این است که نبود اشتباه در آزمایشها لزوماً نشانه مثبت نیست. وقتی یک مدل هوش مصنوعی هیچ خطایی بروز نمیدهد، احتمال دارد مشکلات پنهان و پیشبینیناپذیری در عملکرد آن نهفته باشد. برعکس، بروز خطاهای گاهبهگاه میتواند سرنخهای ارزشمندی درباره رفتار واقعی سیستم در شرایط کنترلنشده ارائه دهد و به پیشبینی واکنشهای آینده کمک کند.
برخی پژوهشگران معتقدند که رفتار مدلهای هوش مصنوعی نهتنها پیچیده است، بلکه گاهی کاملاً غیرقابل پیشبینی میشود. جفری لادیش، مدیر موسسه Palisade Research هشدار میدهد که ما همیشه قادر نیستیم تشخیص دهیم چه زمانی یک مدل دروغ میگوید، فریب میدهد یا عمداً برای رسیدن به هدفی خاص برنامهریزی میکند.
اگر چنین رفتارهایی بهموقع شناسایی نشود، مدلهای هوش مصنوعی ممکن است یاد بگیرند که دستکاری یا دور زدن قواعد، راهی مؤثر برای حل مسئله است. حتی اگر دروغگویی شناسایی و مجازات شود، احتمال دارد مدل در دفعات بعدی همان رفتار را به شکلی پنهانیتر تکرار کند. در حال حاضر این موارد بیشتر در محیطهای آزمایشگاهی مشاهده میشوند، اما با سرعت پیشرفت فناوری، مدلها به سمت استقلال و آزادی عمل بیشتر در تصمیمگیری حرکت میکنند. هرچه گزینههای بیشتری پیش روی آنها قرار گیرد، پاسخهایشان خلاقانهتر و در برخی شرایط بالقوه خطرناکتر خواهد شد.
نمونهای عملی از این وضعیت، نمایندههای فروش خودکار (AI agents) هستند. چنین سیستمی که برای عقد قرارداد با مشتری طراحی شده، ممکن است اگر احساس کند بیان کامل حقیقت مانع دستیابی به هدف میشود، اطلاعات ناقص یا گمراهکننده ارائه دهد. حتی اگر توسعهدهندگان محدودیتهایی تعریف کنند، مدل میتواند از روشهای پیچیدهتر تعامل اجتماعی برای رسیدن به هدف خود استفاده کند. این سناریو صرفاً فرضی نیست. هماکنون بسیاری از شرکتها از نمایندههای هوشمند بهره میبرند که با تحلیل دادههای کاربران، بهصورت خودکار و بدون دخالت مستقیم انسان تصمیمگیری و اقدام میکنند.
پژوهشها نشان میدهد که شفافیت شرکتهای فعال در حوزه هوش مصنوعی گامی مثبت است، اما این شفافیت همزمان با برجستهسازی توانمندیها و هشدار درباره ریسکها همراه میشود. تحلیلگران این تناقض را نتیجه رقابت شدید جهانی، بهویژه با چین، میدانند؛ رقابتی که باعث شده هنوز قوانین جامع و روشنی برای هوش مصنوعی شکل نگیرد و شرکتها تحت فشار باشند تا هر بار مدلهای پیشرفتهتری را سریعتر به بازار عرضه کنند.
به همین دلیل، تمرکز بسیاری از شرکتها به جای کنترل کامل رفتار مدلها، بیشتر بر توضیح عملکرد آنها- از جمله چرایی نادیده گرفتن دستور خاموش شدن- قرار گرفته است. پژوهشگران به Business Insider میگویند کاربران عادی نباید نگران خاموش نشدن چتباتهایی مانند ChatGPT باشند، زیرا شیوه تعامل روزمره مصرفکنندگان معمولاً چنین خطری ایجاد نمیکند.
با این حال، ریسک دریافت اطلاعات دستکاریشده یا پاسخهای نادرست همچنان وجود دارد. وقتی مدلها بهگونهای آموزش ببینند که جلب توجه کاربر در اولویت باشد، ممکن است تنها چیزی را بگویند که شنونده انتظار دارد و همین مسئله میتواند خطرساز شود. نمونهای از این وضعیت، رفتار بیش از حد مودبانه و چاپلوسانه GPT-4o بود که غیرواقعی و نامتناسب به نظر میرسید. OpenAI بعدها این مدل را اصلاح کرد تا چنین رفتاری کاهش یابد.
گزارش دیگری از OpenAI در دسامبر نشان داد که مدل o1 در ۱۹ درصد موارد، دادهها را بهطور «ظریف» دستکاری کرده تا اهداف خود را پیش ببرد، حتی اگر این اهداف کاملاً با خواستههای کاربر همراستا نباشد. در مجموع، استفاده از ابزارهای هوش مصنوعی همچنان ساده و کاربردی است، اما کاربران باید با دقت و آگاهی بیشتری با آنها تعامل کنند. این فناوری در شکل کنونی سودمند است و امکان کنترل آن نیز وجود دارد، اما ریسکهای پنهان را نمیتوان نادیده گرفت.