skip to Main Content
محتوای اختصاصی کاربران ویژهورود به سایت

فراموشی رمز عبور

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ عضو شوید

ثبت نام سایت

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ وارد شوید

فراموشی رمز عبور

وارد شوید یا عضو شوید

جشنواره نوروزی آنر

چالش جدید هوش مصنوعی: هذیان‌گویی در مدل‌های جدید بیشتر شده است

۱۵ اردیبهشت ۱۴۰۴

زمان مطالعه : ۶ دقیقه

در حالی که شرکت‌های فناوری و کاربران سراسر جهان به طور فزاینده‌ای از چت‌بات‌ها و ابزارهای هوش مصنوعی برای انجام وظایف مختلف استفاده می‌کنند، گزارشی جدید نشان می‌دهد که نسل جدید مدل‌های هوش مصنوعی نه‌تنها دقیق‌تر نشده‌اند، بلکه در مواردی خطاهای بیشتری دارند. این پدیده که به توهم یا هذیان‌گویی (hallucination) معروف است، به عنوان یکی از بزرگ‌ترین چالش‌های حال حاضر هوش مصنوعی شناخته می‌شود.

به گزارش پیوست، نیویورک تایمز طی گزارشی با اشاره به نمونه‌ای عملی از تاثیر‌گذاری جدی این پدیده بر کاربران و حتی شرکت‌هایی اشاره می‌کند که از هوش مصنوعی برای خودکارسازی وظایف خود کمک می‌گیرند به افزایش میزان هذیان‌گویی در مدل‌های جدید و تبعات احتمالی آن پرداخته است. طبق این گزارش با وجود پیشرفت ابزارهای هوش مصنوعی مولد و توسعه روز افزون این فناوری، مشکل هذیان‌گویی نه تنها برطرف نشده است، بلکه شاهد تشدید این مساله به ویژه در میان مدل‌های استدلال‌گر هستیم.

ماجرای اخیر شرکت Cursor، یکی از ابزارهای نوظهور در حوزه برنامه‌نویسی، نمونه‌ای نگران‌کننده از تبعات این پدیده است. ماه گذشته، یک ربات پشتیبانی این شرکت به اشتباه به مشتریان اعلام کرد که دیگر مجاز به استفاده از Cursor در بیش از یک دستگاه نیستند. این اطلاعیه کذب باعث نارضایتی کاربران شد و حتی برخی اشتراک خود را لغو کردند. انتقاد کاربران در شبکه‌های اجتماعی و اینترنت باعث پیگری و ریشه‌یابی این مشکل به مساله هذیان‌گویی شد.

پس از بررسی‌ها مشخص شد این اطلاعیه وجود خارجی نداشته و صرفا نتیجه اشتباه یک ربات پشتیبانی است. مدیرعامل Cursor، مایکل ترول، در واکنش به این حادثه نوشت: «ما چنین سیاستی نداریم. البته که شما می‌توانید از Cursor در چند دستگاه استفاده کنید… متاسفانه این یک پاسخ نادرست مربوط به ربات پشتیبانی مبتنی بر هوش مصنوعی است.»

نرخ هذیان‌گویی در مدل‌های جدید‌تر افزایش یافته است

با گذشت بیش از دو سال از ظهور ChatGPT، شرکت‌هایی مانند اوپن‌ای‌آی، گوگل و استارتاپ چینی دیپ‌سیک، مدل‌هایی موسوم به سیستم‌های استدلال‌گر را در اختیار کاربران قرار داده‌اند که از نظر مهارت‌های ریاضی رشد چشمگیری دارند، اما در دقت و حقیقت‌گویی نسبت به نسخه‌های پیشین دچار افت شده‌اند.

به عنوان مثال، اوپن‌ای‌آی اعلام کرده است که مدل جدید این شرکت به نام o3 در آزمون PersonQA، در ۳۳ درصد موارد اطلاعات نادرست تولید کرده و به اصطلاح دچار توهم شده است. این نرخ بیش از دو برابر نرخ خطای مدل قبلی یا o1 است. مدل کوچک‌تر ولی جدیدتر این شرکت به نام o4-mini نیز حتی عملکرد بدتری داشته و در ۴۸ درصد موارد دچار هذیان شده است.

در آزمون دیگری به نام SimpleQA که پرسش‌های عمومی‌تری را مطرح می‌کند، نرخ هذیان o3 به ۵۱ درصد و o4-mini به ۷۹ درصد رسیده است؛ در حالی که مدل o1 فقط در ۴۴ درصد مواقع اشتباه می‌کرد.

ریشه هذیان‌گویی مشخص نیست؛ در جستجوی جواب

کارشناسان هنوز به طور کامل نمی‌دانند که چرا مدل‌های جدید هوش مصنوعی با وجود پیچیدگی بیشتر، دقت کمتری دارند. گبی رایلا، سخنگوی اوپن‌ای‌آی، در این رابطه می‌گوید: «اینطور نیست که هذیان‌گویی‌ها ذاتا در مدل‌های استدلال‌گر بیشتر باشند، اما با این حال ما همواره برای کاهش نرخ بالای هذیان‌گویی که در o3 و o4-mini مشاهده کردیم، تلاش می‌کنیم.»

او افزود: «ما به تحقیقات در رابطه با هذیان‌گویی در تمامی مدل‌ها ادامه می‌دهیم تا دقت و اعتبار را افزایش دهیم.»

حنانه حاجی‌شیرزی، استاد دانشگاه واشنگتن و پژوهشگر موسسه Allen، از جمله محققانی است که برای ریشه‌یابی هذیان‌گویی مدل‌ها تلاش می‌کند. تیم او ابزاری طراحی کرده که رفتار مدل‌ها را به داده‌های آموزشی‌شان پیوند می‌زند. با این حال به گفته او گستردگی بالای داده‌ها باعث شده تا هنوز درک دقیقی از سازوکار این مدل‌ها امکان‌پذیری نباشد: «ما هنوز نمی‌دانیم این مدل‌ها دقیقا چطور کار می‌کنند.»

یکی از دلایل احتمالی افزایش خطاها در مدل‌های جدید، فرآیند استدلال چندمرحله‌ای است. مدل‌های استدلال‌گر به گونه‌ای طراحی شده‌اند که پیش از ارائه پاسخ، چند مرحله موسوم به تفکر را که پرسش و پاسخی در داخل خود مدل است، پشت سر بگذارند. چنین فرایندی ریسک خطا در هر مرحله را افزایش می‌دهد و از آنجایی که در واقع چندین پرسش و پاسخ معمولی در پشت صحنه انجام می‌گیرند، خطاها روی هم انباشت می‌شوند.

به‌علاوه، بسیاری از مدل‌های استدلال‌گر مراحل تفکر خود را به کاربر نمایش نمی‌دهند. همچنین پژوهش‌ها نشان داده‌اند که بسیاری از این مراحل در عمل ارتباطی با پاسخ نهایی ندارند و حتی مراحل تفکری که در برخی مدل‌ها به نمایش گذاشته می‌شود نیز ممکن است ارتباطی با تفکر واقعی نداشته باشد.
آریو پرادیپتا جما، پژوهشگر هوش مصنوعی از دانشگاه ادینبرو و از پژوهشگران شرکت انتروپیک، می‌گوید: «آن چیزی که سیستم می‌گوید به آن فکر می‌کند، لزوما همان چیزی با چیزی که واقعا به آن فکر می‌کند یکسان نیست.»

آمار نگران‌کننده مدل R1 از شرکت دیپ‌سیک؛ اشباع داده‌ها یکی از دلایل خطا عنوان می‌شود

شرکت Vectara، به مدیریت عمر عوادالله (از مدیران سابق گوگل)، به طور مستقل میزان هذیان در مدل‌های مختلف را اندازه‌گیری می‌کند. این شرکت از سیستم‌ها می‌خواهد تا مقاله‌های خبری مشخصی را خلاصه کنند، کاری که صحت‌سنجی آن به نسبت آسان است.

در این تست، مدل‌های چت‌بات گاه اطلاعات جعلی تولید می‌کنند. تا پایان ۲۰۲۳، مدل‌های اوپن‌ای‌آی و گوگل نرخ هذیان را به ۱ یا ۲ درصد کاهش داده بودند. مدل‌های دیگر مانند انتروپیک حدود ۴ درصد خطا داشتند. اما مدل R1 از دیپ‌سیک نرخ هذیانی معادل ۱۴.۳ درصد داشته و o3 از اوپن‌ای‌آی نیز به ۶.۸ درصد رسیده است.

طبق گزارش نیویورک تایمز، یکی از دلایل عمده هذیان‌گویی را می‌توان اشباع داده‌های اینترنتی دانست. شرکت‌ها برای سال‌ها تلاش کردند با تغذیه داده‌های بیشتر، عملکرد مدل‌ها را بهبود دهند. اما اکنون تقریباً تمام متون انگلیسی موجود در اینترنت مصرف شده‌اند.

در نتیجه، تمرکز شرکت‌ها به سمت تکنیک یادگیری تقویتی (reinforcement learning)‌ رفته است. این روش در ریاضیات و برنامه‌نویسی عملکرد خوبی دارد ، اما در موضوعات عمومی‌تر مثل اطلاعات واقعی، ناکارآمدتر ظاهر شده است.
لورا پرز-بلتراچینی، پژوهشگر دانشگاه ادینبرو، می‌گوید: «وقتی سیستم روی یک وظیفه تمرکز می‌کند، ممکن است وظایف دیگر را فراموش کند.»

در حالی که شرکت‌هایی چون اوپن‌ای‌آی، گوگل و دیپ‌سیک به بهبود عملکرد مدل‌هایشان ادامه می‌دهند، کارشناسان هشدار می‌دهند که هیچگاه به طور کامل از شر هذیان‌گویی سیستم‌های هوش مصنوعی خلاص نمی‌شویم. در نتیجه این موضوع می‌تواند در کاربردهای حساس مانند پزشکی، حقوقی و تحلیل داده‌های تجاری عواقب جدی را به دنبال داشته باشد.

پراتیک ورما، مدیرعامل شرکت Okahu، که به کسب‌وکارها در مقابله با هذیان‌ها کمک می‌کند، می‌گوید: «اگر به درستی با این خطاها برخورد نشود، ارزش سیستم‌های هوش مصنوعی از بین می‌رود، [سیستم‌هایی] که اساسا برای خودکارسازی وظایف طراحی شده‌اند.»

 

https://pvst.ir/l20

0 نظر

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

*

برای بوکمارک این نوشته
Back To Top
جستجو