امارات آموزش هوش مصنوعی را به برنامه درسی مدارس اضافه میکند
امارات متحده عربی در راستای تمرکز هرچه بیشتری بر فناوریهای نوین، از سال تحصیلی ۲۰۲۶-۲۰۲۵،…
۱۵ اردیبهشت ۱۴۰۴
۱۵ اردیبهشت ۱۴۰۴
زمان مطالعه : ۶ دقیقه
در حالی که شرکتهای فناوری و کاربران سراسر جهان به طور فزایندهای از چتباتها و ابزارهای هوش مصنوعی برای انجام وظایف مختلف استفاده میکنند، گزارشی جدید نشان میدهد که نسل جدید مدلهای هوش مصنوعی نهتنها دقیقتر نشدهاند، بلکه در مواردی خطاهای بیشتری دارند. این پدیده که به توهم یا هذیانگویی (hallucination) معروف است، به عنوان یکی از بزرگترین چالشهای حال حاضر هوش مصنوعی شناخته میشود.
به گزارش پیوست، نیویورک تایمز طی گزارشی با اشاره به نمونهای عملی از تاثیرگذاری جدی این پدیده بر کاربران و حتی شرکتهایی اشاره میکند که از هوش مصنوعی برای خودکارسازی وظایف خود کمک میگیرند به افزایش میزان هذیانگویی در مدلهای جدید و تبعات احتمالی آن پرداخته است. طبق این گزارش با وجود پیشرفت ابزارهای هوش مصنوعی مولد و توسعه روز افزون این فناوری، مشکل هذیانگویی نه تنها برطرف نشده است، بلکه شاهد تشدید این مساله به ویژه در میان مدلهای استدلالگر هستیم.
ماجرای اخیر شرکت Cursor، یکی از ابزارهای نوظهور در حوزه برنامهنویسی، نمونهای نگرانکننده از تبعات این پدیده است. ماه گذشته، یک ربات پشتیبانی این شرکت به اشتباه به مشتریان اعلام کرد که دیگر مجاز به استفاده از Cursor در بیش از یک دستگاه نیستند. این اطلاعیه کذب باعث نارضایتی کاربران شد و حتی برخی اشتراک خود را لغو کردند. انتقاد کاربران در شبکههای اجتماعی و اینترنت باعث پیگری و ریشهیابی این مشکل به مساله هذیانگویی شد.
پس از بررسیها مشخص شد این اطلاعیه وجود خارجی نداشته و صرفا نتیجه اشتباه یک ربات پشتیبانی است. مدیرعامل Cursor، مایکل ترول، در واکنش به این حادثه نوشت: «ما چنین سیاستی نداریم. البته که شما میتوانید از Cursor در چند دستگاه استفاده کنید… متاسفانه این یک پاسخ نادرست مربوط به ربات پشتیبانی مبتنی بر هوش مصنوعی است.»
با گذشت بیش از دو سال از ظهور ChatGPT، شرکتهایی مانند اوپنایآی، گوگل و استارتاپ چینی دیپسیک، مدلهایی موسوم به سیستمهای استدلالگر را در اختیار کاربران قرار دادهاند که از نظر مهارتهای ریاضی رشد چشمگیری دارند، اما در دقت و حقیقتگویی نسبت به نسخههای پیشین دچار افت شدهاند.
به عنوان مثال، اوپنایآی اعلام کرده است که مدل جدید این شرکت به نام o3 در آزمون PersonQA، در ۳۳ درصد موارد اطلاعات نادرست تولید کرده و به اصطلاح دچار توهم شده است. این نرخ بیش از دو برابر نرخ خطای مدل قبلی یا o1 است. مدل کوچکتر ولی جدیدتر این شرکت به نام o4-mini نیز حتی عملکرد بدتری داشته و در ۴۸ درصد موارد دچار هذیان شده است.
در آزمون دیگری به نام SimpleQA که پرسشهای عمومیتری را مطرح میکند، نرخ هذیان o3 به ۵۱ درصد و o4-mini به ۷۹ درصد رسیده است؛ در حالی که مدل o1 فقط در ۴۴ درصد مواقع اشتباه میکرد.
کارشناسان هنوز به طور کامل نمیدانند که چرا مدلهای جدید هوش مصنوعی با وجود پیچیدگی بیشتر، دقت کمتری دارند. گبی رایلا، سخنگوی اوپنایآی، در این رابطه میگوید: «اینطور نیست که هذیانگوییها ذاتا در مدلهای استدلالگر بیشتر باشند، اما با این حال ما همواره برای کاهش نرخ بالای هذیانگویی که در o3 و o4-mini مشاهده کردیم، تلاش میکنیم.»
او افزود: «ما به تحقیقات در رابطه با هذیانگویی در تمامی مدلها ادامه میدهیم تا دقت و اعتبار را افزایش دهیم.»
حنانه حاجیشیرزی، استاد دانشگاه واشنگتن و پژوهشگر موسسه Allen، از جمله محققانی است که برای ریشهیابی هذیانگویی مدلها تلاش میکند. تیم او ابزاری طراحی کرده که رفتار مدلها را به دادههای آموزشیشان پیوند میزند. با این حال به گفته او گستردگی بالای دادهها باعث شده تا هنوز درک دقیقی از سازوکار این مدلها امکانپذیری نباشد: «ما هنوز نمیدانیم این مدلها دقیقا چطور کار میکنند.»
یکی از دلایل احتمالی افزایش خطاها در مدلهای جدید، فرآیند استدلال چندمرحلهای است. مدلهای استدلالگر به گونهای طراحی شدهاند که پیش از ارائه پاسخ، چند مرحله موسوم به تفکر را که پرسش و پاسخی در داخل خود مدل است، پشت سر بگذارند. چنین فرایندی ریسک خطا در هر مرحله را افزایش میدهد و از آنجایی که در واقع چندین پرسش و پاسخ معمولی در پشت صحنه انجام میگیرند، خطاها روی هم انباشت میشوند.
بهعلاوه، بسیاری از مدلهای استدلالگر مراحل تفکر خود را به کاربر نمایش نمیدهند. همچنین پژوهشها نشان دادهاند که بسیاری از این مراحل در عمل ارتباطی با پاسخ نهایی ندارند و حتی مراحل تفکری که در برخی مدلها به نمایش گذاشته میشود نیز ممکن است ارتباطی با تفکر واقعی نداشته باشد.
آریو پرادیپتا جما، پژوهشگر هوش مصنوعی از دانشگاه ادینبرو و از پژوهشگران شرکت انتروپیک، میگوید: «آن چیزی که سیستم میگوید به آن فکر میکند، لزوما همان چیزی با چیزی که واقعا به آن فکر میکند یکسان نیست.»
شرکت Vectara، به مدیریت عمر عوادالله (از مدیران سابق گوگل)، به طور مستقل میزان هذیان در مدلهای مختلف را اندازهگیری میکند. این شرکت از سیستمها میخواهد تا مقالههای خبری مشخصی را خلاصه کنند، کاری که صحتسنجی آن به نسبت آسان است.
در این تست، مدلهای چتبات گاه اطلاعات جعلی تولید میکنند. تا پایان ۲۰۲۳، مدلهای اوپنایآی و گوگل نرخ هذیان را به ۱ یا ۲ درصد کاهش داده بودند. مدلهای دیگر مانند انتروپیک حدود ۴ درصد خطا داشتند. اما مدل R1 از دیپسیک نرخ هذیانی معادل ۱۴.۳ درصد داشته و o3 از اوپنایآی نیز به ۶.۸ درصد رسیده است.
طبق گزارش نیویورک تایمز، یکی از دلایل عمده هذیانگویی را میتوان اشباع دادههای اینترنتی دانست. شرکتها برای سالها تلاش کردند با تغذیه دادههای بیشتر، عملکرد مدلها را بهبود دهند. اما اکنون تقریباً تمام متون انگلیسی موجود در اینترنت مصرف شدهاند.
در نتیجه، تمرکز شرکتها به سمت تکنیک یادگیری تقویتی (reinforcement learning) رفته است. این روش در ریاضیات و برنامهنویسی عملکرد خوبی دارد ، اما در موضوعات عمومیتر مثل اطلاعات واقعی، ناکارآمدتر ظاهر شده است.
لورا پرز-بلتراچینی، پژوهشگر دانشگاه ادینبرو، میگوید: «وقتی سیستم روی یک وظیفه تمرکز میکند، ممکن است وظایف دیگر را فراموش کند.»
در حالی که شرکتهایی چون اوپنایآی، گوگل و دیپسیک به بهبود عملکرد مدلهایشان ادامه میدهند، کارشناسان هشدار میدهند که هیچگاه به طور کامل از شر هذیانگویی سیستمهای هوش مصنوعی خلاص نمیشویم. در نتیجه این موضوع میتواند در کاربردهای حساس مانند پزشکی، حقوقی و تحلیل دادههای تجاری عواقب جدی را به دنبال داشته باشد.
پراتیک ورما، مدیرعامل شرکت Okahu، که به کسبوکارها در مقابله با هذیانها کمک میکند، میگوید: «اگر به درستی با این خطاها برخورد نشود، ارزش سیستمهای هوش مصنوعی از بین میرود، [سیستمهایی] که اساسا برای خودکارسازی وظایف طراحی شدهاند.»