skip to Main Content
محتوای اختصاصی کاربران ویژهورود به سایت

فراموشی رمز عبور

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ عضو شوید

ثبت نام سایت

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ وارد شوید

فراموشی رمز عبور

وارد شوید یا عضو شوید

جشنواره نوروزی آنر

اوپن‌ای‌آی: راهکاری برای حذف کامل توهم از هوش مصنوعی وجود ندارد

۱۶ شهریور ۱۴۰۴

زمان مطالعه : ۷ دقیقه

شرکت اوپن‌ای‌آی در تازه‌ترین مقاله پژوهشی خود اعلام کرده است که پدیده «توهم» یا hallucination همچنان یکی از جدی‌ترین چالش‌ها در توسعه مدل‌های زبانی پیشرفته به شمار می‌رود و در حال حاضر راهکاری وجود ندارد که بتوان با استفاده از آن این مشکل را به طور کامل برطرف کرد. این اصطلاح به مواردی اشاره دارد که یک مدل هوش مصنوعی با اعتمادبه‌نفس بالا پاسخی ارائه می‌دهد که در واقع غلط یا نادرست است.

به گزارش پیوست، اوپن‌ای‌آی در یک پست وبلاگی که به توضیح یافته‌های پژوهشگران شرکت درمورد توهم هوش مصنوعی می‌پردازد، تصریح می‌کند که به صفر رساندن این پاسخ‌های اشتباه ممکن نیست و صرفا شرکت‌های هوش مصنوعی باید نحوه سنجش و امتیاز دهی مدل‌ها را به گونه‌ای تغییر دهند که پاداشی برای پاسخ «نمی‌دانم» یا خودداری از ارائه پاسخ در نظر گرفته شود و امتیاز منفی بیشتری برای توهم یا ارائه پاسخ غلط در قالبی باورپذیر در نظر گرفته شود.

با این حال به گفته پژوهشگران از آنجایی که در برخی موارد پاسخ درستی برای یک سوال وجود ندارد، نمی‌توان توهم را به صفر رساندن و بهترین رویکرد آن است که کاری کنیم مدل‌ها در چنین مواردی از تولید یک پاسخ باورپذیر خودداری کنند.

توهم چیست و چرا اهمیت دارد؟

توهم به تولید جملات یا پاسخ‌هایی گفته می‌شود که از نظر زبانی صحیح هستند و باورپذیر به نظر می‌رسند، اما از نظر محتوایی اشتباهند. حتی در ساده‌ترین پرسش‌ها نیز امکان توهم و ارائه اطلاعات نادرست در قالبی باورپذیر وجود دارد. به عنوان نمونه، زمانی که پژوهشگران از یکی از چت‌بات‌ها درباره عنوان رساله دکتری آدام تائومن کالای (یکی از نویسندگان مقاله) پرسیدند، سه پاسخ متفاوت اما همگی اشتباه دریافت کردند. حتی درباره تاریخ تولد او نیز مدل چندین تاریخ متفاوت ارائه داد که هیچ‌کدام درست نبود.

اهمیت این مسئله زمانی آشکار می‌شود که بدانیم کاربران اغلب پاسخ‌های هوش مصنوعی را معتبر تلقی می‌کنند. بنابراین، جمله غلطی که با اطمینان بالا مطرح می‌شود با اثرات منفی بر اعتماد عمومی و تصمیم‌گیری‌ها همراه می‌شود و در کاربردهایی که اهمیت حیاتی دارند اهمیت آنها دوچندان می‌شود.

چرا مدل‌ها دچار توهم می‌شوند؟

اوپن‌ای‌آی در مقاله خود استدلال می‌کند که ریشه اصلی توهم‌ها را باید در روش‌های آموزش و ارزیابی مدل‌ها جستجو کرد.

پست وبلاگی اوپن‌ای‌آی تصریح می‌کند که مدل‌های زبانی در مرحله نخست با پیش‌بینی «کلمه بعدی» آموزش می‌بینند. این آموزش صرفا شامل مشاهده میلیون‌ها نمونه از متن‌های درست و روان است، بدون هیچ برچسبی که نشان دهد کدام جمله درست یا غلط است. نتیجه آن است که مدل به‌طور طبیعی الگوهای زبانی را تقلید می‌کند اما قادر نیست مرز میان درست و غلط را دقیقا تشخیص دهد.

افزون بر این، بیشتر روش‌های ارزیابی فعلی تنها بر دقت مدل‌ها تمرکز دارند. به بیان دیگر، اگر مدل پاسخ درست بدهد، امتیاز می‌گیرد؛ اگر پاسخی ندهد، صفر می‌گیرد؛ و اگر پاسخ غلط بدهد نیز صرفا عمکلرد آن به عنوان «عدم موفقیت» ارزیابی می‌شود. این ساختار در عمل مدل‌ها را به حدس زدن تشویق می‌کند.

مقاله اوپن‌ای‌آی این موضوع را با آزمون‌های چندگزینه‌ای مقایسه می‌کند: دانش‌آموزی که جواب را نمی‌داند، اگر شانسی گزینه‌ای انتخاب کند، ممکن است درست پاسخ دهد و امتیاز بگیرد؛ در حالی که رها کردن سوال حتما نمره صفر دارد. بنابراین، سیستم فعلی مدل‌های زبانی ترجیح می‌دهند تا به جای عدم ارائه پاسخ، شانس خود را با ارائه یک پاسخ احتمالا غلط امتحان کنند.

در نتیجه و با این فرض، اگر مدل‌ها در موارد کمتری از ارائه پاسخ اجتناب کنند، احتمال خطای آنها افزایش می‌یابد. تایید این نگاه را می‌توان در یکی از نمونه‌هایی مشاهده کرد که اوپن‌ای‌آی در مقاله خود به عنوان مثال ارائه کرده است. اوپن‌ای‌آی در این مقاله مثالی از مقایسه عملکرد دو مدل در آزمون SimpleQA ارائه کرده است:

  • مدل gpt-5-thinking-mini:
    • نرخ خودداری از پاسخ: ۵۲ درصد
    • دقت: ۲۲ درصد
    • خطا: ۲۶ درصد
  • مدل قدیمی‌تر o4-mini:
    • نرخ خودداری از پاسخ: ۱ درصد
    • دقت: ۲۴ درصد
    • خطا: ۷۵ درصد

نتیجه روشن است: هرچند o4-mini کمی دقیق‌تر به نظر می‌رسد، اما نرخ خطا یا همان توهم در آن به مراتب بالاتر است. در مقابل، مدل جدیدتر با خودداری بیشتر در ارائه پاسخ به سوالات توانسته خطاهای جدی کمتری داشته باشد.

منشأ آماری توهم‌ها

اوپن‌ای‌آی توضیح می‌دهد که برخی اطلاعات ذاتا غیرقابل پیش‌بینی هستند. برای مثال، الگوریتم‌ها با دقت بالایی می‌توانند میلیون‌ها داده از عکس گربه و سگ را دسته‌بندی و تفکیک کنند. اما اگر از الگوریتم خواسته شود تاریخ تولد حیوانات را حدس بزند، همیشه با خطا مواجه می‌شویم، زیرا این داده‌ها تصادفی‌اند.

همین منطق بر مدل‌های زبانی نیز صدق می‌کند. قواعدی مانند املای کلمات یا بستن پرانتزها الگوهای مشخصی دارند، بنابراین مدل‌ها با افزایش داده به ندرت در آن‌ها خطا می‌کنند. اما حقایق پراکنده و کم‌تکرار (مانند تاریخ تولد یا جزئیات شخصی افراد) به دلیل نبود یک الگوی فراگیر و مشخص، قابل پیش‌بینی نیستند و منجر به توهم می‌شوند.

به باور اوپن‌ای‌آی، علت ادامه‌دار شدن توهم‌ها این است که فرایند ارزیابی مدل‌ها به آنها یاد می‌دهد تا حدس بزنند. اکثر جدول‌های امتیازدهی تنها بر اساس دقت مدل‌ها تنظیم می‌شوند. این موضوع باعث می‌شود مدل‌هایی که در مواقع تردید پاسخی نادرست اما قاطع می‌دهند، رتبه بالاتری کسب کنند نسبت به مدل‌هایی که صادقانه می‌گویند «نمی‌دانم.»

راه‌حل پیشنهادی: بازنگری در روش‌های ارزیابی

پیشنهاد اوپن‌ای‌آی برای کاهش مشکل توهم در مدل‌های زبانی این است که روش‌های امتیازدهی را به گونه‌ای تغییر دهیم که جریمه بیشتری برای توهم یا اطلاعات غلطی که با اطمینان ارائه می‌شوند در نظر گرفته شود و جریمه پاسخ «نمی‌دانم» کاهش یابد. علاوه بر این اوپن‌ای‌آی پیشنهاد می‌دهد تا یک امتیاز مثبت جزئی برای مدل‌هایی در نظر گرفته شود  که در شرایط نامطمئن، عدم قطعیت خود را اعلام می‌کنند.

این رویکرد مشابه برخی آزمون‌های استانداردی است که برای جلوگیری از حدس‌های بی‌هدف، نمره منفی در نظر می‌گیرند یا برای پاسخ‌های خالی امتیاز جزئی لحاظ می‌کنند.

چند باور اشتباه از نگاه پژوهشگران اوپن‌ای‌آی

در بخش نتیجه‌گیری مقاله، پژوهشگران اوپن‌ای‌آی به چند باور رایج اما اشتباه درباره توهم‌ها پاسخ داده‌اند که مهم‌ترین آن ناممکن بودن دقت ۱۰۰ درصدی است و طبق باور پژوهشگران تنها می‌توان میزان خطاها را کاهش داد و به صفر رساندن آنها ممکن نیست:

  • باور۱:‌ با رسیدن به دقت ۱۰۰ درصد، توهم‌ها حذف می‌شوند.
    واقعیت: رسیدن به دقت کامل ناممکن است، زیرا برخی سوال‌ها ذاتا پاسخی ندارند.
  • باور۲: توهم‌ها اجتناب‌ناپذیرند.
    واقعیت: مدل‌ها می‌توانند در صورت تردید از ارائه پاسخ خودداری کنند.
  • باور ۳: برای حذف توهم به مدل‌های بسیار بزرگ نیاز داریم.
    واقعیت: حتی مدل‌های کوچک هم می‌توانند با شناخت محدودیت‌های خود، صادقانه‌تر عمل کرده و در نتیجه توهم را کاهش دهند.
  • باور ۴: توهم‌ها نوعی خطای مرموز در هوش مصنوعی است.
    واقعیت:‌ توهم‌ها نتیجه سازوکارهای آماری و الگوهای آموزش هستند، نه یک خطای ناشناخته.
  • باور ۵: تنها راه سنجش توهم‌ها ساخت آزمون‌های اختصاصی است.
    واقعیت: آزمون‌های اختصاصی وجود دارند، اما تا زمانی که نظام اصلی امتیازدهی اصلاح نشود، تغییری پایدار رخ نخواهد داد.

اوپن‌ای‌آی در این مقاله تاکید می‌کند که جدیدترین مدل‌هایش از جمله GPT-5 توانسته‌اند نرخ توهم را به شکل قابل توجهی کاهش دهند و تیم‌های تحقیقاتی این شرکت همچنان در حال کار برای کاهش بیشتر خطاهایی است که در قالب واقعیت و با اطمینان بالا به کاربر ارائه می‌شوند.

با این حال، کلید اصلی این مسئله نه صرفا توسعه مدل‌های بزرگ‌تر، بلکه بازنگری در روش‌های ارزیابی و ایجاد مشوق‌های درستی است که «صداقت» بیشتر و ارائه پاسخ «نمی‌دانم» را در شرایط تردید تشویق کنند.

به گفته این شرکت، تنها با چنین اصلاحاتی می‌توان انتظار داشت که مدل‌های آینده نه‌تنها قدرتمندتر و دقیق‌تر، بلکه قابل‌اعتمادتر نیز باشند.

به طور کلی گزارش اوپن‌ای‌آی نشان می‌دهد که برای کاهش توهم و پیشرفت مدل‌های هوش مصنوعی، افزایش قدرت محاسباتی یا داده کافی نیست؛ بلکه از نگاه پژوهشگران باید شیوه‌های سنجش و تشویق را اصلاح کرد.

 

https://pvst.ir/m8x

0 نظر

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

*

برای بوکمارک این نوشته
Back To Top
جستجو