فناوری

مهدی جعفری مترجم

پیوست » فناوری » هوش مصنوعی » مدل‌های جدید اوپن‌ای‌آی بیشتر از نمونه‌های قبلی هذیان‌گویی می‌کنند

مدل‌های جدید اوپن‌ای‌آی بیشتر از نمونه‌های قبلی هذیان‌گویی می‌کنند

مهدی جعفری مترجم

۳۰ فروردین ۱۴۰۴

زمان مطالعه : ۴ دقیقه

مدل‌های جدید هوش مصنوعی شرکت اوپن‌ای‌آی (o3 وo4-mini) اگرچه در بسیاری از زمینه‌ها از جمله کدنویسی و ریاضیات عملکردی بهتری نسبت به نسخه‌های پیشین دارند، اما طبق بررسی‌های داخلی شرکت به یکی از مهمترین چالش‌های این فناوری، پدیده «هذیان‌گویی» یا «توهم» بیشتر از نسخه‌های پیشین خود مبتلا می‌شوند.

به گزارش پیوست به نقل از تک‌کرانچ، هذیان‌گویی در مدل‌های زبانی بزرگ، یکی از مشلکات بنیادینی است که تاکنون هیچ راهکار قطعی برای حل آن ارائه نشده است. به طور معمول انتظار می‌رود که هر نسل از فناوری‌های هوش مصنوعی نسبت به مدل‌های پیشین در مبارزه با این مشکل عملکرد بهتری داشته باشند و کمتر دچار آن شوند اما بررسی‌های داخلی اوپن‌ای‌آی نشان می‌دهد که چنین رویه‌ای بر مدل‌های o3 و o4-mini صدق نمی‌کند.

طبق گزارش فنی منتشرشده توسط این شرکت، این دو مدل، که جزو سری «مدل‌های استدلال‌گر» اوپن‌ای‌آی محسوب می‌شوند، حتی بیشتر از مدل‌های قدیمی و غیر استدلال‌گر، از جمله GPT-4o، دچار توهم یا هذیان‌گویی می‌شوند.

براساس این گزارش، مدل o3 در آزمون PersonQA، که دقت مدل‌ها را در پاسخ‌گویی به سوالات مربوط به افراد می‌سنجد در ۳۳ درصد از پاسخ‌ها دچار هذیان‌گویی شده است. این در حالی است که نرخ هذیان‌گویی برای مدل‌های قدیمی‌تری مانند o1 و o3-mini به ترتیب ۱۶ و ۱۴.۸ درصد گزارش شده است. عملکرد o4-mini حتی ضعیف‌تر از نسخه o3 است و نرخ خطا را تا ۴۸ درصد افزایش می‌دهد.

نکته نگران‌کننده‌تر اینجاست که حتی اوپن‌ای‌آی نیز هنوز نمی‌داند دلیل این اتفاق چیست. این شرکت در گزارش فنی خود، اعلام کرده است که باید بررسی‌ها و تحقیقات بیشتری انجام شود تا متوجه شویم که چرا با افزایش مقیاس مدل‌های استدلال‌گر، نرخ هذیان‌گویی آنها نیز افزایش می‌یابد.

در بخشی از این گزارش آمده است که مدل‌های جدید به دلیل تولید ادعاهای بیشتر، هم ادعاهای درست بیشتری ارائه می‌دهند و هم به همان نسبت دچار ادعاهای نادرست بیشتری می‌شوند.

موسسه Transluce، مرکز مستقلی که به پژوهش در زمینه هوش مصنوعی مشغول است، نیز طی آزمایش‌های خود مواردی از هذیان‌گویی مدل o3 را به ثبت رسانده است. در یک نمونه خاص، مدل o3 مدعی شد که کدی را بر روی یک مک‌بوک پرو ۲۰۲۱ در خارج از محیط ChatGPT اجرا کرده و سپس نتایج آن را در پاسخ خود وارد کرده است، در حالی که این مدل اساسا توانایی انجام چنین کاری را ندارد. نیل چودهری، یکی از پژوهشگران این موسسه و کارمند پیشین اوپن‌ای‌آی، می‌گوید ممکن است که نوع خاص یادگیری تقویتی که برای این مدل‌ها به کار رفته است دلیل تشدید یک سری از مشکلات باشد. این مساله در مدل‌های سنتی‌تر توسط فرآیندهای پس‌آموزش تا حدی مهار شده است.

سارا شوئتمان، هم‌بنیان‌گذار Transluce، نیز هشدار داده است که نرخ بالای هذیان‌گویی مدل o3 می‌تواند باعث کاهش کاربرد‌های این مدل در موارد واقعی شود و کمتر بتوان به آن برای موضوعات حساس اتکا کرد.

از سوی دیگر، کیان کتان‌فروشان، استاد دانشگاه استنفورد و مدیرعامل شرکت Workera که در حوزه ارتقای مهارت‌ها فعالیت دارد، با وجود تایید توانایی‌های برتر مدل o3 در کارهای کدنویسی، به مشکلی مشابه اشاره می‌کند و می‌گوید مدل o3 گاهی لینک‌هایی تولید می‌کند که در واقع وجود خارجی ندارند و کار نمی‌کنند.

اگرچه برخی پژوهشگران معتقدند که هذیان‌گویی گاهی می‌تواند به خلاقیت مدل‌ها کمک کند، اما در حوزه‌هایی مانند حقوق که دقت و صحت اطلاعات اهمیت بالایی دارد، این پدیده بسیار زیان‌بار است. به‌عنوان مثال، هیچ دفتر حقوقی‌ مایل نیست مدلی را به‌کار گیرد که احتمال درج اطلاعات نادرست در قراردادهای مشتریان را افزایش دهد.

یکی از راهکارهای پیشنهادی برای کاهش نرخ هذیان‌گویی، افزودن قابلیت جستجوی اینترنتی به مدل‌ها است. طبق گزارش اوپن‌ای‌آی، مدل GPT-4o که به جستجوی وب دسترسی دارد، در آزمون SimpleQA به دقت ۹۰ درصد دست یافته است. این قابلیت می‌تواند به ویژه در مواردی که کاربران مشکلی با ارسال درخواست‌های خود به موتور جستجوی شخص ثالث ندارند، سودمند باشد و به کاهش هذیان‌گویی در مدل‌های استدلال‌گرکمک کند.

با توجه به اینکه صنعت هوش مصنوعی در سال گذشته تمرکز خود را بر مدل‌های استدلال‌گر معطوف کرده است و این مدل‌ها بدون نیاز به داده و توان پردازشی عظیم، عملکرد بهتری را در برخی موارد به ثبت می‌رسانند، افزایش نرخ هذیان‌گویی در این دسته از مدل‌ها می‌تواند چالشی جدی برای آینده این مسیر محسوب شود.

نیکو فلیکس، سخنگوی اوپن‌ای‌آی، در گفت‌وگویی با تک‌کرانچ گفت: «رفع پدیده هذیان‌گویی‌ها در تمام مدل‌های ما، یکی از حوزه‌های اصلی تحقیقات محسوب می‌شود و ما همواره در تلاشیم تا دقت و قابلیت اطمینان مدل‌هایمان را بهبود بخشیم.

این مطالب را هم بخوانید: