امارات در اقدامی بیسابقه از هوش مصنوعی برای نگارش و اصلاح قوانین استفاده میکند
امارات متحده عربی که میلیاردها دلار برای توسعه فناوری هوش مصنوعی و توانسته است به…
۱ اردیبهشت ۱۴۰۴
۳۰ فروردین ۱۴۰۴
زمان مطالعه : ۴ دقیقه
مدلهای جدید هوش مصنوعی شرکت اوپنایآی (o3 وo4-mini) اگرچه در بسیاری از زمینهها از جمله کدنویسی و ریاضیات عملکردی بهتری نسبت به نسخههای پیشین دارند، اما طبق بررسیهای داخلی شرکت به یکی از مهمترین چالشهای این فناوری، پدیده «هذیانگویی» یا «توهم» بیشتر از نسخههای پیشین خود مبتلا میشوند.
به گزارش پیوست به نقل از تککرانچ، هذیانگویی در مدلهای زبانی بزرگ، یکی از مشلکات بنیادینی است که تاکنون هیچ راهکار قطعی برای حل آن ارائه نشده است. به طور معمول انتظار میرود که هر نسل از فناوریهای هوش مصنوعی نسبت به مدلهای پیشین در مبارزه با این مشکل عملکرد بهتری داشته باشند و کمتر دچار آن شوند اما بررسیهای داخلی اوپنایآی نشان میدهد که چنین رویهای بر مدلهای o3 و o4-mini صدق نمیکند.
طبق گزارش فنی منتشرشده توسط این شرکت، این دو مدل، که جزو سری «مدلهای استدلالگر» اوپنایآی محسوب میشوند، حتی بیشتر از مدلهای قدیمی و غیر استدلالگر، از جمله GPT-4o، دچار توهم یا هذیانگویی میشوند.
براساس این گزارش، مدل o3 در آزمون PersonQA، که دقت مدلها را در پاسخگویی به سوالات مربوط به افراد میسنجد در ۳۳ درصد از پاسخها دچار هذیانگویی شده است. این در حالی است که نرخ هذیانگویی برای مدلهای قدیمیتری مانند o1 و o3-mini به ترتیب ۱۶ و ۱۴.۸ درصد گزارش شده است. عملکرد o4-mini حتی ضعیفتر از نسخه o3 است و نرخ خطا را تا ۴۸ درصد افزایش میدهد.
نکته نگرانکنندهتر اینجاست که حتی اوپنایآی نیز هنوز نمیداند دلیل این اتفاق چیست. این شرکت در گزارش فنی خود، اعلام کرده است که باید بررسیها و تحقیقات بیشتری انجام شود تا متوجه شویم که چرا با افزایش مقیاس مدلهای استدلالگر، نرخ هذیانگویی آنها نیز افزایش مییابد.
در بخشی از این گزارش آمده است که مدلهای جدید به دلیل تولید ادعاهای بیشتر، هم ادعاهای درست بیشتری ارائه میدهند و هم به همان نسبت دچار ادعاهای نادرست بیشتری میشوند.
موسسه Transluce، مرکز مستقلی که به پژوهش در زمینه هوش مصنوعی مشغول است، نیز طی آزمایشهای خود مواردی از هذیانگویی مدل o3 را به ثبت رسانده است. در یک نمونه خاص، مدل o3 مدعی شد که کدی را بر روی یک مکبوک پرو ۲۰۲۱ در خارج از محیط ChatGPT اجرا کرده و سپس نتایج آن را در پاسخ خود وارد کرده است، در حالی که این مدل اساسا توانایی انجام چنین کاری را ندارد. نیل چودهری، یکی از پژوهشگران این موسسه و کارمند پیشین اوپنایآی، میگوید ممکن است که نوع خاص یادگیری تقویتی که برای این مدلها به کار رفته است دلیل تشدید یک سری از مشکلات باشد. این مساله در مدلهای سنتیتر توسط فرآیندهای پسآموزش تا حدی مهار شده است.
سارا شوئتمان، همبنیانگذار Transluce، نیز هشدار داده است که نرخ بالای هذیانگویی مدل o3 میتواند باعث کاهش کاربردهای این مدل در موارد واقعی شود و کمتر بتوان به آن برای موضوعات حساس اتکا کرد.
از سوی دیگر، کیان کتانفروشان، استاد دانشگاه استنفورد و مدیرعامل شرکت Workera که در حوزه ارتقای مهارتها فعالیت دارد، با وجود تایید تواناییهای برتر مدل o3 در کارهای کدنویسی، به مشکلی مشابه اشاره میکند و میگوید مدل o3 گاهی لینکهایی تولید میکند که در واقع وجود خارجی ندارند و کار نمیکنند.
اگرچه برخی پژوهشگران معتقدند که هذیانگویی گاهی میتواند به خلاقیت مدلها کمک کند، اما در حوزههایی مانند حقوق که دقت و صحت اطلاعات اهمیت بالایی دارد، این پدیده بسیار زیانبار است. بهعنوان مثال، هیچ دفتر حقوقی مایل نیست مدلی را بهکار گیرد که احتمال درج اطلاعات نادرست در قراردادهای مشتریان را افزایش دهد.
یکی از راهکارهای پیشنهادی برای کاهش نرخ هذیانگویی، افزودن قابلیت جستجوی اینترنتی به مدلها است. طبق گزارش اوپنایآی، مدل GPT-4o که به جستجوی وب دسترسی دارد، در آزمون SimpleQA به دقت ۹۰ درصد دست یافته است. این قابلیت میتواند به ویژه در مواردی که کاربران مشکلی با ارسال درخواستهای خود به موتور جستجوی شخص ثالث ندارند، سودمند باشد و به کاهش هذیانگویی در مدلهای استدلالگرکمک کند.
با توجه به اینکه صنعت هوش مصنوعی در سال گذشته تمرکز خود را بر مدلهای استدلالگر معطوف کرده است و این مدلها بدون نیاز به داده و توان پردازشی عظیم، عملکرد بهتری را در برخی موارد به ثبت میرسانند، افزایش نرخ هذیانگویی در این دسته از مدلها میتواند چالشی جدی برای آینده این مسیر محسوب شود.
نیکو فلیکس، سخنگوی اوپنایآی، در گفتوگویی با تککرانچ گفت: «رفع پدیده هذیانگوییها در تمام مدلهای ما، یکی از حوزههای اصلی تحقیقات محسوب میشود و ما همواره در تلاشیم تا دقت و قابلیت اطمینان مدلهایمان را بهبود بخشیم.