مهدی جعفری مترجم

پیوست » فناوری » هوش مصنوعی » تفاوت فاحش میان ارزیابی‌های مستقل مدل o3 و بررسی‌های اوپن‌ای‌آی

تفاوت فاحش میان ارزیابی‌های مستقل مدل o3 و بررسی‌های اوپن‌ای‌آی

مهدی جعفری مترجم

۱ اردیبهشت ۱۴۰۴

زمان مطالعه : ۴ دقیقه

مدل هوش مصنوعی جدید شرکت اوپن‌ای‌آی با نام «o3» که به تازگی از سوی این شرکت معرفی شده است، از لحاظ عملکردی در ارزیابی‌های مستقل اختلاف فاحشی با بررسی‌های داخلی شرکت دارد. این شرکت در زمان معرفی مدل در ماه دسامبر مدعی شده بود که این مدل توانسته بیش از یک‌چهارم از مسائل مجموعه FrontierMath را که یک مجموعه از مسائل دشوار ریاضی برای ارزیابی توان استدلالی مدل‌ها است، را حل کند. با این حال بررسی‌های مستقل رقم‌های‌متفاوتی را گزارش کرده‌‌اند.

به گزارش پیوست به نقل از تک‌کرانچ، رقم ادعایی اوپن‌ای‌آی به‌طور چشمگیری از نزدیک‌ترین رقیب خود که تنها حدود ۲ درصد از مسائل را پاسخ داده بود، نیز جلوتر بود. مارک چن، مدیر ارشد تحقیقات اوپن‌ای‌آی، در جریان یک پخش زنده اعلام کرد: «در حال حاضر، تمامی مدل‌های موجود کمتر از ۲ را حل می‌کنند. ما در ارزیابی‌های داخلی و در حالت استفاده از توان پردازشی شدید، به عملکردی بیش از ۲۵٪ با مدل o3 رسیده‌ایم.»

اما به‌نظر می‌رسد این عملکرد خیره‌کننده، به نسخه‌ای از مدل مربوط می‌شود که در شرایطی با توان پردازشی بالا مورد آزمایش قرار گرفته و نه به نسخه‌ای که اخیرا برای عموم منتشر شده است. مؤسسه تحقیقاتی Epoch AI که مسئول توسعه مجموعه FrontierMath است، نتایج آزمون‌های مستقل خود از مدل o3 را منتشر کرده و می‌گوید این مدل تنها حدود ۱۰ از مسائل را حل کرده است.

با این که این رقم نیز بسیار بهتر از رقبا محسوب می‌وشد، اما تفاوت فاحشی میان آن با ادعای اولیه اوپن‌ای‌آی وجود دارد. این اختلاف به این معنا نیست که اوپن‌ای‌آی دروغ گفته است، چراکه در نتایج منتشرشده دسامبر، عدد پایین‌تری نیز ارائه شده بود و با یافته‌های Epoch همخوانی داشت اما این شرکت در ادعای خود مربوط به پیشتازی مدل o3 از رقبا، نسخه متفاوتی را با توان بالاتر به کار گرفته بود.

شرکت Epoch همچنین یادآور شده که ممکن است نحوه ارزیابی آن‌ها با روش اوپن‌ای‌آی متفاوت بوده یا از نسخه متفاوتی از FrontierMath استفاده کرده باشند. به گفته آن‌ها، تفاوت در زیرمجموعه‌ای از مسائل (۱۸۰ مسئله در نسخه نوامبر ۲۰۲۴ در برابر ۲۹۰ مسئله در نسخه فوریه ۲۰۲۵) یا استفاده اوپن‌ای‌آی از یک «اسکَفل داخلی قوی‌تر» را می‌توان دلیل این اختلاف دانست.

با این حال به نظر تفاوت در نسخه‌های مورد آزمایش است. بنیاد ARC Prize که نسخه‌ای از مدل o3 را پیش از انتشار رسمی آزمایش کرده بود نیز طی پستی در شبکه اجتماعی ایکس تایید کرد که مدل عمومی o3 با نسخه‌ای که آن‌ها تست کرده‌اند متفاوت است و برای کاربردهای گفتگویی و محصولی تنظیم شده است.

به گفته آن‌ها، تمام نسخه‌های محاسباتی منتشرشده از o3 نسبت به نسخه آزمایشی‌ که آنها پیشتر مورد بررسی قرار دادند، کوچکتر و سبک‌تر هستند؛ و به‌طور طبیعی، مدل‌های بزرگ‌تر عملکرد بهتری در بنچمارک‌ها دارند.

وندا ژو، از اعضای تیم فنی اوپن‌ای‌آی، در جریان پخش زنده اخیر تاکید کرد که نسخه‌ی فعلی مدل o3 که در حال استفاده عمومی است، به‌منظور بهینه‌سازی برای کاربردهای دنیای واقعی و سرعت بیشتر نسبت به نسخه‌ی آزمایشی طراحی شده و این مساله می‌تواند باعث «تفاوت‌هایی» در نتایج شود.

او افزود: «ما تغییراتی اعمال کرده‌ایم تا مدل را مقرون‌به‌صرفه‌تر و کاربردی‌تر کنیم. همچنان باور داریم که این مدل بسیار بهتر است… انتظار برای دریافت پاسخ، یک مساله مهم است و ما آن را کاهش داده‌ایم.»

با وجود اختلاف عملکرد میان نسخه‌ی نمایشی و نسخه‌ی عمومی، مساله‌ اصلی شاید چندان مهم نباشد، چراکه مدل‌های دیگر اوپن‌ای‌آی مانند o3-mini-high و o4-mini توانسته‌اند عملکرد بهتری نسبت به o3 را در مجموعه FrontierMath به ثبت برسانند. افزون بر این، قرار است به‌زودی نسخه قدرتمندتری از این مدل با نام o3-pro عرضه شود.

با این حال، این اتفاق بار دیگر یادآور این واقعیت است که نباید سنجه‌های هوش مصنوعی را در حالت اولیه و صرفا براساس گفته‌ی شرکت‌ها پذیرفت، به‌خصوص زمانی که منبع آن‌ها شرکت فروشنده آن خدمت باشد.

چنین جنجال‌هایی پیرامون سنجه‌ها در صنعت هوش مصنوعی به یک روال عادی تبدیل شده‌اند، چراکه شرکت‌ها در رقابت برای جلب توجه رسانه‌ها و مخاطبان، گاهی اطلاعات تبلیغاتی یا ناقص منتشر می‌کنند.

حتی موسسه Epoch نیز به تازگی هدف نقد جدی فعالان هوش مصنوعی قرار گرفت، چراکه حمایت مالی اوپن‌ای‌آی از آن تا پس از اعلام مدل o3 علنی نشده بود. بسیاری از دانشگاهیانی که در توسعه FrontierMath مشارکت داشتند، از ارتباط این موسسه با اوپن‌ای‌آی تا لحظه‌ اطلاع‌رسانی عمومی بی‌خبر بودند.

به تازگی نیز شرکت xAI ایلان ماسک به انتشار نمودارهای گمراه‌کننده برای مدل Grok 3 متهم شده و شرکت متا نیز اذعان کرده که نتایج بنچمارک‌های منتشرشده‌اش مربوط به نسخه‌ای از مدل بوده که با نسخه‌ی منتشرشده برای توسعه‌دهندگان تفاوت دارد.

این مطالب را هم بخوانید: