امارات در اقدامی بیسابقه از هوش مصنوعی برای نگارش و اصلاح قوانین استفاده میکند
امارات متحده عربی که میلیاردها دلار برای توسعه فناوری هوش مصنوعی و توانسته است به…
۱ اردیبهشت ۱۴۰۴
۱ اردیبهشت ۱۴۰۴
زمان مطالعه : ۴ دقیقه
مدل هوش مصنوعی جدید شرکت اوپنایآی با نام «o3» که به تازگی از سوی این شرکت معرفی شده است، از لحاظ عملکردی در ارزیابیهای مستقل اختلاف فاحشی با بررسیهای داخلی شرکت دارد. این شرکت در زمان معرفی مدل در ماه دسامبر مدعی شده بود که این مدل توانسته بیش از یکچهارم از مسائل مجموعه FrontierMath را که یک مجموعه از مسائل دشوار ریاضی برای ارزیابی توان استدلالی مدلها است، را حل کند. با این حال بررسیهای مستقل رقمهایمتفاوتی را گزارش کردهاند.
به گزارش پیوست به نقل از تککرانچ، رقم ادعایی اوپنایآی بهطور چشمگیری از نزدیکترین رقیب خود که تنها حدود ۲ درصد از مسائل را پاسخ داده بود، نیز جلوتر بود. مارک چن، مدیر ارشد تحقیقات اوپنایآی، در جریان یک پخش زنده اعلام کرد: «در حال حاضر، تمامی مدلهای موجود کمتر از ۲ را حل میکنند. ما در ارزیابیهای داخلی و در حالت استفاده از توان پردازشی شدید، به عملکردی بیش از ۲۵٪ با مدل o3 رسیدهایم.»
اما بهنظر میرسد این عملکرد خیرهکننده، به نسخهای از مدل مربوط میشود که در شرایطی با توان پردازشی بالا مورد آزمایش قرار گرفته و نه به نسخهای که اخیرا برای عموم منتشر شده است. مؤسسه تحقیقاتی Epoch AI که مسئول توسعه مجموعه FrontierMath است، نتایج آزمونهای مستقل خود از مدل o3 را منتشر کرده و میگوید این مدل تنها حدود ۱۰ از مسائل را حل کرده است.
با این که این رقم نیز بسیار بهتر از رقبا محسوب میوشد، اما تفاوت فاحشی میان آن با ادعای اولیه اوپنایآی وجود دارد. این اختلاف به این معنا نیست که اوپنایآی دروغ گفته است، چراکه در نتایج منتشرشده دسامبر، عدد پایینتری نیز ارائه شده بود و با یافتههای Epoch همخوانی داشت اما این شرکت در ادعای خود مربوط به پیشتازی مدل o3 از رقبا، نسخه متفاوتی را با توان بالاتر به کار گرفته بود.
شرکت Epoch همچنین یادآور شده که ممکن است نحوه ارزیابی آنها با روش اوپنایآی متفاوت بوده یا از نسخه متفاوتی از FrontierMath استفاده کرده باشند. به گفته آنها، تفاوت در زیرمجموعهای از مسائل (۱۸۰ مسئله در نسخه نوامبر ۲۰۲۴ در برابر ۲۹۰ مسئله در نسخه فوریه ۲۰۲۵) یا استفاده اوپنایآی از یک «اسکَفل داخلی قویتر» را میتوان دلیل این اختلاف دانست.
با این حال به نظر تفاوت در نسخههای مورد آزمایش است. بنیاد ARC Prize که نسخهای از مدل o3 را پیش از انتشار رسمی آزمایش کرده بود نیز طی پستی در شبکه اجتماعی ایکس تایید کرد که مدل عمومی o3 با نسخهای که آنها تست کردهاند متفاوت است و برای کاربردهای گفتگویی و محصولی تنظیم شده است.
به گفته آنها، تمام نسخههای محاسباتی منتشرشده از o3 نسبت به نسخه آزمایشی که آنها پیشتر مورد بررسی قرار دادند، کوچکتر و سبکتر هستند؛ و بهطور طبیعی، مدلهای بزرگتر عملکرد بهتری در بنچمارکها دارند.
وندا ژو، از اعضای تیم فنی اوپنایآی، در جریان پخش زنده اخیر تاکید کرد که نسخهی فعلی مدل o3 که در حال استفاده عمومی است، بهمنظور بهینهسازی برای کاربردهای دنیای واقعی و سرعت بیشتر نسبت به نسخهی آزمایشی طراحی شده و این مساله میتواند باعث «تفاوتهایی» در نتایج شود.
او افزود: «ما تغییراتی اعمال کردهایم تا مدل را مقرونبهصرفهتر و کاربردیتر کنیم. همچنان باور داریم که این مدل بسیار بهتر است… انتظار برای دریافت پاسخ، یک مساله مهم است و ما آن را کاهش دادهایم.»
با وجود اختلاف عملکرد میان نسخهی نمایشی و نسخهی عمومی، مساله اصلی شاید چندان مهم نباشد، چراکه مدلهای دیگر اوپنایآی مانند o3-mini-high و o4-mini توانستهاند عملکرد بهتری نسبت به o3 را در مجموعه FrontierMath به ثبت برسانند. افزون بر این، قرار است بهزودی نسخه قدرتمندتری از این مدل با نام o3-pro عرضه شود.
با این حال، این اتفاق بار دیگر یادآور این واقعیت است که نباید سنجههای هوش مصنوعی را در حالت اولیه و صرفا براساس گفتهی شرکتها پذیرفت، بهخصوص زمانی که منبع آنها شرکت فروشنده آن خدمت باشد.
چنین جنجالهایی پیرامون سنجهها در صنعت هوش مصنوعی به یک روال عادی تبدیل شدهاند، چراکه شرکتها در رقابت برای جلب توجه رسانهها و مخاطبان، گاهی اطلاعات تبلیغاتی یا ناقص منتشر میکنند.
حتی موسسه Epoch نیز به تازگی هدف نقد جدی فعالان هوش مصنوعی قرار گرفت، چراکه حمایت مالی اوپنایآی از آن تا پس از اعلام مدل o3 علنی نشده بود. بسیاری از دانشگاهیانی که در توسعه FrontierMath مشارکت داشتند، از ارتباط این موسسه با اوپنایآی تا لحظه اطلاعرسانی عمومی بیخبر بودند.
به تازگی نیز شرکت xAI ایلان ماسک به انتشار نمودارهای گمراهکننده برای مدل Grok 3 متهم شده و شرکت متا نیز اذعان کرده که نتایج بنچمارکهای منتشرشدهاش مربوط به نسخهای از مدل بوده که با نسخهی منتشرشده برای توسعهدهندگان تفاوت دارد.