با ابزارهای جدیدترین شهربازی هوش مصنوعی گوگل آشنا شوید
گوگل در یکی از جدیدترین اقدامهای خود در راستای توسعه هوش مصنوعی دست به خلق…
۸ بهمن ۱۴۰۳
۷ بهمن ۱۴۰۳
زمان مطالعه : ۴ دقیقه
گزارشی از نیویورک تایمز میگوید پژوهشگران مرکز امنیت هوش مصنوعی (Center for AI Safety) و استارتآپ Scale AI، آزمونی را طراحی و برای عرضه آماده کردهاند که به گفته آنها سختترین آزمون برای سیستمهای هوش مصنوعی و در صورت عبور از این سرحد باید نگرانی پیشی گرفتن این سیستمها از انسان بود.
به گزارش پیوست، شرکتها و پژوهشگران مختلف آزمونهای متعددی را برای سنجش عملکرد هوش مصنوعی و حتی به چالش کشیدن این فناوری طراحی کردهاند اما ابزارهای ساخته شرکتهایی مثل اوپنایآی، گوگل و آنتروپیک امروزه نمرات بالایی در آزمونهای سطح Ph.D. کسب میکنند و بازدهی این آزمونها محدود شده است.
حالا پژوهشگران مرکز امنیت هوش مصنوعی و Scale AI در حال عرضه یک آزمون جدید برای ارزیابی این مدلها هستند که به ادعای آنها دشوارترین تست طراحی شده برای سیستمهای هوش مصنوعی است.
این آزمون که به آن نام «آخرین امتحان بشریت» یا «Humanity’s Last Exam» داده شده است، زاده ذهن دن هندریکس، یکی از پژوهشگران سرشناس امنیت هوش مصنوعی و رئیس مرکز امنیت هوش مصنوعی است. (نام اصلی این آزمون «آخرین سنگر بشریت» یا «Humanity’s Last Stand» به دلیل وجهه نمایشی بیش از حدش کنار گذاشته شد.)
این آزمون که متشکل از ۳ هزار سوال چند گزینهای و با پاسخ کوتاه است، به گونهای طراحی شده تا توانایی این سیستمها را در حوزههای مختلفی از فلسفه تحلیلی گرفته تا مهندسی موشک به چالش بکشد.
سوالات این آزمون توسط متخصصان هر رشته، از جمله اساتید دانشگاه و ریاضیدانان سرشناس، طراحی شده و از آنها خواسته شده است تا سوالاتی بسیار دشوار طراحی کنند که پاسخ آن را میدانند.
این سوالات از یک فرایند فیلتر دو مرحلهای عبور کردند. ابتدا سوالات در اختیار مدلهای پیشتاز هوش مصنوعی قرار گرفتند. سپس اگر مدلها توان پاسخ به آنها را نداشتند (یا در سوالات چندگزینهای عملکرد ضعیفتری نسبت به انتخاب تصادفی به ثبت رساندن)، سوالات در اختیار چند بازبین انسانی قرار میگرفت تا آنها را اصلاح کرده و از صحت پاسخها اطمینان حاصل کنند. متخصصان در ازای هر سوال ۵۰۰ تا ۵۰۰۰ دلار دریافت کردند.
هندریکس میگوید سوالات و آزمونها پیشین بیش از حد برای هوش مصنوعی ساده هستند. آخرین امتحان بشریت به گونهای طراحی شده تا عملکرد سیستمهای هوش مصنوعی را در پاسخ به سوالاتی در حوزههای مختلف دانشگاه مورد ارزیابی قرار دهد و در نهایت یک نمره هوش عمومی در اختیار ما بگذارد.
هندریکس که پیشتر با ایلان ماسک در این باره مشاوره کرده است و از ماسک شنیده است که سوالات پیشین یا موجود در دادهها بیش از حد برای هوش مصنوعی ساده هستند، میگوید: «ما سعی داریم مشخص کنیم که هوش مصنوعی تا چه اندازه میتواند یک کار ذهنی بسیار دشوار را خودکارسازی کند.»
پس از گردآوری سوالات، پژوهشگران آخرین امتحان بشریت را در اختیار شش مدل پیشتاز هوش مصنوعی از جمله جمنای ۱.۵ پرو از گوگل و Claude 3.5 Sonnet از شرکت آنتروپیک قرار دادند.
تمامی مدلهای هوش مصنوعی در این آزمون شکست سختی خوردند و در این میان اما بهترین نمره متعلق به مدل o1 شرکت اوپنایآی بود که امتیاز ۸.۳ درصدی گرفت.
با وجود شکست سنگین مدلهای امروزی، هندریکس معتقد است که هوش مصنوعی با سرعت بالایی در این مسیر پیشرفت میکند و از نگاه او تا پایان سال ممکن است نمره آنها از پنجاه درصد عبور کند و در صورت تحقق این پیشبینی، مدلهایی که چنین نمرهای کسب کنند در واقع به دانشمندان بزرگی تبدیل میشوند که در هر موضوعی بهتر از متخصصان انسانی عمل میکنند.
از این رو باید در آینده به دنبال راههای دیگری برای سنجش اثر هوش مصنوعی مثل بررسی دادههای اقتصادی یا سنجش عملکرد آنها در کشف جدید برای رشتههایی مثل ریاضی و علوم بود. سامر یو، رئیس تحقیقات Scale AI و یکی از مسئولان این آزمون، میگوید به پتانسیل این مدلهای هوش مصنوعی در آینده و پس از عبور از این امتحان در حل سوالات بیجواب اشاره میکند.
او میگوید: «میتوانید نسخه بهتری از این [آزمون] را تصور کنید که شما سوالاتی را که پاسخ آنها را نمیدانید در اختیار [هوش مصنوعی] میگذارد و ما میتوانیم تایید کنیم که آیا مدل قادر به حل آن برای ما هست یا خیر.»
با این حال مدلهای هوش مصنوعی ناهمسان هستند و با اینکه امروزه بسیاری از آنها برای مثال میتوانند در حد مدال آور المپیاد جهانی ریاضی باشند، اما در کارهای سادهتری مثل نوشتن اشعار سنجیده به مشکل میخورند. چنین عملکرد ناهمسانی باعث شده تا سنجش این مدلها دشوار باشد. کوین ژو، پژوهشگر فوقدکترا رشته فیزیک ذرات نظر از دانشگاه برکلی کالیفرنیا، میگوید، با اینکه مدلهای هوش مصنوعی معمولا در پاسخ به سوالات پیچیده خیرهکننده هستند اما از نگاه او آنها تهدیدی برای خود یا همکارانش محسوب نمیشوند، زیرا شغل آنها چیزی فراتر از ارائه پاسخهای صحیح است.