فناوری

مهدی جعفری مترجم

پیوست » فناوری » هوش مصنوعی » آخرین امتحان بشریت؛ آزمون دشواری که مدل‌های هوش مصنوعی (فعلا) توان پاسخ به آن را ندارند

آخرین امتحان بشریت؛ آزمون دشواری که مدل‌های هوش مصنوعی (فعلا) توان پاسخ به آن را ندارند

مهدی جعفری مترجم

۷ بهمن ۱۴۰۳

زمان مطالعه : ۴ دقیقه

گزارشی از نیویورک تایمز می‌گوید پژوهشگران مرکز امنیت هوش مصنوعی (Center for AI Safety) و استارت‌آپ Scale AI، آزمونی را طراحی و برای عرضه آماده کرده‌اند که به گفته آنها سخت‌ترین آزمون برای سیستم‌های هوش مصنوعی و در صورت عبور از این سرحد باید نگرانی پیشی گرفتن این سیستم‌ها از انسان بود.

به گزارش پیوست، شرکت‌ها و پژوهشگران مختلف آزمون‌های متعددی را برای سنجش عملکرد هوش مصنوعی و حتی به چالش کشیدن این فناوری طراحی کرده‌اند اما ابزارهای ساخته شرکت‌هایی مثل اوپن‌ای‌آی، گوگل و آنتروپیک امروزه نمرات بالایی در آزمون‌های سطح Ph.D. کسب می‌کنند و بازدهی این آزمون‌ها محدود شده است.

حالا پژوهشگران مرکز امنیت هوش مصنوعی و Scale AI در حال عرضه یک آزمون جدید برای ارزیابی این مدل‌ها هستند که به ادعای آنها دشوارترین تست طراحی شده برای سیستم‌های هوش مصنوعی است.

این آزمون که به آن نام «آخرین امتحان بشریت» یا «Humanity’s Last Exam» داده شده است، زاده ذهن دن هندریکس، یکی از پژوهشگران سرشناس امنیت هوش مصنوعی و رئیس مرکز امنیت هوش مصنوعی است. (نام اصلی این آزمون «آخرین سنگر بشریت» یا «Humanity’s Last Stand» به دلیل وجهه نمایشی بیش از حدش کنار گذاشته شد.)

این آزمون که متشکل از ۳ هزار سوال چند گزینه‌ای و با پاسخ کوتاه است، به گونه‌ای طراحی شده تا توانایی این سیستم‌ها را در حوزه‌های مختلفی از فلسفه تحلیلی گرفته تا مهندسی موشک به چالش بکشد.

طراحی آخرین امتحان بشریت

سوالات این آزمون توسط متخصصان هر رشته، از جمله اساتید دانشگاه و ریاضی‌دانان سرشناس، طراحی شده و از آنها خواسته شده است تا سوالاتی بسیار دشوار طراحی کنند که پاسخ آن را می‌دانند.

این سوالات از یک فرایند فیلتر دو مرحله‌ای عبور کردند. ابتدا سوالات در اختیار مدل‌های پیشتاز هوش مصنوعی قرار گرفتند. سپس اگر مدل‌ها توان پاسخ به آنها را نداشتند (یا در سوالات چندگزینه‌ای عملکرد ضعیف‌تری نسبت به انتخاب تصادفی به ثبت رساندن)، سوالات در اختیار چند بازبین انسانی قرار می‌گرفت تا آنها را اصلاح کرده و از صحت پاسخ‌ها اطمینان حاصل کنند. متخصصان در ازای هر سوال ۵۰۰ تا ۵۰۰۰ دلار دریافت کردند.

هدف از طراحی آخرین امتحان بشریت

هندریکس می‌گوید سوالات و آزمون‌ها پیشین بیش از حد برای هوش مصنوعی ساده هستند. آخرین امتحان بشریت به گونه‌ای طراحی شده تا عملکرد سیستم‌های هوش مصنوعی را در پاسخ به سوالاتی در حوزه‌های مختلف دانشگاه مورد ارزیابی قرار دهد و در نهایت یک نمره هوش عمومی در اختیار ما بگذارد.

هندریکس که پیشتر با ایلان ماسک در این باره مشاوره کرده است و از ماسک شنیده است که سوالات پیشین یا موجود در داده‌ها بیش از حد برای هوش مصنوعی ساده هستند، می‌گوید: «ما سعی داریم مشخص کنیم که هوش مصنوعی تا چه اندازه می‌تواند یک کار ذهنی بسیار دشوار را خودکارسازی کند.»

پس از گردآوری سوالات، پژوهشگران آخرین امتحان بشریت را در اختیار شش مدل پیشتاز هوش مصنوعی از جمله جمنای ۱.۵ پرو از گوگل و Claude 3.5 Sonnet از شرکت آنتروپیک قرار دادند.

تمامی مدل‌های هوش مصنوعی در این آزمون شکست سختی خوردند و در این میان اما بهترین نمره متعلق به مدل o1 شرکت اوپن‌ای‌آی بود که امتیاز ۸.۳ درصدی گرفت.

پیش‌بینی پیشرفت سریع مدل‌های هوش مصنوعی

با وجود شکست سنگین مدل‌های امروزی، هندریکس معتقد است که هوش مصنوعی با سرعت بالایی در این مسیر پیشرفت می‌کند و از نگاه او تا پایان سال ممکن است نمره آنها از پنجاه درصد عبور کند و در صورت تحقق این پیش‌بینی، مدل‌هایی که چنین نمره‌ای کسب کنند در واقع به دانشمندان بزرگی تبدیل می‌شوند که در هر موضوعی بهتر از متخصصان انسانی عمل می‌کنند.

از این رو باید در آینده به دنبال راه‌های دیگری برای سنجش اثر هوش مصنوعی مثل بررسی داده‌های اقتصادی یا سنجش عملکرد آن‌ها در کشف جدید برای رشته‌هایی مثل ریاضی و علوم بود. سامر یو، رئیس تحقیقات Scale AI و یکی از مسئولان این آزمون، می‌گوید به پتانسیل این مدل‌های هوش مصنوعی در آینده و پس از عبور از این امتحان در حل سوالات بی‌جواب اشاره می‌کند.

او می‌گوید: «می‌توانید نسخه بهتری از این [آزمون] را تصور کنید که شما سوالاتی را که پاسخ آنها را نمی‌دانید در اختیار [هوش مصنوعی] می‌گذارد و ما می‌توانیم تایید کنیم که آیا مدل قادر به حل آن برای ما هست یا خیر.»

با این حال مدل‌های هوش مصنوعی ناهمسان هستند و با اینکه امروزه بسیاری از آنها برای مثال می‌توانند در حد مدال آور المپیاد جهانی ریاضی باشند، اما در کار‌‌های ساده‌تری مثل نوشتن اشعار سنجیده به مشکل می‌خورند. چنین عملکرد ناهمسانی باعث شده تا سنجش این مدل‌ها دشوار باشد. کوین ژو، پژوهشگر فوق‌دکترا رشته فیزیک ذرات نظر از دانشگاه برکلی کالیفرنیا، می‌گوید، با اینکه مدل‌های هوش مصنوعی معمولا در پاسخ به سوالات پیچیده خیره‌کننده هستند اما از نگاه او آنها تهدیدی برای خود یا همکارانش محسوب نمی‌شوند، زیرا شغل آنها چیزی فراتر از ارائه پاسخ‌های صحیح است.

این مطالب را هم بخوانید: