skip to Main Content
محتوای اختصاصی کاربران ویژهورود به سایت

فراموشی رمز عبور

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ عضو شوید

ثبت نام سایت

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ وارد شوید

فراموشی رمز عبور

وارد شوید یا عضو شوید

جشنواره نوروزی آنر

پژوهشگران استنفورد مدل استدلال‌گری را با کمتر از ۵۰ دلار آموزش دادند

۱۸ بهمن ۱۴۰۳

زمان مطالعه : ۴ دقیقه

پژوهشگران هوش مصنوعی دانشگاه استنفورد و دانشگاه کالیفرنیا می‌گویند مدل «استدلال‌گر» S1 را با کمتر از ۵۰ دلار هزینه رایانش ابر آموزش داده‌اند و این مدل از لحاظ عملکردی با مدل‌های پیشتاز استدلال‌محور از جمله o1 اوپن‌ای‌آی و R1 شرکت دیپ‌سیک رقابت می‌کند.

به گزارش پیوست به نقل از تک کرانچ، این مدل طبق گفته محققان عملکردی مشابه مدل‌های o1 اوپن‌ای‌آی و R1 دیپ‌سیک در آزمون‌های ریاضی و کدنویسی دارد. مدل s1 به همراه داده‌ها و کد مورد استفاده برای آموزش در GitHub قابل دسترسی است.

تیم توسعه‌دهنده S1 می‌گوید کار خود را با یک مدل پایه آغاز کرده‌اند و سپس از طریق تقطیل دانش یا Distillation آن را تقویت کرده‌اند. در فرایند تقطیر دانش، توانمندی‌های «استدلال» از مدل هوش مصنوعی دیگری و با آموزش براساس پاسخ‌های آن استخراج می‌شود.

محققان می‌گویند s1 فرایند تقطیر دانش خود را با استفاده از مدل‌های استدلال‌گر Gemini 2.0 Flash Thinking Experimental‌ انجام داده است. روش تقطیر دانش هزینه توسعه مدل‌ها را به شکل چشمگیر کاهش می‌دهد و پژوهشگران دانشگاه برکلی نیز ماه گذشته توانستد با ۴۵۰ دلار با استفاده از چنین روشی یک مدل استدلال‌گر را توسعه دهند.

شرکت اوپن‌ای‌آی و مایکروسافت نیز طی بررسی‌های خود شرکت چینی دیپ‌سیک را به استفاده از این روش برای توسعه مدل استدلال‌گر R1 متهم کرده‌اند. با اینکه استفاده از چنین روشی برای اهداف پژوهشی مانعی ندارد اما اوپن‌ای‌آی تقطیر دانش مدل‌های خود را برای توسعه یک مدل رقیب ممنوع کرده است.

تک کرانچ می‌؛وید این ایده که چند پژوهشگر بدون هزینه کردن میلیون‌ها دلار می‌توانند در فضای هوش مصنوعی به نوآوری بپردازند هیجان انگیز است اما s1 سوالاتی را درمورد بهره‌ اقتصادی مدل‌های هوش مصنوعی پدید می‌آورد.

اگر فردی به این سادگی می‌تواند یک مدل چند میلیون دلاری را با یک سری تغییرات جزئی شبیه‌سازی کند پس چه محافظتی برای شرکت‌های بزرگ وجود دارد.

پژوهشگران توسعه‌دهنده s1 به دنبال پیدا کردن ساده‌ترین روش برای ارائه استدلال قدرتمند و «افزایش زمان آزمون» یا فراهم کردن امکان تفکر پیش از پاسخ به سوالات بودند. مدل‌های استدلال‌گر شرکت اوپن‌ای‌آی اولین نمونه‌ای بودند که با چنین رویکردی دست به نوآوری زدند و پس از آن شرکت دیپ‌سیک و دیگر آزمایشگاه‌های هوش مصنوعی نیز برای تقلید از آن با ترفند‌های مختلف تلاش کردند.

مقاله s1 نشان می‌دهد که مدل‌های استدلال‌گر را می‌توان با یک دیتاست نسبتا کوچک و با بکارگیری فرایندی به نام تقویت تحت نظارت (SFT) تقطیر دانش کرد. در این فرایند به مدل هوش مصنوعی گفته می‌شود تا یک سری رفتار‌های مشخص در درون دیتاست را تقلید کند.

فرایند SFT به نظر کم‌هزینه‌تر از روش یادگیری تقویتی گسترده‌ای است که دیپ‌سیک برای توسعه رقیب اوپن‌ای‌آی یا R1 استفاده کرد.

گوگل دسترسی به  Gemini 2.0 Flash Thinking Experimental را به صورت رایگان از طریق پلتفرم Google AI Studio فراهم کرده است اما میزان استفاده در روز محدود است.

شرایط استفاده از هوش مصنوعی گوگل همچنین مهندسی معکوس مدل‌های این شرکت را برای توسعه خدماتی که با پیشنهادات هوش مصنوعی این شرکت رقابت کند ممنوع می‌داند.

مدل s1 مبتنی بر یک مدل کوچک و تازه عرضه شده از آزمایش‌گاهی Qwen شرکت چینی علی‌إابا است که به صورت رایگان برای دانلود عرضه شده است. پژوهشگران برای آموزش s1 دیتاستی از تنها ۱۰۰۰ سوال طراحی شده به همراه پاسخ‌ سوالات تهیه کردند و همچنین فرایند «تفکر» هرکدام از پاسخ‌ها از طریق  Gemini 2.0 Flash Thinking Experimental به دست آمد.

محققان می‌گویند، پس از آموزش s1 که کمتر از ۳۰ دقیقه با ۱۶ پردازنده گرافیکی H100 انویدیا زمان‌ برد، هوش مصنوعی s1 به عملکرد بسیار خوبی در چند بنچ‌مارک هوش مصنوعی دست پیدا کرد. نیکلاس مونیگوف، یکی از پژوهشگران استنفورد که در این پروژه حضور داشته می‌گوید این توان رایانشی را می‌توان با حدود ۲۰ دلار اجاره کرد.

پژوهشگران با راهکار ساده‌ای s1 را وادار کردند تا نتیجه خود را بررسی کند و زمان «تفکر» را افزایش دهد: پژهشگران از این مدل خواستند تا صبر کند. با اضافه کردن عبارت «صبرکن» در فرایند استدلال s1، دقت پاسخ‌های مدل افزایش یافت.

شرکت‌های متا، گوگل و مایکروسافت در سال ۲۰۲۵ قرار است تا میلیارد‌ها دلار برای توسعه زیرساخت هوش مصنوعی هزینه کنند و بخشی از این زیرساخت به مدل‌های بعدی هوش مصنوعی تعلق می‌گیرد.

البته که ممکن است چنین سرمایه‌گذاری همچنان برای پیشبرد نوآوری‌های هوش مصنوعی ضرورت داشته باشد. تقطیر دانش به نظر راهکار ارزان‌قیمتی برای شبیه‌سازی توانمندی‌های مدل‌های هوش مصنوعی است اما نمی‌تواند مدلی بهتر از نمونه‌های امروزی را توسعه دهد.

 

https://pvst.ir/k95

0 نظر

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

*

برای بوکمارک این نوشته
Back To Top
جستجو