اوپنایآی گام دیگری در مسیر جایگزینی گوگل برداشت
شرکت اوپنایآی که در ماه آبان با عرضه قابلیت ChatGPT Search رقابت با موتور جستجوی…
۱۸ بهمن ۱۴۰۳
۱۸ بهمن ۱۴۰۳
زمان مطالعه : ۴ دقیقه
پژوهشگران هوش مصنوعی دانشگاه استنفورد و دانشگاه کالیفرنیا میگویند مدل «استدلالگر» S1 را با کمتر از ۵۰ دلار هزینه رایانش ابر آموزش دادهاند و این مدل از لحاظ عملکردی با مدلهای پیشتاز استدلالمحور از جمله o1 اوپنایآی و R1 شرکت دیپسیک رقابت میکند.
به گزارش پیوست به نقل از تک کرانچ، این مدل طبق گفته محققان عملکردی مشابه مدلهای o1 اوپنایآی و R1 دیپسیک در آزمونهای ریاضی و کدنویسی دارد. مدل s1 به همراه دادهها و کد مورد استفاده برای آموزش در GitHub قابل دسترسی است.
تیم توسعهدهنده S1 میگوید کار خود را با یک مدل پایه آغاز کردهاند و سپس از طریق تقطیل دانش یا Distillation آن را تقویت کردهاند. در فرایند تقطیر دانش، توانمندیهای «استدلال» از مدل هوش مصنوعی دیگری و با آموزش براساس پاسخهای آن استخراج میشود.
محققان میگویند s1 فرایند تقطیر دانش خود را با استفاده از مدلهای استدلالگر Gemini 2.0 Flash Thinking Experimental انجام داده است. روش تقطیر دانش هزینه توسعه مدلها را به شکل چشمگیر کاهش میدهد و پژوهشگران دانشگاه برکلی نیز ماه گذشته توانستد با ۴۵۰ دلار با استفاده از چنین روشی یک مدل استدلالگر را توسعه دهند.
شرکت اوپنایآی و مایکروسافت نیز طی بررسیهای خود شرکت چینی دیپسیک را به استفاده از این روش برای توسعه مدل استدلالگر R1 متهم کردهاند. با اینکه استفاده از چنین روشی برای اهداف پژوهشی مانعی ندارد اما اوپنایآی تقطیر دانش مدلهای خود را برای توسعه یک مدل رقیب ممنوع کرده است.
تک کرانچ می؛وید این ایده که چند پژوهشگر بدون هزینه کردن میلیونها دلار میتوانند در فضای هوش مصنوعی به نوآوری بپردازند هیجان انگیز است اما s1 سوالاتی را درمورد بهره اقتصادی مدلهای هوش مصنوعی پدید میآورد.
اگر فردی به این سادگی میتواند یک مدل چند میلیون دلاری را با یک سری تغییرات جزئی شبیهسازی کند پس چه محافظتی برای شرکتهای بزرگ وجود دارد.
پژوهشگران توسعهدهنده s1 به دنبال پیدا کردن سادهترین روش برای ارائه استدلال قدرتمند و «افزایش زمان آزمون» یا فراهم کردن امکان تفکر پیش از پاسخ به سوالات بودند. مدلهای استدلالگر شرکت اوپنایآی اولین نمونهای بودند که با چنین رویکردی دست به نوآوری زدند و پس از آن شرکت دیپسیک و دیگر آزمایشگاههای هوش مصنوعی نیز برای تقلید از آن با ترفندهای مختلف تلاش کردند.
مقاله s1 نشان میدهد که مدلهای استدلالگر را میتوان با یک دیتاست نسبتا کوچک و با بکارگیری فرایندی به نام تقویت تحت نظارت (SFT) تقطیر دانش کرد. در این فرایند به مدل هوش مصنوعی گفته میشود تا یک سری رفتارهای مشخص در درون دیتاست را تقلید کند.
فرایند SFT به نظر کمهزینهتر از روش یادگیری تقویتی گستردهای است که دیپسیک برای توسعه رقیب اوپنایآی یا R1 استفاده کرد.
گوگل دسترسی به Gemini 2.0 Flash Thinking Experimental را به صورت رایگان از طریق پلتفرم Google AI Studio فراهم کرده است اما میزان استفاده در روز محدود است.
شرایط استفاده از هوش مصنوعی گوگل همچنین مهندسی معکوس مدلهای این شرکت را برای توسعه خدماتی که با پیشنهادات هوش مصنوعی این شرکت رقابت کند ممنوع میداند.
مدل s1 مبتنی بر یک مدل کوچک و تازه عرضه شده از آزمایشگاهی Qwen شرکت چینی علیإابا است که به صورت رایگان برای دانلود عرضه شده است. پژوهشگران برای آموزش s1 دیتاستی از تنها ۱۰۰۰ سوال طراحی شده به همراه پاسخ سوالات تهیه کردند و همچنین فرایند «تفکر» هرکدام از پاسخها از طریق Gemini 2.0 Flash Thinking Experimental به دست آمد.
محققان میگویند، پس از آموزش s1 که کمتر از ۳۰ دقیقه با ۱۶ پردازنده گرافیکی H100 انویدیا زمان برد، هوش مصنوعی s1 به عملکرد بسیار خوبی در چند بنچمارک هوش مصنوعی دست پیدا کرد. نیکلاس مونیگوف، یکی از پژوهشگران استنفورد که در این پروژه حضور داشته میگوید این توان رایانشی را میتوان با حدود ۲۰ دلار اجاره کرد.
پژوهشگران با راهکار سادهای s1 را وادار کردند تا نتیجه خود را بررسی کند و زمان «تفکر» را افزایش دهد: پژهشگران از این مدل خواستند تا صبر کند. با اضافه کردن عبارت «صبرکن» در فرایند استدلال s1، دقت پاسخهای مدل افزایش یافت.
شرکتهای متا، گوگل و مایکروسافت در سال ۲۰۲۵ قرار است تا میلیاردها دلار برای توسعه زیرساخت هوش مصنوعی هزینه کنند و بخشی از این زیرساخت به مدلهای بعدی هوش مصنوعی تعلق میگیرد.
البته که ممکن است چنین سرمایهگذاری همچنان برای پیشبرد نوآوریهای هوش مصنوعی ضرورت داشته باشد. تقطیر دانش به نظر راهکار ارزانقیمتی برای شبیهسازی توانمندیهای مدلهای هوش مصنوعی است اما نمیتواند مدلی بهتر از نمونههای امروزی را توسعه دهد.