مدیرعامل مخابرات: بهکارگیری هوش مصنوعی در حوزه انرژی، راهکاری ضروری است
بهرهوری بالا، پایداری بیشتر و کاهش هزینهها در حوزه انرژی از نتایج استفاده از هوش…
۱۴ بهمن ۱۴۰۳
۱۴ بهمن ۱۴۰۳
زمان مطالعه : ۷ دقیقه
عرضه مدل R1 شرکت چینی دیپسیک بیشتر از یک هفته است که توفانی در جهان فناوری به پا کرده است، توفانی که حتی حدود یک هزار میلیارد دلار برای بازار سهامی آمریکا هزینه داشت و بسیاری را به تجدیدنظر در مورد آینده صنعت هوش مصنوعی و توجیه هزینههای میلیارددلاری شرکتهای این صنعت وا داشت.
به گزارش پیوست، شرکت چینی مدعی شد که هوش مصنوعی خود را تنها با هزینه ۶ میلیون دلار آموزش داده است، این شرکت مدل زبانی خود را به صورت متنباز عرضه کرد و مدل استدلالگر R1 این شرکت چینی توانست با هزینهای پایینتر عملکردی قابل رقابت با مدل o1 اوپنایآی به نمایش بگذارد (اوپنایآی حالا از مدل جدیدتری به نام o3-mini رونمایی کرده است.)
اما کمی پس از شوک اولیه و پایان شوک سنگین به بازار سهامی، بسیاری ادعای شرکت چینی درمورد سرمایه ۶ میلیون دلاری را به چالش کشیدند. گزارشی از SemiAnalysis منتشر شد که نشان میداد این شرکت حداقل حدود ۵۰۰ میلیون دلار برای پردازندهها هزینه کرده است و داریو آمودی، مدیرعامل آنتروپیک نیز هزینه این مدل را با استناد به همین گزارش بیش از یک میلیارد دلار برآورد کرد.
به نظر میرسد مبلغ ۶ میلیون دلار یا دقیقتر ۵.۶ میلیون دلاری که دیپسیک به عنوان هزینه توسعه مدلهای هوش مصنوعی خود آموزش داده است نه یک دروغ اما تنها بخشی از واقعیت است.
ایامار فریدمن، پژوهشگر سابق شرکت علیبابای چین و همبنیانگذار و مدیرعامل شرکت هوش مصنوعی Qodo، در مصاحبه با نشریه فناوری امآیتی میگوید: «شاید آخرین مرحله-آخرین کلیک دکمه-برای آنها ۶ میلیون دلار هزینه داشته است، اما تحقیقاتی که به این مرحله منتهی شدند احتمالا ۱۰ برابر این مبلغ، یا حتی بیشتر، هزینه داشتهاند.»
به نظر میرسد که هزینه توسعه مدلهای R1 و V3 با ادعای ۶ میلیون دلاری فاصله زیادی دارد و در واقع اگر تمام فرایند منتهی به مرحله نهایی ۶ میلیون دلاری را در نظر بگیریم، بازهم با فرایندی پر هزینه روبرو هستیم.
اما گزارش نشریه امآیتی از نحوه فعالیت این شرکت هوش مصنوعی نشان میدهد که شرکت چینی نوآوریهایی را در به ویژه در مرحله پسا آموزش مدلهای هوش مصنوعی به کار برده است که هزینه آموزش مدلها و به ویژه مدلهای استدلال محور را به شرط وجود یک بنیان قدرتمند تا حد قابل توجهی کاهش میدهد. امآیتی میگوید بزرگان فناوری سیلیکونولی هم احتمالا از ترفند مشابهی استفاده میکنند اما از آنجایی که دیپسیک فرایند خود را به طور علنی توضیح داده است، دیگر فعالان بازار هم حالا میتوانند از رویکرد مشابه بهرهبگیرند.
آموزش مدلهای هوش مصنوعی از دو مرحله اصلی به نامهای پیشآموزش (Pre-Training) و پساآموزش (Post-training) تشکیل میشود.
پر هزینهترین بخش توسعه مدلهای هوش مصنوعی در واقع مربوط به مرحله پیشآموزش یا همان مرحلهای است که میلیاردها یا حتی هزاران میلیارد مستند و داده اولیه بارها و بارها در اختیار شبکههای عصبی قرار میگیرد تا شبکه عصبی نحوه تولید متن یا محتوای دیگری شبیه به انسان را براساس دادههای آموزش یاد بگیرد.
زیرساخت مورد نیاز برای این مرحله از آموزش بسیار پرهزینه و تقریبا در انحصار شرکت آمریکایی انویدیا است. البته که پردازندههای گرانقیمت گرافیکی این شرکت در مرحله پساآموزش نیز استفاده میشوند اما گزارشها نشان میدهد که در مرحله استتنتاج (بخشی از فرایند پسا آموزش)، شرکتهای دیگری نیز توان رقابت با انویدیا را دارند و برای مثال شرکت هواوی چین یکی از بازیگرانی است که به نظر با پردازنده Ascend به دنبال سهمخواهی از این بخش است.
مرحله پیش آموزش در نهایت یک مدل پایه را در اختیار شما میگذارد، مدلی که در واقع دانشی را داخل خود جای داده است اما هنوز کاری مثل پاسخ به سوالات انجام نمیدهد. اندره کارپاتی، هم بنیانگذار اوپنایآی و رئیس سابق هوش مصنوعی شرکت تسلا، سال گذشته در رویداد Microsoft Build در این باره گفت: «مدلهای پایه دستیار نیستند. آنها فقط میخواهند مستندات اینترنت را تکمیل کنند.»
مرحله پسا آموزش همان جایی است که با چند گام دیگر، مدل پایه به ابزاری مفید تبدیل میشود. مدل در این مرحله کارهای خاصی مثل پاسخ به سوالات (یا در مورد مدلهای استدلالگر، پاسخ گام به گام) را یاد میگیرد. این مرحله در سالهای گذشته معمولا با مشارکت تسترهای انسانی انجام شده است و به تقویت تحت نظارت یا supervised fine-tuning معروف است.
اوپنایآی مرحله دیگری را نیز پایهگذاری کرده است که براساس آن به نمونه پاسخهای مدل توسط انسانها امتیاز داده میشود و براساس این امتیازها، مدل در آینده پاسخهای بیشتری را شبیه به امتیاز بالاها تولید میکند و امتیاز پایینها را کاهش میدهد. این ترفند به عنوان یادگیری تقویتی با بازخورد انسانی یا RLHF شناخته میشود و با همین فرایند است که ابزاری مثل ChatGPT تا این اندازه روان و کاربردی است. ترفندی که اوپنایآی پایه گذاری کرد را حالا تمام فعالان استفاده میکنند.
اما شرکت چینی به دلیل نگاه متفاوت و کاهش هزینه و زمان در همین مراحل توانست توجه فعالان صنعتی و حتی مدیرعامل اوپنایآی را جلب کند.
نشریه فناوری امآیتی میگوید دیپسیک هردو مرحله تقویت تحت نظارت و RLHF را با فرایندی کاملا خودکار و کامپیوتری جایگزین کرده است. مدلها در این روش به جای دریافت بازخورد از انسان، از یک کامپیوتر بازخورد میگیرند.
کامپیوتر در ارائه بازخورد برای سوالتی مثل کد و ریاضی که پایه ثابت و علمی دارند به خوبی عمل میکند اما در حوزههای ذهنی و نیازمند تامل عملکرد ضعیفی دارد و به همین دلیل است که R1 به ویژه در زمینه ریاضی و کد عملکرد بسیار خوبی دارد. دیپسیک برای بهبود عملکرد در بخشهای دیگر اما از بازخورد انسانی استفاده کرده است که آنهم به لطف تعداد زیادی نیروی کار ماهر در چین و هزینه پایین نیروی کار به نسبت رقبای آمریکایی خرج کمتری برای این شرکت دارد.
مدلهای استدلالگر بر پایه مدلهای زبانی ساخته میشوند. دیپسیک مدل V3 را با همین رویکرد و یک حلقه بازخوردی خودکار عرضه کرد . سپس مدل R1 را براساس آن آموزش داد.
برای ساخت R1، دیپسیک مدل V3 را گرفته و چرخهای از یادگیری تقویتی را بارها و بارها روی آن اجرا کرد. گوگل دیپمایند در سال ۲۰۱۶ نشان داد هاست که این رویکرد به خوبی میتواند عملکرد یک مدل بازی را تا حد بسیار پیشرفته تقویت کند.
مدل R1 در ابتدا پاسخهای مطلوب و گام به گام را ارائه نمیکرد اما با امتیازدهی خودکار به پاسخهای مدل، فرایند آموزشی به تدریج رفتار مطلوب را حاصل کرد.
پس از این فرایند اولین مدل استدلال محور این شرکت به نام R1-Zero متولد شد که عملکرد خوبی داشت اما پاسخهای آن به سختی خوانده میشدند و به ترکیبی از زبانهای مختلف نوشته شده بودند. دیپسیک برای رفع این مشکل نمونههایی از پاسخهای ارائه شده توسط انسانها را وارد فرایند یادگیری تقویت کرد. این مرحله آموزش در نهایت به خلق مدل R1 منجر شد.
نشریه فناوری امآیتی میگوید دیپسیک برای بهینهسازی حداکثری فرایند یادگیری تقویتی یک الگوریتم جدید به نام بهینهسازی سیاست با نسبیت گروهی یا Group Relative Policy Optimization (GRPO) را توسعه داد.
در حالی که برای یادگیری تقویتی بسیاری از مدلهای امروزی به یک مدل جداگانه برای محاسبه نمره پاسخها یا حرکتهای احتمالی نیاز است و در نتیجه ساخت یک مدل جداگانه بسیار هزینهبر است، GRPO به عنوان جایگزین یک حدس قریب به یقین را ارائه میکند. این روش ارزانتر تمام میشود و از دقت کافی برخوردار است.
گفتنی است که اوپنایآی به تازگی دیپسیک را به استفاده از مدلهای خود متهم کرده است و میگوید این شرکت چینی با روش تقطیر دانش برای بهرهمندی از توان مدلهای این شرکت استفاده کرده است.
با این حال بررسی نشریه فناوری امآیتی بر نحوه توسعه مدلهای هوش مصنوعی دیپسیک نشان میدهد که این شرکت با نوآوری و حذف برخی از مراحل پر هزینه، به ویژه حذف بخش مهمی از نیروی انسانی مورد نیاز، نشان داده است که توسعه مدلهای هوش مصنوعی و از همه مهمتر نسل جدید مدلهای استدلالگر تا حدی که پیش از این برآورد شده بود پر هزینه نیست.
شرکتهای کوچک فناوری حالا میتوانند با روشی مشابه مدلهای شخصیسازی شده خود را بر مبنای مدلهای متنباز یا حتی مدلهای اختصاصی دیگر شرکت و به شرط پرداخت هزینه توسعه دهند.