skip to Main Content
محتوای اختصاصی کاربران ویژهورود به سایت

فراموشی رمز عبور

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ عضو شوید

ثبت نام سایت

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ وارد شوید

فراموشی رمز عبور

وارد شوید یا عضو شوید

جشنواره نوروزی آنر

دیپ‌سیک چطور هزینه‌ها را کاهش داد؛ آیا ادعای ۶ میلیون دلاری این شرکت حقیقت دارد؟

۱۴ بهمن ۱۴۰۳

زمان مطالعه : ۷ دقیقه

عرضه مدل R1 شرکت چینی دیپ‌سیک بیشتر از یک هفته است که توفانی در جهان فناوری به پا کرده است، توفانی که حتی حدود یک هزار میلیارد دلار برای بازار سهامی آمریکا هزینه داشت و بسیاری را به تجدیدنظر در مورد آینده صنعت هوش مصنوعی و توجیه هزینه‌های میلیارد‌دلاری شرکت‌های این صنعت وا داشت.

به گزارش پیوست، شرکت چینی مدعی شد که هوش مصنوعی خود را تنها با هزینه ۶ میلیون دلار آموزش داده است، این شرکت مدل زبانی خود را به صورت متن‌باز عرضه کرد و مدل استدلال‌گر R1 این شرکت چینی توانست با هزینه‌ای پایین‌تر عملکردی قابل رقابت با مدل o1 اوپن‌ای‌آی به نمایش بگذارد (اوپن‌ای‌آی حالا از مدل جدید‌تری به نام o3-mini رونمایی کرده است.)

اما کمی پس از شوک اولیه و پایان شوک سنگین به بازار سهامی، بسیاری ادعای شرکت چینی درمورد سرمایه ۶ میلیون دلاری را به چالش کشیدند. گزارشی از SemiAnalysis منتشر شد که نشان می‌داد این شرکت حداقل حدود ۵۰۰ میلیون دلار برای پردازنده‌ها هزینه کرده است و داریو آمودی، مدیرعامل آنتروپیک نیز هزینه این مدل را با استناد به همین گزارش بیش از یک میلیارد دلار برآورد کرد.

آیا ادعای هزینه ۶ میلیون دلاری دیپ‌سیک حقیقت دارد؟

به نظر می‌رسد مبلغ ۶ میلیون دلار یا دقیق‌تر ۵.۶ میلیون دلاری که دیپ‌سیک به عنوان هزینه توسعه مدل‌های هوش مصنوعی خود آموزش داده است نه یک دروغ اما تنها بخشی از واقعیت است.

ایامار فریدمن، پژوهشگر سابق شرکت علی‌بابای چین و هم‌بنیان‌گذار و مدیرعامل شرکت هوش مصنوعی Qodo، در مصاحبه با نشریه فناوری ام‌آی‌تی می‌گوید: «شاید آخرین مرحله-آخرین کلیک دکمه-برای آنها ۶ میلیون دلار هزینه داشته است، اما تحقیقاتی که به این مرحله منتهی شدند احتمالا ۱۰ برابر این مبلغ، یا حتی بیشتر، هزینه داشته‌اند.»

به نظر می‌رسد که هزینه توسعه مدل‌های R1 و V3 با ادعای ۶ میلیون دلاری فاصله زیادی دارد و در واقع اگر تمام فرایند منتهی به مرحله نهایی ۶ میلیون دلاری را در نظر بگیریم، بازهم با فرایندی پر هزینه روبرو هستیم.

اما گزارش نشریه ام‌آی‌تی از نحوه فعالیت این شرکت هوش مصنوعی نشان می‌دهد که شرکت چینی نوآوری‌هایی را در به ویژه در مرحله پسا آموزش مدل‌های هوش مصنوعی به کار برده است که هزینه آموزش مدل‌ها و به ویژه مدل‌های استدلال محور را به شرط وجود یک بنیان قدرتمند تا حد قابل توجهی کاهش می‌دهد. ام‌آی‌تی می‌گوید بزرگان فناوری سیلیکون‌ولی هم احتمالا از ترفند مشابهی استفاده می‌کنند اما از آنجایی که دیپ‌سیک فرایند خود را به طور علنی توضیح داده است، دیگر فعالان بازار هم حالا می‌توانند از رویکرد مشابه بهره‌بگیرند.

آموزش هوش مصنوعی؛ از پیش‌آموزش تا پساآموزش

آموزش مدل‌های هوش مصنوعی از دو مرحله اصلی به نام‌های پیش‌آموزش (Pre-Training) و پساآموزش (Post-training) تشکیل می‌شود.

مرحله پیش‌آموزش (Pre-Training)

پر هزینه‌ترین بخش توسعه مدل‌های هوش مصنوعی در واقع مربوط به مرحله پیش‌آموزش یا همان مرحله‌ای است که میلیارد‌ها یا حتی هزاران میلیارد مستند و داده اولیه بارها و بارها در اختیار شبکه‌های عصبی قرار می‌گیرد تا شبکه عصبی نحوه تولید متن یا محتوای دیگری شبیه به انسان را براساس داده‌های آموزش یاد بگیرد.

زیرساخت مورد نیاز برای این مرحله از آموزش بسیار پرهزینه و تقریبا در انحصار شرکت آمریکایی انویدیا است. البته که پردازنده‌های گران‌قیمت گرافیکی این شرکت در مرحله پسا‌آموزش نیز استفاده می‌شوند اما گزارش‌ها نشان می‌دهد که در مرحله استتنتاج (بخشی از فرایند پسا آموزش)، شرکت‌های دیگری نیز توان رقابت با انویدیا را دارند و برای مثال شرکت هواوی چین یکی از بازیگرانی است که به نظر با پردازنده Ascend به دنبال سهم‌خواهی از این بخش است.

مرحله پیش آموزش در نهایت یک مدل پایه را در اختیار شما می‌گذارد، مدلی که در واقع دانشی را داخل خود جای داده است اما هنوز کاری مثل پاسخ به سوالات انجام نمی‌دهد. اندره کارپاتی، هم بنیان‌گذار اوپن‌ای‌آی و رئیس سابق هوش مصنوعی شرکت تسلا، سال گذشته در رویداد Microsoft Build در این باره گفت: «مدل‌های پایه دستیار نیستند. آنها فقط می‌خواهند مستندات اینترنت را تکمیل کنند.»

مرحله پساآموزش (Post-training)

مرحله پسا آموزش همان جایی است که با چند گام دیگر، مدل پایه به ابزاری مفید تبدیل می‌شود. مدل در این مرحله کارهای خاصی مثل پاسخ به سوالات (یا در مورد مدل‌های استدلال‌گر، پاسخ گام به گام) را یاد می‌گیرد. این مرحله در سال‌های گذشته معمولا با مشارکت تستر‌های انسانی انجام شده است و به تقویت تحت نظارت یا supervised fine-tuning معروف است.

اوپن‌ای‌آی مرحله دیگری را نیز پایه‌گذاری کرده است که براساس آن به نمونه پاسخ‌های مدل توسط انسان‌ها امتیاز داده می‌شود و براساس این امتیاز‌ها، مدل در آینده پاسخ‌های بیشتری را شبیه به امتیاز بالاها تولید می‌کند و امتیاز پایین‌ها را کاهش می‌دهد. این ترفند به عنوان یادگیری تقویتی با بازخورد انسانی یا RLHF شناخته می‌شود و با همین فرایند است که ابزاری مثل ChatGPT تا این اندازه روان و کاربردی است. ترفندی که اوپن‌ای‌آی پایه گذاری کرد را حالا تمام فعالان استفاده می‌کنند.

اما شرکت چینی به دلیل نگاه متفاوت و کاهش هزینه و زمان در همین مراحل توانست توجه فعالان صنعتی و حتی مدیرعامل اوپن‌ای‌آی را جلب کند.

رویکرد متفاوت دیپ‌سیک در مرحله پساآموزش

نشریه فناوری ام‌آی‌تی می‌گوید دیپ‌سیک هردو مرحله تقویت تحت نظارت و RLHF را با فرایندی کاملا خودکار و کامپیوتری جایگزین کرده است. مدل‌ها در این روش به جای دریافت بازخورد از انسان، از یک کامپیوتر بازخورد می‌گیرند.

کامپیوتر در ارائه بازخورد برای سوالتی مثل کد و ریاضی که پایه ثابت و علمی دارند به خوبی عمل می‌کند اما در حوزه‌های ذهنی و نیازمند تامل عملکرد ضعیفی دارد و به همین دلیل است که R1 به ویژه در زمینه ریاضی و کد عملکرد بسیار خوبی دارد. دیپ‌سیک برای بهبود عملکرد در بخش‌های دیگر اما از بازخورد انسانی استفاده کرده است که آنهم به لطف تعداد زیادی نیروی کار ماهر در چین و هزینه پایین نیروی کار به نسبت رقبای آمریکایی خرج کمتری برای این شرکت دارد.

مدل‌های استدلال‌گر بر پایه مدل‌های زبانی ساخته می‌شوند. دیپ‌سیک مدل V3 را با همین رویکرد و یک حلقه بازخوردی خودکار عرضه کرد . سپس مدل R1 را براساس آن آموزش داد.

برای ساخت R1، دیپ‌سیک مدل V3 را گرفته و چرخه‌ای از یادگیری تقویتی را بارها و بارها روی آن اجرا کرد. گوگل دیپ‌مایند در سال ۲۰۱۶ نشان داد هاست که این رویکرد به خوبی می‌تواند عملکرد یک مدل بازی را تا حد بسیار پیشرفته تقویت کند.

مدل R1 در ابتدا پاسخ‌های مطلوب و گام‌ به گام را ارائه نمی‌کرد اما با امتیازدهی خودکار به پاسخ‌های مدل، فرایند آموزشی به تدریج رفتار مطلوب را حاصل کرد.

پس از این فرایند اولین مدل استدلال محور این شرکت به نام R1-Zero متولد شد که عملکرد خوبی داشت اما پاسخ‌های آن به سختی خوانده می‌شدند و به ترکیبی از زبان‌های مختلف نوشته شده بودند. دیپ‌سیک برای رفع این مشکل نمونه‌هایی از پاسخ‌های ارائه شده توسط انسان‌ها را وارد فرایند یادگیری تقویت کرد. این مرحله آموزش در نهایت به خلق مدل R1 منجر شد.

نشریه فناوری ام‌آی‌تی می‌گوید دیپ‌سیک برای بهینه‌سازی حداکثری فرایند یادگیری تقویتی یک الگوریتم جدید به نام بهینه‌سازی سیاست با نسبیت گروهی یا Group Relative Policy Optimization (GRPO) را توسعه داد.

در حالی که برای یادگیری تقویتی بسیاری از مدل‌های امروزی به یک مدل جداگانه برای محاسبه نمره پاسخ‌ها یا حرکت‌های احتمالی نیاز است و در نتیجه ساخت یک مدل جداگانه بسیار هزینه‌بر است،‌ GRPO به عنوان جایگزین یک حدس قریب به یقین را ارائه می‌کند. این روش ارزان‌تر تمام می‌شود و از دقت کافی برخوردار است.

گفتنی است که اوپن‌ای‌آی به تازگی دیپ‌سیک را به استفاده از مدل‌های خود متهم کرده است و می‌گوید این شرکت چینی با روش تقطیر دانش برای بهره‌مندی از توان مدل‌های این شرکت استفاده کرده است.

با این حال بررسی نشریه فناوری ام‌آی‌تی بر نحوه توسعه مدل‌های هوش مصنوعی دیپ‌سیک نشان می‌دهد که این شرکت با نوآوری و حذف برخی از مراحل پر هزینه، به ویژه حذف بخش مهمی از نیروی انسانی مورد نیاز، نشان داده است که توسعه مدل‌های هوش مصنوعی و از همه مهم‌تر نسل جدید مدل‌های استدلال‌گر تا حدی که پیش از این برآورد شده بود پر هزینه نیست.

شرکت‌های کوچک فناوری حالا می‌توانند با روشی مشابه مدل‌های شخصی‌سازی شده خود را بر مبنای مدل‌های متن‌باز یا حتی مدل‌های اختصاصی دیگر شرکت و به شرط پرداخت هزینه توسعه دهند.

 

https://pvst.ir/k7u

0 نظر

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

*

برای بوکمارک این نوشته
Back To Top
جستجو