استارت‌آپ DeepSeek چین چطور به ستاره هوش مصنوعی تبدیل شد؟

مهدی جعفری مترجم

۸ بهمن ۱۴۰۳

زمان مطالعه : ۷ دقیقه

شرکت چینی DeepSeek در هفته‌‌های اخیر به پدیده‌ای در جهان فناوری تبدیل شده است و به ویژه با عرضه مدل استدلال‌محور R1 که در رقابت با o1 اوپن‌ای‌آی قرار می‌گیرد نه تنها در چین، بلکه در عرصه بین‌المللی نیز به یک وزنه قدرتمند بدل شد. این شرکت که زاده صندوق سرمایه High-Flyer است با رویکردی متفاوت علاوه بر کاهش توان رایانشی مورد نیاز برای آموزش، هزینه ارائه خروجی مدل‌های خود را نیز به شکل قابل توجهی در قیاس با رقبای غربی کاهش داده است.

به گزارش پیوست، به نظر می‌رسد که این شرکت چینی با ترکیبی از رویکرد متفاوت به آموزش، استفاده از داده‌های مصنوعی، ذخیره پردازنده‌های پیشرفته و همکاری با شرکت AMD به چنین جایگاهی دست یافته و زنگ خطر را برای رقبای آمریکایی و به ویژه شرکت متا به صدا در آورده است.

همچنین یکی از برتری‌های همیشگی فعالان چین، یعنی هزینه پایین نیروی کار در قیاس با شرکت‌های آمریکا نیز به یاری DeepSeek آمده است و علاوه بر این هزینه پایین برق چین در مقایسه با آمریکا نیز به شکل قابل توجهی مخارج این شرکت را کاهش داده است.

پردازنده‌های گرافیکی انویدیا و همکاری با شرکت AMD

دیپ‌سیک در جولای ۲۰۲۳ توسط لیانگ ونفنگ، فارغ‌التحصیل دانشگاه ججیانگ با پس زمینه‌ای در اطلاعات و مهندسی برق، بنیان‌گذاری شد. لیانگ نیز همانند سم آلتمن برای رسیدن به هوش مصنوعی عمومی یا AGI تلاش می‌کند و سرمایه خود را از صندوقی به نام High-Flyer می‌گیرد که در سال ۲۰۱۵ توسط لیانگ بنیان‌گذاری شد.

این شرکت طبق گزارشی از نشریه فناوری MIT به نقل از رسانه 36Kr چین پیش از تحریم‌های آمریکا بر پردازنده‌های پیشرفته هوش مصنوعی، که به تازگی شدت بیشتری پیدا کردند، تعداد زیادی از این پردازنده‌های را ذخیره کرده است. رسانه چینی می‌گوید این شرکت حدود ۱۰ هزار واحد از چیپ‌های A100 انویدیا را در اختیار دارد و داده‌های خارجی از تعداد بیشتر و حدود ۵۰ هزارتایی این ذخیره حکایت دارد. دیلان پاتل، بنیان‌گذار گروه شرکت مشاوره تحقیقات هوش مصنوعی SemiAnalysis می‌گوید DeepSeek حداقل ۵۰ هزار پردازنده انویدیا را پیش از تحریم‌ها ذخیره کرده است.

علاوه بر این گزارشی از مجله فوربز نیز به همکاری استراتژیک شرکت چینی با دومین تولید‌کننده بزرگ پردازنده‌های گرافیکی یا همان شرکت AMD اشاره می‌کند. فوربز می‌گوید همکاری با AMD یکی از مهمترین روابط استراتژیک DeepSeek است که براساس آن این شرکت چینی به پردازنده‌های گرافیکی Instinct از AMD دسترسی پیدا می‌کند و می‌تواند از نرم‌افزار ROCM در مراحل مهم توسعه مدل خود به ویژه برای مدل DeepSeek-V3 استفاده کند.

افزایش بهره‌وری و رویکرد متفاوت به آموزش

لینگ در جولای ۲۰۲۴ در مصاحبه‌ای با رسانه چینی 36Kr گفت که یکی از چالش‌های مهم شرکت‌های چینی علاوه بر تحریم‌های حوزه چیپ، بهره‌وری پایین ترفند‌های مهندسی هوش مصنوعی آنها است. او گفت‌: «ما برای رسیدن به نتایج مشابه باید دو برابر توان رایانشی مصرف کنیم. این در کنار شکاف موجود در بازدهی داده به این معنا است که ما به چهار برابر توان رایانشی بیشتری نیاز داریم. هدف ما این است که این شکاف را همواره کوچکتر کنیم.»

به نظر می‌رسد که شرکت چینی با رویکرد متفاوت دقیقا به همین هدف دست پیدا کرده است. نشریه فناوری MIT می‌گوید DeepSeek میزان استفاده از حافظه را کاهش داده و بدون ضربه جدی به دقت مدل‌ها، سرعت محاسبات را بیشتر کرده است.

مارینا ژانگ، استادیا دانشگاه فناوری سیدنی که به مطالعه نوآوری‌های چین مشغول است، در مصاحبه با مجله وایرد در این باره گفت: «برخلاف بسیاری از شرکت‌های هوش مصنوعی چینی که به شدت وابسته به دسترسی به سخت‌افزار پیشرفته هستند، DeepSeek روی بهینه‌سازی حداکثری بخش نرم‌افزار تمرکز کرده است. DeepSeek با استقبال از روش‌های متن‌باز، تخصص جمعی را جذب و نوآوری مشارکتی را ترویج داده است. این رویکرد نه تنها جلوی محدودیت‌های منابع را می‌گیرد بلکه توسعه فناوری‌های پیشرفته روز را تسریع می‌کند و DeepSeek را از رقبای منزوی‌تر متمایز می‌کند.»

وندی چانگ، مهندس نرم‌افزاری که حالا به عنوان تحلیل‌گر سیاست در موسسه Mercator برای مطالعات چین فعالیت دارد، می‌گوید: «آنها معماری مدل خود را با استفاده از چندین ترفند مهندسی بهینه‌سازی کردند-الگوهای ارتباطات شخصی‌سازی شده بین چیپ‌ها، کاهش اندازه میدان‌ها برای ذخیره حافظه و استفاده نوآوراننه از رویکرد ترکیب مدل‌ها. بسیاری از این رویکرد‌ها ایده جدیدی نیستند اما ترکیب موفق آنها برای ساخت یک مدل پیشتاز جالب توجه است.»

این شرکت همچنین پیشرفت قابل توجهی در دو ترفند Multi-head Latent Attention یا MLA و Mixture-of-Experts را رقم زده است. این دو ترفند به DeepSeek اجازه می‌دهد تا مدل‌های مقرون‌به‌صرفه‌ای را با منابع رایانشی کمتر آموزش دهد. موسسه تحقیقاتی Epoch AI می‌گوید، مدل جدید این شرکت به حدی بهینه است که تنها به یک دهم توان رایانشی مورد نیاز مدل Llama 3.1 شرکت متا برای آموزش نیاز دارد.

این شرکت طبق گزارش فوربز از MLA برای مدل DeepSeek-V3 استفاده کرده است که توان پردازش داده را با تشخیص روابط ظریف و اداره چندین جنبه از ورودی به صورت هم‌زمان، بهبود می‌بخشد.

علاوه بر این، رویکرد متن‌باز و اشتراک‌گذاری نوآوری‌ها توسط این شرکت باعث شده تا جایگاه معتبری در میان جامعه تحقیقاتی پیدا کند.

داده‌های مصنوعی

استفاده از داده‌های مصنوعی به نظر مرحله جدیدی برای مدل‌های هوش مصنوعی است که طبق برآورد فعالان این حوزه حالا تا آخرین قطره‌های داده‌های عمومی موجود در اینترنت را نیز استفاده کرده‌اند. تولید داده‌های مصنوعی یکی از نقاط قوت مدل‌های استدلال محور مثل o1 اوپن‌ای‌آی و R1 شرکت چینی است. شرکت اوپن‌ای‌آی پیشتر و پس از عرضه مدل استدلال محور خود اعلام کرده بود که یکی از کاربرد‌های احتمالی این مدل در حوزه تولید داده‌های با کیفیت مصنوعی است.

فوربز می‌گوید شرکت DeepSeek چندین مدل را به صورت فشرده یا تقطیر شده نیز ارائه می‌کند که با نام DeepSeek-R1-Distill شناخته می‌شوند و مبتنی بر مدل‌های محبوب متن‌بازی مثل Llama و Qwen هستند. این مدل‌ها با استفاده از داده‌های مصنوعی تولید شده توسط R1 تقویت شده‌اند.

مدل‌های فشرده سطح عملکرد و بهینه‌سازی متفاوتی دارند و برای توان رایانشی و سخت‌افزار‌های مختلف طراحی شده‌اند.

این شرکت چینی با تمامی نوآوری‌های خود توانسته است تا نه تنها به قهرمانی برای بازار داخلی چین و نمادی از غلبه بر تحریم‌ها در این کشور تبدیل شود بلکه در عرصه جهانی و حتی کشور‌های غربی نیز شهرتی برای خود دست و پا کند. گزارش‌های جدید نشان می‌دهد که اپلیکیشن هوش مصنوعی DeepSeek در حال حاضر بیشترین دانلود را در فروشگاه اپلیکیشن اپل در میان برنامه‌های رایگان هوش مصنوعی دارد.

سپیدنامه‌ای که آکادمی فناوری اطلاعات و ارتباطات چین (نهاد تحت حمایت دولت) سال گذشته منتشر کرده است مدعی است که تعداد مدل‌های بزرگ زبانی در جهان با ۱۳۲۸ مورد رسیده است که ۳۶ درصد از آن برآمده از چین هستند و در نتیجه این کشور در جایگاه دوم پس از آمریکا در عرصه بین‌المللی قرار می‌گیرد. با این حال عدم دسترسی به پردازنده‌های پیشرفته هوش مصنوعی ممکن است کار را برای شرکت‌های چینی در دراز مدت دشوار کند و با اینکه شرکت‌هایی مثل DeepSeek به لطف نوآوری و ذخایر قدیمی از پردازنده‌های انویدیا در حال حاضر عملکرد خیره‌کننده‌ای را به نمایش گذاشته‌اند، مشخص نیست که این بخش از جهان فناوری چین در بلند مدت توان هم‌پایی با رقبای آمریکایی خود را داشته باشد.

شرکت هواوی از جمله بزرگترین فعالان چینی است که برای تولید پردازنده‌های بومی و جایگزین کردن نمونه‌های آمریکایی با رویکرد متفاوت تلاش می‌کند اما گزارش‌ها حاکی از سرعت پایین تولید، عدم پاسخ‌گویی به تقاضای داخلی و معایب نرم‌افزاری است و همچنین عملکرد این پردازنده‌ها با نمونه‌های ساخته انویدیا قابل مقایسه نیست.

این مطالب را هم بخوانید: