ترامپ: دیپسیک، زنگ هشدار برای شرکتهای فناوری آمریکا است
رئیسجمهور آمریکا، دونالد ترامپ، ظهور شرکت چینی دیپسیک (DeepSeek) را «زنگ هشدار» برای صنعت فناوری…
۹ بهمن ۱۴۰۳
۸ بهمن ۱۴۰۳
زمان مطالعه : ۷ دقیقه
شرکت چینی DeepSeek در هفتههای اخیر به پدیدهای در جهان فناوری تبدیل شده است و به ویژه با عرضه مدل استدلالمحور R1 که در رقابت با o1 اوپنایآی قرار میگیرد نه تنها در چین، بلکه در عرصه بینالمللی نیز به یک وزنه قدرتمند بدل شد. این شرکت که زاده صندوق سرمایه High-Flyer است با رویکردی متفاوت علاوه بر کاهش توان رایانشی مورد نیاز برای آموزش، هزینه ارائه خروجی مدلهای خود را نیز به شکل قابل توجهی در قیاس با رقبای غربی کاهش داده است.
به گزارش پیوست، به نظر میرسد که این شرکت چینی با ترکیبی از رویکرد متفاوت به آموزش، استفاده از دادههای مصنوعی، ذخیره پردازندههای پیشرفته و همکاری با شرکت AMD به چنین جایگاهی دست یافته و زنگ خطر را برای رقبای آمریکایی و به ویژه شرکت متا به صدا در آورده است.
همچنین یکی از برتریهای همیشگی فعالان چین، یعنی هزینه پایین نیروی کار در قیاس با شرکتهای آمریکا نیز به یاری DeepSeek آمده است و علاوه بر این هزینه پایین برق چین در مقایسه با آمریکا نیز به شکل قابل توجهی مخارج این شرکت را کاهش داده است.
دیپسیک در جولای ۲۰۲۳ توسط لیانگ ونفنگ، فارغالتحصیل دانشگاه ججیانگ با پس زمینهای در اطلاعات و مهندسی برق، بنیانگذاری شد. لیانگ نیز همانند سم آلتمن برای رسیدن به هوش مصنوعی عمومی یا AGI تلاش میکند و سرمایه خود را از صندوقی به نام High-Flyer میگیرد که در سال ۲۰۱۵ توسط لیانگ بنیانگذاری شد.
این شرکت طبق گزارشی از نشریه فناوری MIT به نقل از رسانه 36Kr چین پیش از تحریمهای آمریکا بر پردازندههای پیشرفته هوش مصنوعی، که به تازگی شدت بیشتری پیدا کردند، تعداد زیادی از این پردازندههای را ذخیره کرده است. رسانه چینی میگوید این شرکت حدود ۱۰ هزار واحد از چیپهای A100 انویدیا را در اختیار دارد و دادههای خارجی از تعداد بیشتر و حدود ۵۰ هزارتایی این ذخیره حکایت دارد. دیلان پاتل، بنیانگذار گروه شرکت مشاوره تحقیقات هوش مصنوعی SemiAnalysis میگوید DeepSeek حداقل ۵۰ هزار پردازنده انویدیا را پیش از تحریمها ذخیره کرده است.
علاوه بر این گزارشی از مجله فوربز نیز به همکاری استراتژیک شرکت چینی با دومین تولیدکننده بزرگ پردازندههای گرافیکی یا همان شرکت AMD اشاره میکند. فوربز میگوید همکاری با AMD یکی از مهمترین روابط استراتژیک DeepSeek است که براساس آن این شرکت چینی به پردازندههای گرافیکی Instinct از AMD دسترسی پیدا میکند و میتواند از نرمافزار ROCM در مراحل مهم توسعه مدل خود به ویژه برای مدل DeepSeek-V3 استفاده کند.
لینگ در جولای ۲۰۲۴ در مصاحبهای با رسانه چینی 36Kr گفت که یکی از چالشهای مهم شرکتهای چینی علاوه بر تحریمهای حوزه چیپ، بهرهوری پایین ترفندهای مهندسی هوش مصنوعی آنها است. او گفت: «ما برای رسیدن به نتایج مشابه باید دو برابر توان رایانشی مصرف کنیم. این در کنار شکاف موجود در بازدهی داده به این معنا است که ما به چهار برابر توان رایانشی بیشتری نیاز داریم. هدف ما این است که این شکاف را همواره کوچکتر کنیم.»
به نظر میرسد که شرکت چینی با رویکرد متفاوت دقیقا به همین هدف دست پیدا کرده است. نشریه فناوری MIT میگوید DeepSeek میزان استفاده از حافظه را کاهش داده و بدون ضربه جدی به دقت مدلها، سرعت محاسبات را بیشتر کرده است.
مارینا ژانگ، استادیا دانشگاه فناوری سیدنی که به مطالعه نوآوریهای چین مشغول است، در مصاحبه با مجله وایرد در این باره گفت: «برخلاف بسیاری از شرکتهای هوش مصنوعی چینی که به شدت وابسته به دسترسی به سختافزار پیشرفته هستند، DeepSeek روی بهینهسازی حداکثری بخش نرمافزار تمرکز کرده است. DeepSeek با استقبال از روشهای متنباز، تخصص جمعی را جذب و نوآوری مشارکتی را ترویج داده است. این رویکرد نه تنها جلوی محدودیتهای منابع را میگیرد بلکه توسعه فناوریهای پیشرفته روز را تسریع میکند و DeepSeek را از رقبای منزویتر متمایز میکند.»
وندی چانگ، مهندس نرمافزاری که حالا به عنوان تحلیلگر سیاست در موسسه Mercator برای مطالعات چین فعالیت دارد، میگوید: «آنها معماری مدل خود را با استفاده از چندین ترفند مهندسی بهینهسازی کردند-الگوهای ارتباطات شخصیسازی شده بین چیپها، کاهش اندازه میدانها برای ذخیره حافظه و استفاده نوآوراننه از رویکرد ترکیب مدلها. بسیاری از این رویکردها ایده جدیدی نیستند اما ترکیب موفق آنها برای ساخت یک مدل پیشتاز جالب توجه است.»
این شرکت همچنین پیشرفت قابل توجهی در دو ترفند Multi-head Latent Attention یا MLA و Mixture-of-Experts را رقم زده است. این دو ترفند به DeepSeek اجازه میدهد تا مدلهای مقرونبهصرفهای را با منابع رایانشی کمتر آموزش دهد. موسسه تحقیقاتی Epoch AI میگوید، مدل جدید این شرکت به حدی بهینه است که تنها به یک دهم توان رایانشی مورد نیاز مدل Llama 3.1 شرکت متا برای آموزش نیاز دارد.
این شرکت طبق گزارش فوربز از MLA برای مدل DeepSeek-V3 استفاده کرده است که توان پردازش داده را با تشخیص روابط ظریف و اداره چندین جنبه از ورودی به صورت همزمان، بهبود میبخشد.
علاوه بر این، رویکرد متنباز و اشتراکگذاری نوآوریها توسط این شرکت باعث شده تا جایگاه معتبری در میان جامعه تحقیقاتی پیدا کند.
استفاده از دادههای مصنوعی به نظر مرحله جدیدی برای مدلهای هوش مصنوعی است که طبق برآورد فعالان این حوزه حالا تا آخرین قطرههای دادههای عمومی موجود در اینترنت را نیز استفاده کردهاند. تولید دادههای مصنوعی یکی از نقاط قوت مدلهای استدلال محور مثل o1 اوپنایآی و R1 شرکت چینی است. شرکت اوپنایآی پیشتر و پس از عرضه مدل استدلال محور خود اعلام کرده بود که یکی از کاربردهای احتمالی این مدل در حوزه تولید دادههای با کیفیت مصنوعی است.
فوربز میگوید شرکت DeepSeek چندین مدل را به صورت فشرده یا تقطیر شده نیز ارائه میکند که با نام DeepSeek-R1-Distill شناخته میشوند و مبتنی بر مدلهای محبوب متنبازی مثل Llama و Qwen هستند. این مدلها با استفاده از دادههای مصنوعی تولید شده توسط R1 تقویت شدهاند.
مدلهای فشرده سطح عملکرد و بهینهسازی متفاوتی دارند و برای توان رایانشی و سختافزارهای مختلف طراحی شدهاند.
این شرکت چینی با تمامی نوآوریهای خود توانسته است تا نه تنها به قهرمانی برای بازار داخلی چین و نمادی از غلبه بر تحریمها در این کشور تبدیل شود بلکه در عرصه جهانی و حتی کشورهای غربی نیز شهرتی برای خود دست و پا کند. گزارشهای جدید نشان میدهد که اپلیکیشن هوش مصنوعی DeepSeek در حال حاضر بیشترین دانلود را در فروشگاه اپلیکیشن اپل در میان برنامههای رایگان هوش مصنوعی دارد.
سپیدنامهای که آکادمی فناوری اطلاعات و ارتباطات چین (نهاد تحت حمایت دولت) سال گذشته منتشر کرده است مدعی است که تعداد مدلهای بزرگ زبانی در جهان با ۱۳۲۸ مورد رسیده است که ۳۶ درصد از آن برآمده از چین هستند و در نتیجه این کشور در جایگاه دوم پس از آمریکا در عرصه بینالمللی قرار میگیرد. با این حال عدم دسترسی به پردازندههای پیشرفته هوش مصنوعی ممکن است کار را برای شرکتهای چینی در دراز مدت دشوار کند و با اینکه شرکتهایی مثل DeepSeek به لطف نوآوری و ذخایر قدیمی از پردازندههای انویدیا در حال حاضر عملکرد خیرهکنندهای را به نمایش گذاشتهاند، مشخص نیست که این بخش از جهان فناوری چین در بلند مدت توان همپایی با رقبای آمریکایی خود را داشته باشد.
شرکت هواوی از جمله بزرگترین فعالان چینی است که برای تولید پردازندههای بومی و جایگزین کردن نمونههای آمریکایی با رویکرد متفاوت تلاش میکند اما گزارشها حاکی از سرعت پایین تولید، عدم پاسخگویی به تقاضای داخلی و معایب نرمافزاری است و همچنین عملکرد این پردازندهها با نمونههای ساخته انویدیا قابل مقایسه نیست.