skip to Main Content
محتوای اختصاصی کاربران ویژهورود به سایت

فراموشی رمز عبور

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ عضو شوید

ثبت نام سایت

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ وارد شوید

فراموشی رمز عبور

وارد شوید یا عضو شوید

جشنواره نوروزی آنر

هواوی از فناوری متن‌باز SINQ برای کاهش مصرف حافظه مدل‌های زبانی بزرگ رونمایی کرد

۱۳ مهر ۱۴۰۴

زمان مطالعه : ۵ دقیقه

آزمایشگاه سیستم‌های محاسباتی هواوی در شهر زوریخ از یک روش نوین و متن‌باز رونمایی کرده است که می‌تواند مصرف حافظه در مدل‌های زبانی بزرگ (LLMs) را تا حد قابل توجهی کاهش داده و در نتیجه هزینه سخت‌افزاری را کمتر کند. این روش که بدون افت محسوس در کیفیت خروجی مصرف حافظه را کاشه می‌دهد، اجرای مدل‌های عظیم هوش مصنوعی را بر روی سخت‌افزارهای بسیار ارزان‌تر ممکن می‌کند.

به گزارش پیوست به نقل از ونچربیت،‌ این فناوری که با نام SINQ  مخفف عبارت Sinkhorn-Normalized Quantization معرفی شده است، به گفته‌ی تیم پژوهشگران شرکت هواوی، مصرف حافظه مدل‌های زبانی را بین ۶۰ تا ۷۰ درصد کاهش می‌دهد و درنتیجه توسعه‌دهندگان می‌توانند مدل‌هایی که پیش‌تر برای اجرا به بیش از ۶۰ گیگابایت حافظه نیاز داشتند را اکنون در تنظیمات حدود ۲۰ گیگابایتی اجرا کنند.

این کاهش مصرف حافظه، به‌ویژه برای کسانی که مدل‌های زبانی را روی پردازنده‌های گرافیکی بازار مصرفی همچون  Nvidia RTX 4090 اجرا می‌کنند، بسیار ارزشمند است.

هواوی می‌گوید هدف از توسعه SINQ،‌ ارائه یک روش سریع، بدون نیاز به کالیبراسیون یا واسنجی است که با محیط‌های فعلی سازگار باشد پژوهشگران و شرکت‌ها بتوانند مدل‌های خود را به‌سادگی فشرده‌سازی و روی سخت‌افزارهای معمولی اجرا کنند.

کاهش چشمگیر هزینه‌های سخت‌افزاری و ابری: RTX به جای H100

پیش از معرفی SINQ، اجرای مدل‌های زبانی بزرگ متن‌باز مانند Qwen3 یا LLaMA تنها بر روی پردازنده‌های گرافیکی پرقدرت سازمانی مانند A100 یا H100 شرکت انویدیا امکان‌پذیر بود که قیمت هرکدام بین ۱۹ تا ۳۰ هزار دلار متغیر است.

اما SINQ به پژوهشگران اجازه می‌دهد تا همین مدل‌‌ها را با پردازنده‌ای گرافیکی ارزان‌قیمت که بیشتر مصرف گیمینگ دارند، به اجرا بگذارند. برای مثال با استفاده از این روش می‌توان از پردازنده RTX 4090 برای اجرای مدل‌ها استفاده کرد که قیمت آن حدود ۱۶۰۰ دلار است و در نتیجه هزینه سخت‌افزار به کمتر از یک‌دهم سطح قبلی کاهش پیدا می‌کند.

تاثیر این مدل بر محیط‌های ابری نیز جالب توجه است. به عنوان مثال، اجاره‌ی پردازنده‌های گرافیکی A100 در سرویس‌های ابری حدود ۳ تا ۴.۵ دلار در ساعت هزینه دارد، در حالی که کارت‌هایی مانند RTX 4090 معمولا با هزینه‌ ۱ تا ۱.۵ دلار در ساعت اجاره داده می‌شوند برای تیم‌هایی که به‌صورت طولانی‌مدت مدل‌های زبانی را اجرا می‌کنند، این تفاوت به معنای صرفه‌جویی هزاران دلار هزینه ماهانه است.

چالش حافظه در مدل‌های زبانی

مدل‌های زبانی بزرگ به دلیل ساختار پیچیده‌شان، برای نگهداری و پردازش میلیاردها پارامتر به حافظه‌ی عظیمی نیاز دارند. این پارامترها معمولا به صورت اعداد اعشاری با دقت بالا ذخیره می‌شوند تا بتوانند مقادیر بسیار کوچک یا بزرگ را به‌طور دقیق نمایش دهند.

روش کوانتیزاسیون (Quantization) برای کاهش این مصرف حافظه ابداع شده است. در این فرآیند، دقت اعداد کاهش می‌یابد (مثلا از ۱۶ بیت به ۸ یا حتی ۴ بیت) اما کاهش بیش‌ازحد دقت، معمولا به افت کیفیت و خطا در نتایج منجر می‌شود.

به همین دلیل پژوهشگران هواوی در روش SINQ راه‌حلی میان‌بر ارائه کرده‌اند تا در عین مصرف حافظه کمتر، دقت داده‌های ذخیره‌ شده حفظ شود. این روش با استفاده از الگوریتمی الهام‌گرفته از نرمال‌سازی Sinkhorn-Knopp و بهره‌گیری از مقیاس‌پذیری دو‌محوره (Dual-Axis Scaling) برای هر ردیف و ستون از ماتریس وزن‌ها، توازن خطا را حفظ کرده و از بروز خطاهای شدید جلوگیری می‌کند.

به همین ترتیب SINQ توانسته است در بنچ‌مارک‌های رایجی مانند WikiText2 و C4، دقتی نزدیک به مدل‌های کامل را حفظ کند و در عین حال مصرف حافظه را تا دو‌سوم کاهش دهد.

سرعت و کارایی بالا

بر اساس نتایج منتشرشده، روش SINQ در مقایسه با سایر روش‌های رایج، عملکرد بسیار خوبی را به نمایش می‌گذارد. این روش حدود دو برابر سریع‌تر از HQQ در فرایند کوانتیزاسیون عمل می‌کند و بیش از ۳۰ برابر سریع‌تر از AWQ است، در حالی که کیفیت خروجی را در سطحی نزدیک به مدل‌های پر‌دقت نگه می‌دارد.

همچنین SINQ قابلیت ترکیب با روش‌های کالیبراسیون‌دار مانند AWQ را دارد که نسخه‌ای ترکیبی به نام A-SINQ را ایجاد می‌کند؛ این نسخه در برخی مدل‌ها اختلاف دقت با نسخه‌ی اصلی را تقریبا به صفر کاهش می‌دهد.

پروژه متن‌باز و قابل استفاده عموم

یکی از ویژگی‌های کلیدی پروژه SINQ، انتشار متن‌باز آن با مجوز Apache 2.0 است. این مجوز که امکان استفاده را برای شرکت‌های تجاری نیز فراهم می‌کند، به توسعه‌دهندگان اجازه می‌دهد کد را آزادانه دریافت کرده، تغییر داده و در محصولات تجاری خود به‌کار گیرند.

هواوی کد منبع SINQ را در GitHub و Hugging Face منتشر کرده است. این نسخه شامل ابزارهایی برای کوانتیزاسیون مدل‌های Hugging Face تنها با چند خط کد است و به کاربران امکان می‌دهد پارامترهایی مانند bit-width، استراتژی tile و اندازه گروه‌ها را تنظیم کنند.

به گفته تیم پژوهشی، نسخه‌های از پیش کوانتیزه‌شده (pre-quantized) از مدل‌های معروف نیز به‌زودی در Hugging Face Hub منتشر خواهند شد.

گامی مهم در دموکراتیزه‌کردن هوش مصنوعی

هواوی در بیانیه خود اعلام کرده است که هدف از توسعه SINQ، فراهم کردن امکان اجرای مدل‌های زبانی بزرگ برای تیم‌ها کوچک و پژوهشگران مستقل است؛ گروه‌هایی که تاکنون به دلیل محدودیت منابع مالی یا سخت‌افزاری قادر به اجرای LLMهای عظیم نبودند.

با رشد سریع تقاضا برای مدل‌های زبانی و نیاز به اجرای آن‌ها روی سخت‌افزارهای مصرفی، ابزارهایی مانند SINQ می‌توانند راه را برای دموکراتیزه شدن فناوری هوش مصنوعی هموار کنند تا در آینده جهان فناوری، دسترسی به مدل‌های قدرتمند دیگر در انحصار شرکت‌های بزرگ نباشد.

 

https://pvst.ir/mjv

0 نظر

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

*

برای بوکمارک این نوشته
Back To Top
جستجو