هوش مصنوعی در خدمت شرکتها و سازمانها: یکچهارم بیانیههای خبری با کمک AI نوشته میشوند
نتایج یک مطالعه جدید نشان میدهد که هوش مصنوعی اکنون به یکی از نیروهای اصلی…
۱۳ مهر ۱۴۰۴
۱۳ مهر ۱۴۰۴
زمان مطالعه : ۵ دقیقه
آزمایشگاه سیستمهای محاسباتی هواوی در شهر زوریخ از یک روش نوین و متنباز رونمایی کرده است که میتواند مصرف حافظه در مدلهای زبانی بزرگ (LLMs) را تا حد قابل توجهی کاهش داده و در نتیجه هزینه سختافزاری را کمتر کند. این روش که بدون افت محسوس در کیفیت خروجی مصرف حافظه را کاشه میدهد، اجرای مدلهای عظیم هوش مصنوعی را بر روی سختافزارهای بسیار ارزانتر ممکن میکند.
به گزارش پیوست به نقل از ونچربیت، این فناوری که با نام SINQ مخفف عبارت Sinkhorn-Normalized Quantization معرفی شده است، به گفتهی تیم پژوهشگران شرکت هواوی، مصرف حافظه مدلهای زبانی را بین ۶۰ تا ۷۰ درصد کاهش میدهد و درنتیجه توسعهدهندگان میتوانند مدلهایی که پیشتر برای اجرا به بیش از ۶۰ گیگابایت حافظه نیاز داشتند را اکنون در تنظیمات حدود ۲۰ گیگابایتی اجرا کنند.
این کاهش مصرف حافظه، بهویژه برای کسانی که مدلهای زبانی را روی پردازندههای گرافیکی بازار مصرفی همچون Nvidia RTX 4090 اجرا میکنند، بسیار ارزشمند است.
هواوی میگوید هدف از توسعه SINQ، ارائه یک روش سریع، بدون نیاز به کالیبراسیون یا واسنجی است که با محیطهای فعلی سازگار باشد پژوهشگران و شرکتها بتوانند مدلهای خود را بهسادگی فشردهسازی و روی سختافزارهای معمولی اجرا کنند.
پیش از معرفی SINQ، اجرای مدلهای زبانی بزرگ متنباز مانند Qwen3 یا LLaMA تنها بر روی پردازندههای گرافیکی پرقدرت سازمانی مانند A100 یا H100 شرکت انویدیا امکانپذیر بود که قیمت هرکدام بین ۱۹ تا ۳۰ هزار دلار متغیر است.
اما SINQ به پژوهشگران اجازه میدهد تا همین مدلها را با پردازندهای گرافیکی ارزانقیمت که بیشتر مصرف گیمینگ دارند، به اجرا بگذارند. برای مثال با استفاده از این روش میتوان از پردازنده RTX 4090 برای اجرای مدلها استفاده کرد که قیمت آن حدود ۱۶۰۰ دلار است و در نتیجه هزینه سختافزار به کمتر از یکدهم سطح قبلی کاهش پیدا میکند.
تاثیر این مدل بر محیطهای ابری نیز جالب توجه است. به عنوان مثال، اجارهی پردازندههای گرافیکی A100 در سرویسهای ابری حدود ۳ تا ۴.۵ دلار در ساعت هزینه دارد، در حالی که کارتهایی مانند RTX 4090 معمولا با هزینه ۱ تا ۱.۵ دلار در ساعت اجاره داده میشوند برای تیمهایی که بهصورت طولانیمدت مدلهای زبانی را اجرا میکنند، این تفاوت به معنای صرفهجویی هزاران دلار هزینه ماهانه است.
مدلهای زبانی بزرگ به دلیل ساختار پیچیدهشان، برای نگهداری و پردازش میلیاردها پارامتر به حافظهی عظیمی نیاز دارند. این پارامترها معمولا به صورت اعداد اعشاری با دقت بالا ذخیره میشوند تا بتوانند مقادیر بسیار کوچک یا بزرگ را بهطور دقیق نمایش دهند.
روش کوانتیزاسیون (Quantization) برای کاهش این مصرف حافظه ابداع شده است. در این فرآیند، دقت اعداد کاهش مییابد (مثلا از ۱۶ بیت به ۸ یا حتی ۴ بیت) اما کاهش بیشازحد دقت، معمولا به افت کیفیت و خطا در نتایج منجر میشود.
به همین دلیل پژوهشگران هواوی در روش SINQ راهحلی میانبر ارائه کردهاند تا در عین مصرف حافظه کمتر، دقت دادههای ذخیره شده حفظ شود. این روش با استفاده از الگوریتمی الهامگرفته از نرمالسازی Sinkhorn-Knopp و بهرهگیری از مقیاسپذیری دومحوره (Dual-Axis Scaling) برای هر ردیف و ستون از ماتریس وزنها، توازن خطا را حفظ کرده و از بروز خطاهای شدید جلوگیری میکند.
به همین ترتیب SINQ توانسته است در بنچمارکهای رایجی مانند WikiText2 و C4، دقتی نزدیک به مدلهای کامل را حفظ کند و در عین حال مصرف حافظه را تا دوسوم کاهش دهد.
بر اساس نتایج منتشرشده، روش SINQ در مقایسه با سایر روشهای رایج، عملکرد بسیار خوبی را به نمایش میگذارد. این روش حدود دو برابر سریعتر از HQQ در فرایند کوانتیزاسیون عمل میکند و بیش از ۳۰ برابر سریعتر از AWQ است، در حالی که کیفیت خروجی را در سطحی نزدیک به مدلهای پردقت نگه میدارد.
همچنین SINQ قابلیت ترکیب با روشهای کالیبراسیوندار مانند AWQ را دارد که نسخهای ترکیبی به نام A-SINQ را ایجاد میکند؛ این نسخه در برخی مدلها اختلاف دقت با نسخهی اصلی را تقریبا به صفر کاهش میدهد.
یکی از ویژگیهای کلیدی پروژه SINQ، انتشار متنباز آن با مجوز Apache 2.0 است. این مجوز که امکان استفاده را برای شرکتهای تجاری نیز فراهم میکند، به توسعهدهندگان اجازه میدهد کد را آزادانه دریافت کرده، تغییر داده و در محصولات تجاری خود بهکار گیرند.
هواوی کد منبع SINQ را در GitHub و Hugging Face منتشر کرده است. این نسخه شامل ابزارهایی برای کوانتیزاسیون مدلهای Hugging Face تنها با چند خط کد است و به کاربران امکان میدهد پارامترهایی مانند bit-width، استراتژی tile و اندازه گروهها را تنظیم کنند.
به گفته تیم پژوهشی، نسخههای از پیش کوانتیزهشده (pre-quantized) از مدلهای معروف نیز بهزودی در Hugging Face Hub منتشر خواهند شد.
هواوی در بیانیه خود اعلام کرده است که هدف از توسعه SINQ، فراهم کردن امکان اجرای مدلهای زبانی بزرگ برای تیمها کوچک و پژوهشگران مستقل است؛ گروههایی که تاکنون به دلیل محدودیت منابع مالی یا سختافزاری قادر به اجرای LLMهای عظیم نبودند.
با رشد سریع تقاضا برای مدلهای زبانی و نیاز به اجرای آنها روی سختافزارهای مصرفی، ابزارهایی مانند SINQ میتوانند راه را برای دموکراتیزه شدن فناوری هوش مصنوعی هموار کنند تا در آینده جهان فناوری، دسترسی به مدلهای قدرتمند دیگر در انحصار شرکتهای بزرگ نباشد.