تکنیک جدید می‌تواند عملکرد مدل‌های زبانی را تا 300x تسریع کند

صبا رضایی

نویسنده میهمان

۹ دی ۱۴۰۲

زمان مطالعه : ۵ دقیقه

محققان در ETH زوریخ (موسسه فناوری فدرال زوریخ) تکنیک جدیدی را توسعه دادند که به طرز چشمگیری می‌تواند سرعت عملکرد شبکه‌های عصبی هوش مصنوعی را افزایش دهد. آن‌ها روند استنتاجی را ارائه کردند که میزان محاسبات این شبکه‌ها را بسیار کاهش می‌دهد.

در آزمایشی که توسط BERT انجام شد، یک مدل تبدیل‌کننده در وظایف زبانی متنوع استخدام شد و محققان موفق شدند بیش از ۹۹ درصد از محاسبات را کاهش دهند. این تکنیک خلاقانه همچنین می‌تواند اعمال شود برای مدل‌های مبدلی که در مدل زبانی عظیم (LLM) مانند GPT-3 استفاده می‌شوند و امکان افزایش سرعت و کارآیی پروسه زبانی را ایجاد کند.

شبکه‌های سریع پیش‌خورد

مبدل‌ها، شبکه‎‌های عصبی بنیادی LLMs، تشکیل شده از لایه‌های متنوع مانند لایه‌های توجه و لایه‌های پیشخورد. مورد بعدی، بخش قابل توجهی از پارامترهای مدل را به خود اختصاص می‌دهد، از نظر محاسباتی مطالبه‌گر هستند باتوجه به نیاز محاسبه محصول از تمام نورون‌ها و ابعاد ورودی.

به هرروی، براساس یافته‌های محققان، نورون‌هایی که لایه‌های پیشخورد را دارند، در طی روند استنتاج هرورودی باید فعال شوند. آن‌ها توصیه می‌کنند به جای لایه‌های پیشخورد سنتی، از لایه‌های پیشخورد سریع (FFF) استفاده شود.

FFF استفاده می‌کند از یک عملیات ریاضی که به عنوان ضرب ماتریکس شرطی (CMM) شناخته می‌شود. که جایگزین ضرب ماتریکس متراکم (DMM) شده است و توسط شبکه‌های پیشخورد استفاده می‌شود.

در DMM، تمامی پارامترهای ورودی توسط شبکه نورونی تشدید می‌شوند ، روندی که از نظر محاسباتی هم‌زمان هم متمرکز و هم ناکارآمد است. به عبارتی دیگر، CMM استنباط را به گونه‌ای مدیریت می‌کند که ورودی‌ها به تعداد انگشت‌شماری نورون برای پردازش شبکه نیاز دارند.

با تشخیص نورون‌های درست برای هر محاسبه، FFF می‌تواند به طور چشمگیری بارگیری محاسباتی را کاهش دهد ، و آن را هدایت کند به مدل‌های زبانی کارآمدتر و سریع‌تر.

شبکه‌های ارائه پیشنهاد سریع در عمل

محققان برای معتبرکردن تکنیک‌های ابداعی‌شان، FastBERT یا همان مدل مبدل BERT گوگل را اصلاح کرده و توسعه دادند. FastBERT با جایگزین کردن لایه‌های میانی پیشخورد با لایه‌های سریع آن تحولی انقلابی ایجاد می‌کند. FFF نورون‌هایشان را به یک درخت دوتایی تبدیل می‌کند، با اجرای فقط یک شاخه به طور مشروط براساس ورودی.

برای ارزیابی کارآیی FastBERT ، محققان متغیرهای مختلف را در وظایف متعدد از زبان عمومی از ارزیابی درک عمومی زبان (GLUE) معیار تنظیم کردند. GLUE کلکسیون وسیعی از مجموعه داده‌هایی است که طراحی شده برای تمرین، ارزیابی و تحلیل زبان عادی درک سیستمی.

نتایج جالب بود، در مقایسه FastBERT با مدل پایه BERT در تشابه اندازه و فرآیند آموزشی. انواع FastBERT، تمرین دیده‌اند برای فقط یک روز در A6000 GPU، حداقل 96 درصد از مدل اجرای BERT اصلی را نگه می‌دارد. به طرز چشمگیری، بهترین مدل FastBERT آن‌ها تطابق دارد با برت اصلی، در حالی که فقط از 0.3 درصد از شبکه ارائه پیشنهادهای آن استفاده می‌شود.

محققان بر این باورند که گنجاندن شبکه‌های ارائه پیشنهاد سریع در مدل‌های زبانی بزرگ LLM ها، برای تسریع کردن فرآیند ظرفیت بسیاری دارد. برای مثال، در GPT-3، شبکه‌های ارائه پیشخورد در هر لایه مبدل، 49 هزار و 152 نورون دارند.

برطبق گفته یک محقق، این شبکه در صورتی که قابلیت آموزش داشته باشد، می‌تواند جایگزین شود با شبکه نورونی با عمق ماکسیمم 15، که شامل 65 هزار و 536 نورون می‌شود اما فقط از 16 تا برای استنتاج استفاده می شود، که مساوی است با 0.03 درصد از نورون های GPT-3 .

اتاقی برای پیشرفت

سخت‌افزارها و نرم‌افزارهای قابل ملاحظه‌ای برای بهینه‌سازی وجود دارند برای ضرب ماتریکس متراکم یا همان عملیات ریاضی استفاده شده در شبکه نورونی پیشنهاد سنتی.

یک محقق نوشت:«ضرب ماتریکس متراکم بیشترین عملیات بهینه شده ریاضیات در تاریخ محاسبه است. تلاش فوق‌العاده‌ای صورت گرفته برای طراحی حافظه، چیپ‌ها، مجموعه دستورالعمل‌ها و روتین نرم‌افزار که اجرا می‌کند با بیشترین سرعت ممکن. بسیاری از این پیشرفت‌ها برای پیچیدگی یا مزایای رقابتی آن رخ داده است – محرمانه و در معرض دید کاربر نهایی قرار می‌گیرند از مسیر قدرتمند اما از طریق رابط‌های برنامه نویسی محدود.»

در مقایسه، هیچ اجرای بومی و کارآمدی وجود ندارد برای ضرب ماتریکس شرطی، این عملیات در شبکه سریع ارائه پیشنهاد به کار می‌رود. هیچ چهارچوب یادگیری عمیقی پیشنهاد نمی‌کند رابطی را که می‌تواند مورد استفاده قرار بگیرد برای اجرای CMM در شبیه سازی سطح بالا.

محققان عملیات پیاده سازی خود از CMM براساس دستورالعمل‌های CPU و GPU توسعه دادند. این امر منجر شد به ارتقای 78x سرعت در پیاده سازی و اجرا.

به هرروی، محققان بر این باورند که با سخت‌افزار بهتر و پیاده سازی سطح پایین از الگوریتم، ظرفیتی وجود دارد برای ارتقای بیش از 300x در سرعت، این امر می‌تواند به طور قابل ملاحظه‌ای، منجر به یکی از بزرگترین چالش‌های مدل‌های زبانی شود – تعدادی از توکن ها که ایجاد می‌کند در ثانیه.

محققان در این‌باره نوشته‌اند: با قول تئوریک سرعت 341x از مقیاس مدل‌های پایه BERT، ما امیدواریم که تلاشمان الهام بخش یک تلاش برای پیاده‌سازی اصول اولیه برای اجرای عصبی شرطی به عنوان بخشی از رابط برنامه نویسی دستگاه باشد.

این تحقیق بخشی از تلاش گسترده‌تر برای برعهده گرفتن حافظه و محاسبه تنگناها از مدل‌های زبانی گسترده است و هموار کردن راه برای سیستم هوش مصنوعی کارآمدتر و قویتر.

این مطالب را هم بخوانید: