متا از مدل‌های جدید Llama 4 رونمایی کرد

مهدی جعفری مترجم

۱۷ فروردین ۱۴۰۴

زمان مطالعه : ۶ دقیقه

شرکت متا با معرفی نسل جدید مدل‌های زبان هوش مصنوعی خود با نام Llama 4، بار دیگر در مسیر توسعه مدل‌های متن‌باز و چندرسانه‌ای گام برداشت. این مجموعه شامل سه مدل جدید با نام‌های Llama 4 Scout، Llama 4 Maverick و Llama 4 Behemoth است که هرکدام با ویژگی‌ها و توانمندی‌های منحصر به فرد، بخشی از جهان هوش مصنوعی را هدف می‌گیرند.

به گزارش پیوست، پست وبلاگی متا درمورد عرضه مدل‌های جدید هوش مصنوعی نشان می‌دهد که غول شبکه اجتماعی به شکل قابل توجهی پنجره محتوای این مدل‌ها را گسترش داده است. متا همچنین در مدل جدید خود از ترفند ترکیب متخصصان یا MoE کمک گرفته است، ترفندی که باعث افزایش بازدهی مدل‌های شرکت دیپ‌سیک شده بود.

مدل‌های Scout و Maverick

مدل‌های Llama 4 Scout و Llama 4 Maverick نخستین مدل‌های متن‌باز شرکت متا هستند که از تعامل چندرسانه‌ای (Multimodal) پشتیبانی می‌کنند و پنجره محتوایی (Context Length) بسیار گسترده‌ای دارند. این دو مدل برای استفاده عمومی، تحقیقاتی و تجاری در وب‌سایت Llama.com و پلتفرم Hugging Face قابل دانلود هستند.

Llama 4 Scout با ۱۷ میلیارد پارامتر فعال و ۱۶ متخصص، با معماری iRoPE است. به گفته متا حرف i در این نام‌گذاری به معنی لایه‌های توجه «جاگذاری شده» است و به هدف نهایی یا پنجره محتوای نامحدود اشاره می‌کند. عبارت «RoPE» نیز به مفهوم «تعبیه جایگاه گردان» در بیشتر لایه‌ها اشاره دارد. این مدل پنجره محتوایی را به شکل قابل توجهی گسترش داده است و می‌تواند تا ۱۰ میلیون توکن را در یک ورودی پردازش کند؛ رقمی بی‌سابقه در میان مدل‌های متن‌باز. این ویژگی امکان پردازش اسناد حجیم، تحلیل داده‌های کاربری در مقیاس وسیع و بررسی پایگاه‌های کد گسترده را فراهم می‌کند.
Llama 4 Maverick نیز با ۱۷ میلیارد پارامتر فعال و ۱۲۸ متخصص، ترکیبی از دقت در درک زبان و تصویر را ارائه می‌دهد و برای استفاده به عنوان دستیار هوش مصنوعی عمومی طراحی شده است. این مدل از آموزش مبتنی بر ترکیب متخصصان (MoE)، یادگیری تقویتی آنلاین و بهینه‌سازی مستقیم ترجیحات برای ارتقای عملکرد بهره برده است. با این حال این مدل پنجره محتوایی محدودتری و به اندازه یک میلیون توکن دارد.
Llama 4 Scout نیز تلاش متا برای سلطه بر بخش چند رسانه‌ای است. این مدل که بر عکس و ویدیو تمرکز دارد، براساس پست وبلاگی متا به خوبی پرامپ‌های کاربران را با مفاهیم دیداری ارتباط می‌دهد و می‌تواند به سوالات با محتوای دیداری پاسخ دهد. البته این مدل در زمینه کدنویسی، استدلال، محتوای طولانی و نیز عملکرد بهینه‌ای دارد و در بنچمارک‌های تصویری نیز عملکرد بهتری را نسبت به تمام نسخه‌های پیشین Llama به ثبت رسانده است. این مدل از ۱۰.۴ میلیون توکن و ویدیو‌هایی با طول ۲۰ ساعت پشتیبانی می‌کند.

عملکرد سه مدل جدید شرکت متا در آزمون «سوزن در انبار کاه» که براساس آن مدل‌های هوش مصنوعی باید در محتوای ارائه شده هدف مشخصی را شناسایی و استخراج کنند. مربع‌های آبی نشان‌دهنده موفقیت مدل و مربع‌های موارد شکست هستند.

Behemoth؛ غول دو تریلیون پارامتری

متا همچنین در کنار مدل‌های جدید خود از Llama 4 Behemoth نیز رونمایی کرده است. این مدل در واقع معلمی مملو از اطلاعات برای مدل‌های کوچک است. این مدل آموزشی با حدود دو تریلیون پارامتر و ۲۸۸ میلیارد پارامتر فعال به عنوان معلم اصلی برای مدل‌های کوچک‌تر در نظر گرفته شده است.

به گفته متا، این غول دو هزار میلیارد پارامتری یکی از بهترین مدل‌های غیراستدلال‌گر با عملکردی پیشرفته در حوزه‌های کدنویسی، ریاضیات و زبان‌های چندگانه است که در تست‌های استاندارد توانسته است برترین مدل‌ها نظیر GPT-4.5، Claude 3.7 و Gemini 2.0 را پشت سر بگذارد.

مدل Behemoth از یک فرآیند آموزش مبتکرانه بهره می‌برد که شامل آموزش تقویتی آنلاین پویا، پالایش سخت‌گیرانه داده‌ها و طراحی زیرساخت‌های خاص برای مدیریت مدل در مقیاس بزرگ است.

امنیت و کاهش سوگیری

متا می‌گوید در توسعه مدل‌های نسل چهارمی خود تمرکز ویژه‌ای بر بهبود امنیت دارد. طبق پست وبلاگی متا، این شرکت در هر لایه از روند توسعه مدل از پیش آموزش تا پسا آموزش، محافظت‌هایی را اعمال کرده است که از توسعه دهندگان نهایی در برابر سو استفاده کنندگان محافظت می‌کند.

متا در پیش آموزش، ترکیبی از فیلتر داده را در کنار دیگر محافظت‌ها به کار برده است. در مرحله پسا آموزش نیز متا می‌گوید از چندین ترفند برای تضمین پیروی از سیاست‌ها کمک گرفته است که برای توسعه دهنده و کاربر نهایی مفید است و همچنین امنیت داده را نیز افزایش می‌دهد.

متا در سطح سیستم از ابزارهایی همچون Llama Guard و Prompt Guard برای جلوگیری از تولید محتوای مضر و مقابله با حملات متنی و مهندسی اجتماعی کمک گرفته است. Llama Guard یک مدل زبانی بزرگ برای امنیت ورودی و خروجی است. توسعه دهندگان می‌توانند از این ابزار برای نظارت بر نقض سیاست‌های خود در ورودی و خروجی هوش مصنوعی استفاده کنند.

ابزار Prompt Guard نیز یک مدمل طبقه‌بندی کننده است که براساس طیف گسترده‌ای از حملات آموزش دیده می‌تواند پرامپت‌های آلوده با هدف جیل‌بریک و همچنین پرامپت‌های آلوده با هدف تزریق ورودی را شناسایی کند.

خدمت دیگر متا در بخش امنیت نیز CyperSecEval است که به مدل هوش مصنوعی و توسعه دهندگان محصولی در درک و کاهش خطر امنیت سایبری هوش مصنوعی کمک می‌کند.

همچنین با معرفی روش ارزیابی GOAT، تیم متا موفق به شبیه‌سازی سناریوهای تهدیدآمیز در تعاملات چندمرحله‌ای شده تا آسیب‌پذیری مدل‌ها را به‌طور مؤثر بررسی کند.

متا همچنین در مدل‌های جدید خود تمرکز ویژه‌ای بر سوگیری داشته است. طبق پست وبلاگی شرکت، متا برای رفع این مشکل تلاش کرده تا مطمئن شود که مدل‌های هوش مصنوعی جدید می‌توانند از نقطه‌نظر‌های مختلف به درخواست‌ها پاسخ دهند و دیدگاه خاصی را نسبت به دیگران در اولویت قرار ندهند.

متا می‌گوید اقدامات جدید شرکت باعث کاهش سوگیری در مدل‌های نسل چهارمی شده است. بر اساس ارزیابی‌ها، نرخ پاسخ‌های همراه با سوگیری در Llama 4 نسبت به نسخه‌های قبلی به‌شدت کاهش یافته است و میزان رد پاسخ به سوالات حساس از ۷ درصد در نسخه ۳.۳ به کمتر از ۲ درصد در نسخه جدید رسیده است.

تمرکز بر رویکرد متن‌باز و دسترسی آزاد

متا که از ابتدای فعالیت خود در بخش هوش مصنوعی بر رویرکد رویکرد بازمتن یا Open Source تاکید کرده است، مدل‌های جدید را نیز گام دیگری در خدمت جامعه متن‌باز می‌داند. متا می‌گوید، توسعه‌دهندگان، محققان و شرکت‌ها اکنون می‌توانند مدل‌های Scout و Maverick را از طریق وب‌سایت رسمی متا و Hugging Face دریافت کرده و در پروژه‌های خود به‌کار بگیرند. این مدل‌ها همچنین در پیام‌رسان‌هایی نظیر واتساپ، مسنجر و اینستاگرام نیز برای کاربران قابل استفاده هستند.

متا همچنین اعلام کرده است که این مدل‌ها ابتدای مسیر طولانی این شرکت در بخش هوش مصنوعی محسوب می‌شوند و جزئیات بیشتر درباره نقشه راه Llama 4 و پروژه‌های آتی، در رویداد اختصاصی LlamaCon که در تاریخ ۲۹ آوریل برگزار خواهد شد، ارائه می‌شود.

این مطالب را هم بخوانید: