مدل‌های زبانی منبع باز، رونمایی از قدرت جدید

یسنا امان‌پور تحریریه

۱۴ دی ۱۴۰۲

زمان مطالعه : ۴ دقیقه

قابلیت‌های مدل‌های زبانی کوچک در مقایسه با مدل‌های بزرگ به دنبال پیشرفت هوش مصنوعی نشان از توانمندی و تاثیرگذاری این مدل‌ها دارد. افزایش عملکرد مدل‌های زبانی کوچک برخلاف باور قبلی، نیازمند تغییر در اندازه آن‌ها نیست. اکوسیستم متن باز از محوری‌ترین عوامل در ساز و کار LLM است.

به گزارش پیوست، تغییر الگو در مدل‌های زبانی زمانی اتفاق افتاد که که شرکت متا مدل زبانی Llama را معرفی کرد. این مدل زبانی با اندازه متفاوت از ۷ تا ۶۵ میلیارد پارامتر نشان داد که مدل‌های زبانی کوچک هم می‌توانند با عملکرد LLMهای بزرگتر رقابت کنند.

آغاز یک تغییر

ظهور ChatGPT در اواخر سال ۲۰۲۲ موجب ایجاد رقابت میان شرکت‌های حوزه فناوری برای تسلط به بازار رو به رشد اپلیکیشن‌های مدل زبانی بزرگ(LLM) شد.

در نتیجه این رقابت شدید، بیشتر شرکت‌ها تصمیم گرفتند مدل‌های زبانی خود را به عنوان خدمات اختصاصی ارائه دهند و دسترسی به API را بدون آشکار کردن وزن‌های مدل اصلی یا ویژگی‌های مجموعه داده‌های آموزشی و روش‌شناسی به فروش برسانند.

علی‌رغم گرایش به مدل‌های خصوصی، در سال ۲۰۲۳ شاهد موجی در اکوسیستم متن باز بودیم که با انتشار مدل‌هایی مشخص می‌شد که قابلیت اجرا بر سرورها و سفارشی‌سازی شدن برای برنامه‌های خاص را دارد.

اکوسیستم متن باز با مدل‌های خصوصی همگام شده و نقش خود را به عنوان یک بازیگر محوری در چشم‌انداز ساز و کار LLM تثبیت کرده است.

تغییر موازنه، مدل‌های زبانی کوچک هم موفق هستند

تا پیش از سال ۲۰۲۳ باور غالب این بود که افزایش عملکرد LLMها نیازمند افزایش اندازه مدل است. مدل‌های متن باز مانند BLOOM و OPT در مقایسه با ChatGPT-3 OpenAI‌با ۱۷۵ میلیارد پارامتر نماد این رویکرد بود.

اگر چه این مدل‌های بزرگ در دسترس عموم است اما برای اجرای موثر به منابع محاسباتی و دانش تخصصی سازمان‌های بزرگ احتیاج دارد.

این رویکرد و این الگو، زمانی که شرکت متا مدل زبانی Llama را معرفی کرد دچار تغییر شد. این مدل زبانی با اندازه متفاوت از ۷ تا ۶۵ میلیارد پارامتر نشان داد که مدل‌های زبانی کوچک هم می‌توانند با عملکرد LLMهای بزرگتر رقابت کنند.

کلید موفقیت این مدل زبانی آموزش روی مجموعه‌ای از داده‌های بسیار بزرگتر بود. در حالی که ChatGPT-3 تقریبا روی ۳۰۰ میلیارد توکن آموزش دیده بود، مدل‌های LIama تا ۱.۴ تریلیون توکن را دریافت کردند. این استراتژی آموزش مدل‌های فشرده‌تر روی یک مجموعه داده توکن توسعه‌یافته ثابت کرد که مدل‌های زبانی کوچک هم می‌تواند یک بازی را تغییر دهد و این تصور را که اندازه تنها محرک اثربخشی LLM است به چالش بکشد.

مزایای مدل‌های منبع باز

ظرفیت کار روی یک یا چند پردازنده گرافیکی و انتشار متن باز، ۲ ویژگی مدل زبانی LIama است. انتشار این مدل زبانی باعث تسریع ظهور یکسری از LLMهای منبع باز شد که هر کدام جنبه‌های جدیدی را به این اکوسیستم اضافه می‌کند.

پس از انتشار مدل زبانی LIama2 توسط شرکت متا در ماه جولای، این مدل به سرعت مبنای مدل‌های مشتق متعددی قرار گرفت. Mistral.AI با انتشار دو مدل Mistral و Mixtral تاثیر قابل توجهی در روند این امر داشت. به ویژه مورد دوم که به دلیل قابلیت‌ها و مقرون به صرفه بودن آن مورد توجه قرار گرفت.

از زمان انتشار نسخه اصلی Llama توسط متا، LLMهای منبع باز رشد شتابانی را داشته و آخرین LLM منبع باز، Mixtral به عنوان سومین LLM مفید در ارزیابی‌های انسانی پس از GPT-4 و Claude رتبه‌بندی شده است.

ماهیت منبع باز این مدل‌ها نه تنها ایجاد مدل‌های جدید را تسهیل می‌کند بلکه باعث می‌شود آن‌ها در پیکربندی‌های مختلف ترکیب کنند و تطبیق‌پذیری و کاربرد LLM را در کاربردهای عملی افزایش دهد.

چه در انتظار مدل‌های منبع باز است؟

اکثر شرکت‌های فناوری از قابلیت‌های LLM در سال ۲۰۲۳ شگفت‌زده شدند. شرکت‌ها با استفاده از APIهای مدل بسته آزمایش‌هایی را انجام دادند و به سرعت با استفاده از آن‌ها کاربرد هوش مصنوعی در کسب‌وکار خود را توسعه دادند.

با این حال تکیه به APIهای خارجی برای فناوری‌های اصلی شامل خطراتی از جمله قرار گرفتن در معرض کد منبع حساس و داده‌های مشتری است. لازم به ذکر است که این یک استراتژی بلند مدت پایدار برای شرکت هایی نیست که حریم خصوصی و امنیت داده‌ها را در اولویت قرار می‌دهند.

اکوسیستم منبع باز رو به رشد، پیشنهاد منحصربه‌فردی را برای مشاغلی ارائه می‌دهد که هدف آن‌ها ادغام هوش مصنوعی مولد در عین رفع نیازهای دیگر است.

منبع: venturebeat

این مطالب را هم بخوانید: