مهدی جعفری مترجم

پیوست » فناوری » هوش مصنوعی » مایکروسافت از سری جدید مدل‌های هوش مصنوعی Phi-3.5 رونمایی کرد؛ متن‌باز، کوچک و کاربردی

مایکروسافت از سری جدید مدل‌های هوش مصنوعی Phi-3.5 رونمایی کرد؛ متن‌باز، کوچک و کاربردی

مهدی جعفری مترجم

۳۱ مرداد ۱۴۰۳

زمان مطالعه : ۵ دقیقه

به نظر سازنده ویندوز برای توسعه اکوسیستم هوش مصنوعی خود تنها به همکاری با اوپن‌ای‌آی اکتفا نکرده است و این بار این شرکت مستقیما برای حمایت از جامعه متن‌باز و توسعه‌دهندگان مستقل وارد میدان شده است. شرکت ردموندی با ۳ مدل جدید از سری Phi برای پاسخ به تقاضای توسعه دهندگان آماده می‌شود. این مدل‌های چندزبانه و چندوجهی که در دسته هوش مصنوعی‌های کوچک قرار می‌گیرند برای رقابت با همتایانی از شرکت متا، گوگل و اوپن‌ای‌آی وارد عمل می‌شوند.

به گزارش پیوست، سه مدل جدید Phi 3.5 یک نسخه کوچک ۳.۸۲ میلیارد پارامتری به نام Phi-3.5-mini-instruct، مدل ۴۱.۹ میلیارد پارامتی Phi-3.5-MoE-instruct و مدل ۴.۱۵ میلیارد پارامتری Phi-3.5-vision-instruct را شامل می‌شوند. این سه مدل به ترتیب برای استدلال سریع/ساده، بهبود روند استدلال و وظایف مبتنی بر دید ماشینی (تجزیه‌تحلیل عکس و ویدیو) طراح شده‌اند.

هر سه مدل برای دانلود، استفاده و تقویت در Hugging Face در اختیار توسعه دهندگان قرار گرفته‌اند و جواز MIT از برند مایکروسافت را دارند که امکان استفاده تجاری و اصلاح بدون محدودیت را به توسعه دهندگان می‌دهد.

جالب اینکه هر سه مدل عملکرد بسیار خوبی را در برخی از آزمون‌های شخص ثالث به ثبت رسانده‌اند و حتی نسبت به مدل‌های دیگر ارائه دهندگان از جمله جمنای ۱.۵ فلش از شرکت گوگل، Llama 3.1 از متا و حتی در برخی موارد GPT-4o از اوپن‌ای‌آی عملکرد بهتری را به ثبت رسانده‌اند.

جواز استفاده آزاد در کنار عملکرد خوب این مدل‌ها باعث شده تا بسیاری از کاربران به تقدیر از مایکروسافت بپردازند.

در ادامه بررسی ونچربیت برای هرکدام از این مدل‌ها براساس اطلاعات آنها پس از عرضه در Hugging Face را مطالعه می‌کنید.

مدل Phi-3.5-mini-instruct: بهینه برای محیط‌هایی با رایانش محدود

مدل Phi-3.5-mini-instruct یک نسخه سبک با ۳.۸ میلیارد پارامتر است و برای پیروی از دستورالعمل طراحی شده است و از محتوایی با طول ۱۲۸ هزار توکن پشتیبانی می‌کند.

این مدل برای حالت‌هایی طراحی شده که با وجود حافظه یا رایانش محدود، نیازمند توان استدلال بالایی هستید و کارهایی مثل تولید کد، حل مسئله‌های ریاضی و استدلال منطقی را انجام می‌دهد.

این مدل با وجود اندازه کوچکش عملکرد خوبی را در وظایف مکالمه‌ای چند زبانه و چند مرحله‌ای به ثبت رسانده است و نسبت به نسل قبلی عملکرد بهتری دارد.

مدل Mini istruct در چند بنچمارک یکی از بهترین عملکرد‌ها را به ثبت رسانده و از مدل‌هایی با ابعاد مشابه (Llama-3.1-8B-instruct و Mistral-7B-instruct) در بنچمارک RepoQA پیشی گرفته است. این بنچمارک در واقع درک مدل از کد طولانی را ارزیابی می‌کند.

مدل Phi-3.5 MoE: ترکیبی از متخصصان

مدل Phi-3.5 MoE (MoE مخفف ترکیب متخصصان) به نظر اولین نمونه مایکروسافت در این سطح به حساب می‌آید و چندین نوع مدل مختلف را ترکیب می‌کند که هرکدام در وظایف خاصی تخصص دارند.

این مدل از یک معماری ۴۲ میلیارد پارامتر فعال کمک می‌گیرد و از طول محتوایی ۱۲۸ هزار توکنی پشتیبانی می‌کند که باعث بازدهی آن در اپلیکیشن‌های پرتقاضا می‌شود. با این حال مستندات HuggingFace نشان می‌دهد که فعالیت مدل تنها با ۶.۶ میلیارد پارامتر فعال انجام می‌شود.

مدل Phi-3.5 MoE که برای پیشتازی در وظایف مختلف استدلالی طراحی شده عملکرد خوبی در کد، ریاضی و درک چند زبانی دارد و در بنچمارک‌های خاص این حوزه از جمله RepoQA از مدل‌های بزرگتر بهتر عمل می‌کند.

این مدل حتی از رقیب سرسختی مثل GPT-4o mini نیز در بنچمارک 5-shot MMLU (درک گسترده چندکاره زبانی) برای رشته‌های مختلف از جمله STEM، علوم انسانی، علوم اجتماعی و سطوح تخصصی متفاوت بهتر عمل کرده است.

معماری منحصربه‌فرد MoE به این مدل اجازه می‌دهد که در عین انجام وظایف پیچیده هوش مصنوعی در زبان‌های مختلف، عملکرد بهینه خود را حفظ کند.

مدل Phi-3.5 Vision: استدلال پیشرفته چندوجهی

آخرین ضلع مثلث جدید مایکروسافت را مدل Phi-3.5 Vision تشکیل می‌دهد که قابلیت‌های پردازش متنی را با تصویر ترکیب می‌کند.

این مدل چندوجهی برای وظایفی مثل درک عمومی عکس، تشخیص کاراکتر نوری،‌ درک نمودار و جدول و خلاصه‌سازی ویدیو طراحی شده است.

همانند دیگر مدل‌های سری Phi-3.5، نسخه Vision Instruct نیز از طول محتوای ۱۲۸ هزار توکنی پشیتبانی می‌کند و می‌تواند وظایف پیچیده تصویری با قاب‌های مختلف را برعهده بگیرد.

مایکروسافت می‌گوید این مدل براساس ترکیبی از دیتاست‌های مصنوعی و داده‌های عمومی فیلتر شده آموزش دیده و روی داده‌های با کیفیت بالا و مملو از استدلال تمرکز دارد.

سه‌گانه جدید Phi

مدل Phi-3.5 Mini براساس ۳.۴ هزار میلیارد توکن و با استفاده از ۵۱۲ پردازنده گرافیکی H100-80G در طول ۱۰ روز آموزش دیده است و مدل Vision Instruct براساس ۵۰۰ میلیارد توکن با استفاده از ۲۵۶ پردازنده گرافیکی A100-80G در طول ۶ روز آموزش دیده است.

مدل Phi-3.5 MoE که از معماری ترکیب متخصصان استفاده می‌کند براساس ۴.۹ هزار میلیارد توکن و در طول ۲۳ روز با ۵۱۲ پردازنده گرافیکی H100-80G آموزش دیده است.

متن باز و با جواز MIT

هر سه مدل از سری Phi-3.5 با جواز MIT قابل دسترسی هستند که نشانگر تعهد مایکروسافت به حمایت از جامعه متن باز است.

این جواز به توسعه دهندگان اجازه می‌دهد تا آزادانه به استفاده، اصلاح، ادغام، انتشار، توزیع، اعطای جواز خود یا فروش نسخه‌هایی از این نرم‌افزار بپردازند.

در این جواز اشاره شده است که نرم‌افزار به همین صورتی که هست و بدون هیچگونه تضمینی ارائه شده است. مایکروسافت و دیگر دارندگان حق کپی‌رایت در قبال ادعاها، خسارت یا اشکالات احتمالی این نرم‌افزار مسئولیتی ندارند.

عرضه سری Phi-3.5 از مایکروسافت گام بزرگی در توسعه مدل‌های چندزبانه و چندوجهی است. مایکروسافت با عرضه متن‌باز این مدل‌ها به توسعه دهنگان اجازه می‌دهد تا از توانمندی‌های روز هوش مصنوعی در اپلیکیشن‌های خود استفاده کنند و دست باز‌تری در توسعه تجاری تحقیقاتی داشته باشند.

این مطالب را هم بخوانید: