معرفی سیزده هوش مصنوعی تولید و پردازش تصویر: خلق از حروف ساده
امروزه و با توسعه هوش مصنوعی ابزار پردازش تصویر بسیاری برای تبدیل متن به تصویر…
۳۰ آبان ۱۴۰۳
۳۱ مرداد ۱۴۰۳
زمان مطالعه : ۵ دقیقه
به نظر سازنده ویندوز برای توسعه اکوسیستم هوش مصنوعی خود تنها به همکاری با اوپنایآی اکتفا نکرده است و این بار این شرکت مستقیما برای حمایت از جامعه متنباز و توسعهدهندگان مستقل وارد میدان شده است. شرکت ردموندی با ۳ مدل جدید از سری Phi برای پاسخ به تقاضای توسعه دهندگان آماده میشود. این مدلهای چندزبانه و چندوجهی که در دسته هوش مصنوعیهای کوچک قرار میگیرند برای رقابت با همتایانی از شرکت متا، گوگل و اوپنایآی وارد عمل میشوند.
به گزارش پیوست، سه مدل جدید Phi 3.5 یک نسخه کوچک ۳.۸۲ میلیارد پارامتری به نام Phi-3.5-mini-instruct، مدل ۴۱.۹ میلیارد پارامتی Phi-3.5-MoE-instruct و مدل ۴.۱۵ میلیارد پارامتری Phi-3.5-vision-instruct را شامل میشوند. این سه مدل به ترتیب برای استدلال سریع/ساده، بهبود روند استدلال و وظایف مبتنی بر دید ماشینی (تجزیهتحلیل عکس و ویدیو) طراح شدهاند.
هر سه مدل برای دانلود، استفاده و تقویت در Hugging Face در اختیار توسعه دهندگان قرار گرفتهاند و جواز MIT از برند مایکروسافت را دارند که امکان استفاده تجاری و اصلاح بدون محدودیت را به توسعه دهندگان میدهد.
جالب اینکه هر سه مدل عملکرد بسیار خوبی را در برخی از آزمونهای شخص ثالث به ثبت رساندهاند و حتی نسبت به مدلهای دیگر ارائه دهندگان از جمله جمنای ۱.۵ فلش از شرکت گوگل، Llama 3.1 از متا و حتی در برخی موارد GPT-4o از اوپنایآی عملکرد بهتری را به ثبت رساندهاند.
جواز استفاده آزاد در کنار عملکرد خوب این مدلها باعث شده تا بسیاری از کاربران به تقدیر از مایکروسافت بپردازند.
در ادامه بررسی ونچربیت برای هرکدام از این مدلها براساس اطلاعات آنها پس از عرضه در Hugging Face را مطالعه میکنید.
مدل Phi-3.5-mini-instruct یک نسخه سبک با ۳.۸ میلیارد پارامتر است و برای پیروی از دستورالعمل طراحی شده است و از محتوایی با طول ۱۲۸ هزار توکن پشتیبانی میکند.
این مدل برای حالتهایی طراحی شده که با وجود حافظه یا رایانش محدود، نیازمند توان استدلال بالایی هستید و کارهایی مثل تولید کد، حل مسئلههای ریاضی و استدلال منطقی را انجام میدهد.
این مدل با وجود اندازه کوچکش عملکرد خوبی را در وظایف مکالمهای چند زبانه و چند مرحلهای به ثبت رسانده است و نسبت به نسل قبلی عملکرد بهتری دارد.
مدل Mini istruct در چند بنچمارک یکی از بهترین عملکردها را به ثبت رسانده و از مدلهایی با ابعاد مشابه (Llama-3.1-8B-instruct و Mistral-7B-instruct) در بنچمارک RepoQA پیشی گرفته است. این بنچمارک در واقع درک مدل از کد طولانی را ارزیابی میکند.
مدل Phi-3.5 MoE: ترکیبی از متخصصان
مدل Phi-3.5 MoE (MoE مخفف ترکیب متخصصان) به نظر اولین نمونه مایکروسافت در این سطح به حساب میآید و چندین نوع مدل مختلف را ترکیب میکند که هرکدام در وظایف خاصی تخصص دارند.
این مدل از یک معماری ۴۲ میلیارد پارامتر فعال کمک میگیرد و از طول محتوایی ۱۲۸ هزار توکنی پشتیبانی میکند که باعث بازدهی آن در اپلیکیشنهای پرتقاضا میشود. با این حال مستندات HuggingFace نشان میدهد که فعالیت مدل تنها با ۶.۶ میلیارد پارامتر فعال انجام میشود.
مدل Phi-3.5 MoE که برای پیشتازی در وظایف مختلف استدلالی طراحی شده عملکرد خوبی در کد، ریاضی و درک چند زبانی دارد و در بنچمارکهای خاص این حوزه از جمله RepoQA از مدلهای بزرگتر بهتر عمل میکند.
این مدل حتی از رقیب سرسختی مثل GPT-4o mini نیز در بنچمارک 5-shot MMLU (درک گسترده چندکاره زبانی) برای رشتههای مختلف از جمله STEM، علوم انسانی، علوم اجتماعی و سطوح تخصصی متفاوت بهتر عمل کرده است.
معماری منحصربهفرد MoE به این مدل اجازه میدهد که در عین انجام وظایف پیچیده هوش مصنوعی در زبانهای مختلف، عملکرد بهینه خود را حفظ کند.
آخرین ضلع مثلث جدید مایکروسافت را مدل Phi-3.5 Vision تشکیل میدهد که قابلیتهای پردازش متنی را با تصویر ترکیب میکند.
این مدل چندوجهی برای وظایفی مثل درک عمومی عکس، تشخیص کاراکتر نوری، درک نمودار و جدول و خلاصهسازی ویدیو طراحی شده است.
همانند دیگر مدلهای سری Phi-3.5، نسخه Vision Instruct نیز از طول محتوای ۱۲۸ هزار توکنی پشیتبانی میکند و میتواند وظایف پیچیده تصویری با قابهای مختلف را برعهده بگیرد.
مایکروسافت میگوید این مدل براساس ترکیبی از دیتاستهای مصنوعی و دادههای عمومی فیلتر شده آموزش دیده و روی دادههای با کیفیت بالا و مملو از استدلال تمرکز دارد.
مدل Phi-3.5 Mini براساس ۳.۴ هزار میلیارد توکن و با استفاده از ۵۱۲ پردازنده گرافیکی H100-80G در طول ۱۰ روز آموزش دیده است و مدل Vision Instruct براساس ۵۰۰ میلیارد توکن با استفاده از ۲۵۶ پردازنده گرافیکی A100-80G در طول ۶ روز آموزش دیده است.
مدل Phi-3.5 MoE که از معماری ترکیب متخصصان استفاده میکند براساس ۴.۹ هزار میلیارد توکن و در طول ۲۳ روز با ۵۱۲ پردازنده گرافیکی H100-80G آموزش دیده است.
هر سه مدل از سری Phi-3.5 با جواز MIT قابل دسترسی هستند که نشانگر تعهد مایکروسافت به حمایت از جامعه متن باز است.
این جواز به توسعه دهندگان اجازه میدهد تا آزادانه به استفاده، اصلاح، ادغام، انتشار، توزیع، اعطای جواز خود یا فروش نسخههایی از این نرمافزار بپردازند.
در این جواز اشاره شده است که نرمافزار به همین صورتی که هست و بدون هیچگونه تضمینی ارائه شده است. مایکروسافت و دیگر دارندگان حق کپیرایت در قبال ادعاها، خسارت یا اشکالات احتمالی این نرمافزار مسئولیتی ندارند.
عرضه سری Phi-3.5 از مایکروسافت گام بزرگی در توسعه مدلهای چندزبانه و چندوجهی است. مایکروسافت با عرضه متنباز این مدلها به توسعه دهنگان اجازه میدهد تا از توانمندیهای روز هوش مصنوعی در اپلیکیشنهای خود استفاده کنند و دست بازتری در توسعه تجاری تحقیقاتی داشته باشند.