skip to Main Content
محتوای اختصاصی کاربران ویژهورود به سایت

فراموشی رمز عبور

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ عضو شوید

ثبت نام سایت

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ وارد شوید

فراموشی رمز عبور

وارد شوید یا عضو شوید

جشنواره نوروزی آنر

مدل زبانی «حافظ شیرازی» با ۱۲ میلیارد توکن رونمایی شد

۱۶ مرداد ۱۴۰۳

زمان مطالعه : ۳ دقیقه

مدل زبانی «حافظ شیرازی»، دستاورد جدید مجموعه ویراویراست با بیش از ۱۲ میلیارد توکن رونمایی شد. این مدل زبانی مبتنی بر هوش مصنوعی که دقت و کارایی بالایی دارد بر اساس متون دانشگاهی و عمومی طراحی شده و سیستم تحلیل احساس در متن از مهم‌ترین سیستم‌هایی است که می‌توان بر اساس این مدل آن را ساخت.

به گزارش پیوست، مدل زبانی «حافظ شیرازی» با بیش از ۱۲ میلیارد توکن از داده‌های متون دانشگاهی و عمومی آموزش دیده و با تکیه بر مدل برت و تنظیمات مدل پایه از دقت و کارایی زیادی برخوردار است. علت نام‌گذاری این مدل به حافظ شیرازی تعلق این مجموعه و این مدل به شهر شیراز عنوان شده است.

از جمله ویژگی‌های این مدل زبانی می‌توان به داده‌های اختصاصی، مکانیسم‌ توجه (Attention Mechanism) بهینه شده، دقت بالا در متون عمومی و داده‌های پاکسازی شده اشاره کرد.

طبق گزارش روابط عمومی ویراویراست تمرکز آموزش مدل حافظ بر اساس داده‌های دانشگاهی است. با وجود تمرکز ۹۰ درصدی این مدل بر متون دانشگاهی، دقت حافظ در پردازش متون عمومی نیز بر اساس معیار ارزیابی F1-score به نقطه مطلوبی رسیده است.

سیستم تحلیل احساسات متن، سیستم‌های پرسش و پاسخ، سیستم جست‌وجوی معنایی و سیستم تشخیص موجودیت‌های نام‌دار در متن از جمله سیستم‌هایی است که می‌توان بر اساس مدل حافظ ساخت.

این مدل در پلتفرم هاگینگ‌فیس منتشر شده است و کاربران می‌توانند به آن دسترسی داشته باشند.

زهرا نواب صفوی، هم‌بنیان‌گذار و مدیر روابط عمومی ویراویراست درباره این مجموعه می‌گوید:« ویراویراست در حال حاضر تنها نرم‌افزار در زبان فارسی است که هم بر اساس ساختار و هم معنا ویرایش می‌کند؛ یعنی فقط در نظر ظاهری و دستوری و دستور خطی نیست و از نظر دستور زبان، معنا، علائم نگارشی می‌تواند متون را ویرایش کند.»

او به این موضوع نیز اشاره کرد که روز به روز به دیتای ابزارهای این مجموعه افزوده می‌شود تا کارآمدتر باشد. نواب صفوی همچنین اظهار کرد دیتای ویراویراست از ابتدا تا کنون از سمت زبان‌شناسان و ویراستاران تهیه شده و از این جهت از تمایز و اهمیت ویژه‌ای برخوردار است.»

امین رحمانی، مدیرعامل و بنیان‌گذار مجموعه ویراویراست درباره ۱۲ میلیارد توکنی که مدل زبانی حافظ شیرازی مبتنی بر آن ترین شده است گفت:« دقت حافظ در حوزه‌های دانشگاهی به شدت خوب است. این دیتا حدود ۱۲ میلیارد توکن دارد، تقریبا حجمی نزدیک به ۳۰ گیگابایت. مدل حافظ بر این اساس محتواهای زبان فارسی، کلمات، جملات و نحوه نوشتن را یاد گرفته و این مدل در حال حاضر به صورت اوپن سورس هم در یک پلتفرمی به نام هاگینگ‌فیس ارائه شده است.

او در رابطه با این پلتفرم گفت:« هاگینگ‌فیس پلتفرمی است که شرکت‌های بزرگی مثل گوگل، اپل و اوپن AI همه مدل‌هایشان را در آنجا قرار می‌دهند. در بخش زبان فارسی این پلتفرم، مدل حافظ شیرازی ترند است و در رده دوم قرار دارد.»

نرم‌افزار تبدیل فایل صوتی به متن، نرم‌افزار تایپ گفتاری و نرم‌افزار ویرایش متن سه خدمتی است که تا کنون در ویراویراست ارائه شده.

 

https://pvst.ir/im6

0 نظر

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

*

برای بوکمارک این نوشته
Back To Top
جستجو