اخبار

پیوست » اخبار » مدل زبانی متن‌باز و فارسی توکا و درنا برای کاربران قابل استفاده است

مدل زبانی متن‌باز و فارسی توکا و درنا برای کاربران قابل استفاده است

۵ آبان ۱۴۰۳

زمان مطالعه : ۲ دقیقه

در پی کمبودهای قابل توجه مدل‌های زبانی بزرگ در پشتیبانی از زبان فارسی، مرکز تحقیقات هوش مصنوعی پارت با معرفی دو مدل زبانی توکا و دُرنا، گامی جدی در توسعه مدل‌های زبانی بومی برداشته است. این مدل‌ها، با عملکردی دقیق به‌صورت منبع‌باز در دسترس عموم قرار گرفته‌اند. پارت با این محصولات قصد دارد؛ شکاف موجود میان زبان فارسی و دیگر زبان‌های جهانی در بهره‌گیری از فناوری‌های نوین هوش مصنوعی کاهش یابد.

به گزارش روابط عمومی مرکز تحقیقات هوش مصنوعی پارت؛ یکی از چالش‌های بزرگ فارسی‌زبانان برای بهره‌مندی از مزایای بی‌شمار مدل‌های زبانی بزرگ، پشتیبانی ناقص LLM‌ها از زبان فارسی و نبود کیفیت لازم در مدل‌های موجود است. با همین رویکرد مرکز تحقیقات هوش مصنوعی پارت این دو مدل زبانی را با طیف وسیعی از پارامتر‌ها توسعه داده تا در محصولات متنوع هوشمند برای کاربران قابل استفاده باشند.

مدل زبانی «توکا» با حجم داده ۵۰۰ گیکابایت معادل ۹۰ میلیارد توکن، مبتنی بر BERT large توسعه یافته است. از سوی این شرکت نسخه large و نسخه پایه این مدل به صورت متن‌باز در اختیار کاربران عموم قرار گرفته است. گروه مدل‌های زبانی توکا پایه توسعه مدل‌های زبانی بزرگ‌تر بوده و به عنوان مدل زبانی باکیفیت‌تری در این سایز نسبت به محصولات مشابه در بازار شناخته می‌شود.

مدل زبانی بزرگ ۸ میلیارد پارامتری از گروه دُرنا نیز یکی دیگر از مدل‌های زبانی این مرکز است که در میان LLM‌های فارسی دیگر عملکرد مطلوبی داشته است. از مزایای این مدل زبانی، استفاده از معماری جدید و فناوری‌های به‌روز دنیا، و نیز داده‌های باکیفیت در آموزش این مدل است. این رویکرد باعث شده عملکرد دُرنا ۸ میلیارد پارامتری، در مقایسه با برخی مدل‌های بزرگ‌تر از خود، دقیق‌تر باشد. همچنین در تعاملات زبان بومی و پس‌زمینه‌های فرهنگی ایرانی و فارسی، عملکرد بهتری نسبت به محصولات مشابه خارجی داشته باشد. مدل‌های زبانی توکا و دُرنا به صورت منبع‌باز در سایت هاگینگ‌فیس ارائه شده و با نمونه‌های مشابه خود مقایسه و ارزیابی شده‌اند.

مدل زبانی

https://pvst.ir/jao

0 نظر

ارسال دیدگاه لغو پاسخ