وزیر ارتباطات: مدرنترین مراکز داده در مشهد افتتاح میشود
وزیر ارتباطات که به مشهد سفر کرده است، در بازدید از پروژه اَبر دولت از…
۳ آذر ۱۴۰۳
۵ آبان ۱۴۰۳
زمان مطالعه : ۲ دقیقه
در پی کمبودهای قابل توجه مدلهای زبانی بزرگ در پشتیبانی از زبان فارسی، مرکز تحقیقات هوش مصنوعی پارت با معرفی دو مدل زبانی توکا و دُرنا، گامی جدی در توسعه مدلهای زبانی بومی برداشته است. این مدلها، با عملکردی دقیق بهصورت منبعباز در دسترس عموم قرار گرفتهاند. پارت با این محصولات قصد دارد؛ شکاف موجود میان زبان فارسی و دیگر زبانهای جهانی در بهرهگیری از فناوریهای نوین هوش مصنوعی کاهش یابد.
به گزارش روابط عمومی مرکز تحقیقات هوش مصنوعی پارت؛ یکی از چالشهای بزرگ فارسیزبانان برای بهرهمندی از مزایای بیشمار مدلهای زبانی بزرگ، پشتیبانی ناقص LLMها از زبان فارسی و نبود کیفیت لازم در مدلهای موجود است. با همین رویکرد مرکز تحقیقات هوش مصنوعی پارت این دو مدل زبانی را با طیف وسیعی از پارامترها توسعه داده تا در محصولات متنوع هوشمند برای کاربران قابل استفاده باشند.
مدل زبانی «توکا» با حجم داده ۵۰۰ گیکابایت معادل ۹۰ میلیارد توکن، مبتنی بر BERT large توسعه یافته است. از سوی این شرکت نسخه large و نسخه پایه این مدل به صورت متنباز در اختیار کاربران عموم قرار گرفته است. گروه مدلهای زبانی توکا پایه توسعه مدلهای زبانی بزرگتر بوده و به عنوان مدل زبانی باکیفیتتری در این سایز نسبت به محصولات مشابه در بازار شناخته میشود.
مدل زبانی بزرگ ۸ میلیارد پارامتری از گروه دُرنا نیز یکی دیگر از مدلهای زبانی این مرکز است که در میان LLMهای فارسی دیگر عملکرد مطلوبی داشته است. از مزایای این مدل زبانی، استفاده از معماری جدید و فناوریهای بهروز دنیا، و نیز دادههای باکیفیت در آموزش این مدل است. این رویکرد باعث شده عملکرد دُرنا ۸ میلیارد پارامتری، در مقایسه با برخی مدلهای بزرگتر از خود، دقیقتر باشد. همچنین در تعاملات زبان بومی و پسزمینههای فرهنگی ایرانی و فارسی، عملکرد بهتری نسبت به محصولات مشابه خارجی داشته باشد. مدلهای زبانی توکا و دُرنا به صورت منبعباز در سایت هاگینگفیس ارائه شده و با نمونههای مشابه خود مقایسه و ارزیابی شدهاند.