فناوری

پیوست » فناوری » هوش مصنوعی » مدل زبانی فارسی «توکا» با ۹۰ میلیارد توکن به صورت متن‌باز عرضه شد

مدل زبانی فارسی «توکا» با ۹۰ میلیارد توکن به صورت متن‌باز عرضه شد

۲۹ اردیبهشت ۱۴۰۳

زمان مطالعه : ۲ دقیقه

مدل زبانی ‌BERT large با عنوان «توکا» برای اولین بار در ایران به زبان فارسی با ۹۰ میلیارد توکن به صورت متن‌باز توسط مرکز تحقیقات هوش مصنوعی پارت منتشر شد.

به گزارش پیوست به نقل از روابط عمومی پارت، مدل زبانی ‌BERT large با عنوان «توکا» به زبان فارسی توسط مرکز تحقیقات هوش مصنوعی پارت برای اولین بار در ایران توسعه داده شده است. این مدل زبانی با هدف تسهیل توسعۀ محصولات هوشمند، به شکل منبع‌باز در اختیار علاقه‌مندان و کسب‌وکارها قرار گرفته است.

گروه دانش‌بنیان پارت علاوه بر نسخه large این مدل زبانی، نسخه پایه آن را نیز به صورت متن‌باز ارائه کرده تا زیست‌بوم هوش مصنوعی کشور را در لبه فناوری‌های روز دنیا نگه دارد.

این مدل زبانی، با حجم داده ۵۰۰ گیگابایت معادل ۹۰ میلیارد توکن، یکی از بهینه‌ترین مدل‌ها برای استفاده در سرویس‌های فارسی‌زبان شناخته می‌شود و به دلیل برخورداری از دقت و کیفیتی بالا، در مقایسه با دیگر مدل‌های مشابه فارسی در جایگاه نخست قرار می‌گیرد. همچنین از آنجا که مدل زبانی «توکا»، قابلیت اجرا و آموزش روی سخت‌افزارهای نه‌چندان قدرتمند را فراهم می‌کند، مناسب‌ترین گزینه برای اهداف تحقیقاتی، توسعه‌دهندگان شخصی و کسب‌وکارهای نوپا است.

انتشار نسخه متن‌باز این مدل زبانی، امکان دسترسی ساده و رایگان و مشارکت با دیگر توسعه‌دهندگان را برای کسب‌وکارها و برنامه‌نویسان فراهم می‌کند. علاوه بر این، فرصتی ایجاد می‌کند تا از یک سو، توسعه‌دهندگان و برنامه‌نویسان بتوانند ابزارهای قدرتمندتر و کاربردی‌تری را برای مخاطب فارسی زبان توسعه دهند و از سوی دیگر، کسب‌وکارها این امکان را داشته باشند تا محصولات سفارشی‌سازی‌شده و منطبق با نیاز کاربران خود را ایجاد کنند و در نتیجه، همه اجزای زیست‌بوم فناوری ایران در کنار یکدیگر و همگام با هم، رشد و پیشرفت قابل‌ملاحظه‌ای را تجربه کنند.

مدل زبانی «توکا» طی سال‌های گذشته، در محصولات پارت همچون سرویس‌های هوشمند ابری سهاب، سرویس تبدیل صوت به متن «آوانگار»، سرویس تبدیل متن به صوت «آواشو»، چت‌بات هوشمند «دانابات» و سرویس تبدیل تصویر به متن «نویسه‌نگار» به‌کار گرفته شده و عملکردی فوق‌العاده به نمایش گذاشته و زمینه استفاده از ابزارهای هوشمند تعاملی را برای میلیون‌ها کاربر فارسی‌زبان فراهم کرده است.

هرچند که این روزها، گروه دانش‌بنیان پارت خبری مبنی بر توسعه مدل زبانی بزرگ درنا با ۱۳ میلیارد پارامتر را منتشر کرده و انتظار می‌رود در سال جاری، شاهد استفاده‌های تجاری از مدل بزرگ درنا در محصولات این شرکت دانش بنیان باشیم.

پارت مدل زبانی

https://pvst.ir/hxo

0 نظر

ارسال دیدگاه لغو پاسخ