گوگل کلاود دادههای مسافران خطوط هوایی را پردازش میکند
گوگل کلاود اعلام کرده است که به تازگی با ایرفرانس کیالام ( Air France KLM)…
۱۴ آذر ۱۴۰۳
۱۶ مرداد ۱۴۰۳
زمان مطالعه : ۳ دقیقه
مدل زبانی «حافظ شیرازی»، دستاورد جدید مجموعه ویراویراست با بیش از ۱۲ میلیارد توکن رونمایی شد. این مدل زبانی مبتنی بر هوش مصنوعی که دقت و کارایی بالایی دارد بر اساس متون دانشگاهی و عمومی طراحی شده و سیستم تحلیل احساس در متن از مهمترین سیستمهایی است که میتوان بر اساس این مدل آن را ساخت.
به گزارش پیوست، مدل زبانی «حافظ شیرازی» با بیش از ۱۲ میلیارد توکن از دادههای متون دانشگاهی و عمومی آموزش دیده و با تکیه بر مدل برت و تنظیمات مدل پایه از دقت و کارایی زیادی برخوردار است. علت نامگذاری این مدل به حافظ شیرازی تعلق این مجموعه و این مدل به شهر شیراز عنوان شده است.
از جمله ویژگیهای این مدل زبانی میتوان به دادههای اختصاصی، مکانیسم توجه (Attention Mechanism) بهینه شده، دقت بالا در متون عمومی و دادههای پاکسازی شده اشاره کرد.
طبق گزارش روابط عمومی ویراویراست تمرکز آموزش مدل حافظ بر اساس دادههای دانشگاهی است. با وجود تمرکز ۹۰ درصدی این مدل بر متون دانشگاهی، دقت حافظ در پردازش متون عمومی نیز بر اساس معیار ارزیابی F1-score به نقطه مطلوبی رسیده است.
سیستم تحلیل احساسات متن، سیستمهای پرسش و پاسخ، سیستم جستوجوی معنایی و سیستم تشخیص موجودیتهای نامدار در متن از جمله سیستمهایی است که میتوان بر اساس مدل حافظ ساخت.
این مدل در پلتفرم هاگینگفیس منتشر شده است و کاربران میتوانند به آن دسترسی داشته باشند.
زهرا نواب صفوی، همبنیانگذار و مدیر روابط عمومی ویراویراست درباره این مجموعه میگوید:« ویراویراست در حال حاضر تنها نرمافزار در زبان فارسی است که هم بر اساس ساختار و هم معنا ویرایش میکند؛ یعنی فقط در نظر ظاهری و دستوری و دستور خطی نیست و از نظر دستور زبان، معنا، علائم نگارشی میتواند متون را ویرایش کند.»
او به این موضوع نیز اشاره کرد که روز به روز به دیتای ابزارهای این مجموعه افزوده میشود تا کارآمدتر باشد. نواب صفوی همچنین اظهار کرد دیتای ویراویراست از ابتدا تا کنون از سمت زبانشناسان و ویراستاران تهیه شده و از این جهت از تمایز و اهمیت ویژهای برخوردار است.»
امین رحمانی، مدیرعامل و بنیانگذار مجموعه ویراویراست درباره ۱۲ میلیارد توکنی که مدل زبانی حافظ شیرازی مبتنی بر آن ترین شده است گفت:« دقت حافظ در حوزههای دانشگاهی به شدت خوب است. این دیتا حدود ۱۲ میلیارد توکن دارد، تقریبا حجمی نزدیک به ۳۰ گیگابایت. مدل حافظ بر این اساس محتواهای زبان فارسی، کلمات، جملات و نحوه نوشتن را یاد گرفته و این مدل در حال حاضر به صورت اوپن سورس هم در یک پلتفرمی به نام هاگینگفیس ارائه شده است.
او در رابطه با این پلتفرم گفت:« هاگینگفیس پلتفرمی است که شرکتهای بزرگی مثل گوگل، اپل و اوپن AI همه مدلهایشان را در آنجا قرار میدهند. در بخش زبان فارسی این پلتفرم، مدل حافظ شیرازی ترند است و در رده دوم قرار دارد.»
نرمافزار تبدیل فایل صوتی به متن، نرمافزار تایپ گفتاری و نرمافزار ویرایش متن سه خدمتی است که تا کنون در ویراویراست ارائه شده.