کلان‌پیکره زبان فارسی ترگمان با ۳۱ میلیارد توکن منتشر شد

بابک نقاش تحریریه

۸ فروردین ۱۴۰۳

زمان مطالعه : ۴ دقیقه

کلان‌پیکره ترگمان تاکنون از طریق خزش ۴۲۲ سایت داخلی به حجم مجوع بیش از ۳۱ میلیارد توکن در قالب بیش از ۵۴ میلیون سند در حوزه‌های گوناگون رسیده است. ترگمان در راستای مسوولیت اجتماعی و با هدف گسترش فرهنگ آزادرسانی و تقویت هوش مصنوعی در کشور حق بهره‌برداری از این کلان‌پیکره را حق بهره‌برداری CC-BY-NC-SA قرار داده است.

به گزارش پیوست، کلان پیکره زبان فارسی شرکت پردازش هوشمند ترگمان که با هدف آموزش مدل‌های زبانی بزرگ (LLM) مورد استفاده قرار می‌گیرد دارای بیش از ۳۱ میلیارد توکن است. این کلان پیکره شامل تمامی فراداده‌های لازم برای پردازش‌های زبان طبیعی است و داده‌ها در آن با ساختار jsonl. gz منتشر شده‌اند تا در هنگام پردازش به کمترین میزان حافظه نیاز باشد.

کلان‌پیکره ترگمان در نشانی https://huggingface.co/datasets/Targoman/TLPC قرار گرفته و دسترسی به آن نیازمند تأیید است. برای دریافت حق بهره‌برداری غیر تجاری کافی است فرد متقاضی در هاگینگ‌فیس اکانت با لینک به گیت‌هاب داشته باشد یا در حوزه LLM فعالیت کند.

شرکت پردازش هوشمند ترگمان در راستای مسوولیت اجتماعی و با هدف گسترش فرهنگ آزادرسانی و تقویت هوش مصنوعی در کشور حق بهره‌برداری از این کلان‌پیکره را حق بهره‌برداری CC-BY-NC-SA قرار داده است. همچنین این شرکت در تفاهم با ستاد توسعه فناوری‌های هوش مصنوعی و رباتیک معاونت علمی، فناوری و اقتصاد دانش‌بنیان ریاست جمهوری حق بهره‌برداری از این کلان‌پیکره را به عموم ارگان‌های دولتی و شرکت‌های دانش‌بنیان مورد تأیید معاونت علمی اعطا کرده است.

برای اطلاعات بیشتر می‌توانید صفحه مربوط به این کلان پیکره را در سایت ترگمان مشاهده کنید.

https://oss.targoman.ir/TLPC/

تا تاریخ ۸ فروردین ۱۴۰۳ بیش از ۴۵۰ سایت داخلی مورد خزش قرار گرفته و از این تعداد محتوای ۴۲۲ سایت بر اساس پیمایش بیش از ۱۷۳ میلیون آدرس استخراج و منتشر شده است. نتیجه این خزش‌ها گردآوری بیش از ۵۴ میلیون سند حاوی بیش از ۳۱ میلیارد توکن در حوزه‌های مختلف بوده است.
در این کلان‌پیکره که از آن می‌توان برای آموزش مدل‌های زبانی استفاده کرد پیوستگی موضوعی متون حفظ شده است و حوزه پوشش پیکره، تنوع کاملی از زبان فارسی را شامل می‌شود. برای گردآوری این پیکره شرکت پردازش هوشمند ترگمان، یک خزشگر تخصصی برای خزش و استخراج صحیح محتوا از وب فارسی توسعه داد و با توان حدود ۵۰ سرور در طی مدت ۶ ماه، کلان‌پیکره زبان فارسی را ایجاد کرد.
خزشگر تخصصی ترگمان برای گردآوری این پیکره به صورت کاملاً متن‌باز و با حق بهره‌برداری LGPL-v۳ از طریق گیت‌هاب در دسترس است.

https://github.com/Targoman/PersianWebScraperhttps://github.com/Targoman/PersianWebScraper

این پیکره با نام «کلان‌پیکره فارسی ترگمان» (Targoman Large Persian Corpus) در اختیار عموم محققین و توسعه‌دهندگان ابزار‌های پردازش زبان فارسی قرار گرفته است. این پیکره علاوه بر حجم بسیار زیاد دارای ویژگی‌های منحصر به فردی است. به عنوان مثال هر سند به صورت مستقل ذخیره شده و به ازای هر سند فراداده‌های مرتبط استخراج و در سند مربوطه ذخیره شده‌اند که با استفاده از این فراداده‌ها می‌توان انواع خروجی‌های مورد نظر را از پیکره بدست آورد. همچنین هر سند در حداقل یک و حداکثر ۳ سطح دسته‌بندی شده است و می‌توان به سهولت متنها در دسته‌های مختلف را جدا کرد. ضمن اینکه متن محاوره و رسمی از هم تفکیک شده‌اند.

کلان‌پیکره ترگمان در ابتدا با هدف استفاده در گروه مشارکت توسعه مدل زبانی فارسی متشکل از چهار شرکت پردازش هوشمند ترگمان، داده‌پردازان مبتکر آکام، عصر فناوری دانش و پردازش اطلاعات مالی پارت، اما به صورت مستقل ایجاد شد و پس از بهره‌برداری موفق در توسعه مدل‌زبانی بزرگ پایه برای مراحل بعدی توسعه مدل زبانی از نوع insruction tunning مورد توسعه و گسترش قرار گرفت. در حال حاضر مهمترین بهره‌بردار این پیکره عظیم گروه مشارکت هوش‌آفرین و مجموعه مدل‌های زبانی مورد توسعه در این گروه می‌باشد. همچنین نسخه محدودی از این پیکره (در حدود ۱۳ میلیارد کلمه) در اختیار مرکز فراداده مرکز ملی فضای مجازی قرار گرفت تا در هکاتون توسعه مدل‌های زبانی بزرگ مورد استفاده قرار گیرد.

مدل زبانی هوش مصنوعی

https://pvst.ir/hls

0 نظر

ارسال دیدگاه لغو پاسخ