پیوست » اخبار » مقالات و پایان‌نامه‌های کلان پیکره ترگمان گسترش پیدا کرد

مقالات و پایان‌نامه‌های کلان پیکره ترگمان گسترش پیدا کرد

۱۳ آبان ۱۴۰۳

زمان مطالعه : ۳ دقیقه

صفحه توییتری ترگمان «سایت ترجمه فارسی زبان» از اضافه شدن تعداد مقالات و پایان‌نامه و افزایش تعداد کلمات به پیکره سایت خبر داد.

به گزارش پیوست؛ ترگمان در صفحه ایکس خود نوشته است: پس از چندماه خزش سایت وزارت علوم و تحقیقات در نهایت مفتخریم اعلام کنیم که پیکره ارزشمند موجود در این سایت شامل بیش از ۳۳۷ میلیون کلمه خلاصه مقاله و پایان‌نامه علمی به کلان‌پیکره ترگمان اضافه شده است اما مجاز به انتشار کامل متن مقالات نیستیم.

در بیانیه ترگمان با اشاره به قانون مدیریت داده‌ها آمده است: در خزش سایت ایران‌داک تنها آن بخشی از محتوا مورد خزش و انتشار قرار گرفته که به صورت عمومی در دسترسی است؛ به دلیل حق مالکیتی که این سایت برای خود در نظر گرفته است فعلا دسترسی به متن کامل مقالات و بازانتشار آن مجاز نیست. با توجه به ماهیت دولتی سایت ایران‌داک امید است طبق قانون مدیریت داده‌ها و اطلاعات ملی محتوای این سایت حداقل در اختیار محققین و متخصصین حوزه پردازش زبان قرار بگیرد. اما فعلا مجبور به حق مالکیت تعریف‌شده در سایت هستیم.

کلان‌پیکره ترگمان به صورت مستقل توسط شرکت پردازش هوشمند ترگمان و در راستای مسئولیت اجتماعی گردآوری و منتشر می‌شود و تاکنون هیچ نوع حمایت مادی از هیچ نهاد دولتی و غیردولتی دریافت نکرده است.

در قانون مدیریت داده‌ها و اطلاعات ملی تاکید شده است که داده‌ها و اطلاعات ملی جزو اموال عمومی بوده و اداره آن در اختیار دولت است. طبق این قانون داده‌ها و اطلاعات ملی با لحاظ مسائل امنیتی و با رعایت محرمانگی اطلاعات اشخاص در اختیار دولت جمهوری اسلامی ایران است.

بر اساس قانون مدیریت داده‌ها و اطلاعات ملی، دستگاه‌ها و نهادهای مشمول این قانون که بر اساس شرح وظایف مقرر در قوانین مربوط و نیز تکالیف ناشی از این قانون موظف به تولید، نگهداری، پردازش داده‌ها و اطلاعات می‌باشد، مکلف هستند در امر تولید، نگهداری، پردازش، حفظ امنیت و صیانت از داده‌های شخصی و تبادل و اشتراک‌گذاری و تکمیل و بروزرسانی داده‌ها و اطلاعات ملی، سیاست‌ها و نظامات مصوب شورایعالی فضای مجازی و مصوبات کارگروه تعامل پذیری دولت الکترونیکی را اعمال و اجراء کنند.

همچنین گفتنی است کلان‌پیکره ترگمان تاکنون از طریق خزش نزدیک به ۹۰۰ سایت داخلی به حجم مجوع بیش از ۴۴ میلیارد توکن در قالب بیش از ۸۱ میلیون سند در حوزه‌های گوناگون رسیده است.

ترگمان با هدف ایجاد یک پیکره متنی استاندارد که توانایی استفاده از آن در انواع وظایف مبتنی بر پردازش زبان طبیعی فارسی وجود داشته باشد، اقدام به توسعه خزشگر تخصصی برای خزش و استخراج صحیح محتوا از وب فارسی کرده و با بهره‌گیری از توان حدود ۵۰ سرور در طی مدت ۶ ماه، کلان‌پیکره زبان فارسی را گردآوری کرده است.

https://pvst.ir/jdt

0 نظر

ارسال دیدگاه لغو پاسخ