دادههای جامع و قابل اتکا حلقه مفقوده بروز نوآوری در صنعت بیمه است
مدیر توسعه کسبوکار ریتون شرکت فعال در حوزه فناوریهای بیمهای، ظهور بیمههای شخصیسازی شده را…
۲۰ آذر ۱۴۰۳
صفحه توییتری ترگمان «سایت ترجمه فارسی زبان» از اضافه شدن تعداد مقالات و پایاننامه و افزایش تعداد کلمات به پیکره سایت خبر داد.
به گزارش پیوست؛ ترگمان در صفحه ایکس خود نوشته است: پس از چندماه خزش سایت وزارت علوم و تحقیقات در نهایت مفتخریم اعلام کنیم که پیکره ارزشمند موجود در این سایت شامل بیش از ۳۳۷ میلیون کلمه خلاصه مقاله و پایاننامه علمی به کلانپیکره ترگمان اضافه شده است اما مجاز به انتشار کامل متن مقالات نیستیم.
در بیانیه ترگمان با اشاره به قانون مدیریت دادهها آمده است: در خزش سایت ایرانداک تنها آن بخشی از محتوا مورد خزش و انتشار قرار گرفته که به صورت عمومی در دسترسی است؛ به دلیل حق مالکیتی که این سایت برای خود در نظر گرفته است فعلا دسترسی به متن کامل مقالات و بازانتشار آن مجاز نیست. با توجه به ماهیت دولتی سایت ایرانداک امید است طبق قانون مدیریت دادهها و اطلاعات ملی محتوای این سایت حداقل در اختیار محققین و متخصصین حوزه پردازش زبان قرار بگیرد. اما فعلا مجبور به حق مالکیت تعریفشده در سایت هستیم.
کلانپیکره ترگمان به صورت مستقل توسط شرکت پردازش هوشمند ترگمان و در راستای مسئولیت اجتماعی گردآوری و منتشر میشود و تاکنون هیچ نوع حمایت مادی از هیچ نهاد دولتی و غیردولتی دریافت نکرده است.
در قانون مدیریت دادهها و اطلاعات ملی تاکید شده است که دادهها و اطلاعات ملی جزو اموال عمومی بوده و اداره آن در اختیار دولت است. طبق این قانون دادهها و اطلاعات ملی با لحاظ مسائل امنیتی و با رعایت محرمانگی اطلاعات اشخاص در اختیار دولت جمهوری اسلامی ایران است.
بر اساس قانون مدیریت دادهها و اطلاعات ملی، دستگاهها و نهادهای مشمول این قانون که بر اساس شرح وظایف مقرر در قوانین مربوط و نیز تکالیف ناشی از این قانون موظف به تولید، نگهداری، پردازش دادهها و اطلاعات میباشد، مکلف هستند در امر تولید، نگهداری، پردازش، حفظ امنیت و صیانت از دادههای شخصی و تبادل و اشتراکگذاری و تکمیل و بروزرسانی دادهها و اطلاعات ملی، سیاستها و نظامات مصوب شورایعالی فضای مجازی و مصوبات کارگروه تعامل پذیری دولت الکترونیکی را اعمال و اجراء کنند.
همچنین گفتنی است کلانپیکره ترگمان تاکنون از طریق خزش نزدیک به ۹۰۰ سایت داخلی به حجم مجوع بیش از ۴۴ میلیارد توکن در قالب بیش از ۸۱ میلیون سند در حوزههای گوناگون رسیده است.
ترگمان با هدف ایجاد یک پیکره متنی استاندارد که توانایی استفاده از آن در انواع وظایف مبتنی بر پردازش زبان طبیعی فارسی وجود داشته باشد، اقدام به توسعه خزشگر تخصصی برای خزش و استخراج صحیح محتوا از وب فارسی کرده و با بهرهگیری از توان حدود ۵۰ سرور در طی مدت ۶ ماه، کلانپیکره زبان فارسی را گردآوری کرده است.