skip to Main Content
محتوای اختصاصی کاربران ویژهورود به سایت

فراموشی رمز عبور

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ عضو شوید

ثبت نام سایت

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ وارد شوید

فراموشی رمز عبور

وارد شوید یا عضو شوید

جشنواره نوروزی آنر

فناوری

تحریریه پیوست

حفظ فرهنگ زبان مادری و آینده اقتصاد دیجیتال در گرو توسعه مدل‌های زبان فارسی

تحریریه پیوست

۳ خرداد ۱۴۰۴

زمان مطالعه : ۸ دقیقه

توسعه مدل‌های زبانی فارسی، به عنوان زیرساختی حیاتی در حفظ هویت ملی و تسهیل تحول دیجیتال، اکنون در رأس اولویت‌های برنامه‌های توسعه کشور قرار دارد. چالش اصلی در این مسیر، محدودیت دسترسی به داده‌های متنوع و گسترده زبان فارسی است که روند پیشرفت را کند کرده و نیازمند طراحی سازوکارهای شفاف حقوقی و فنی است.

به گزارش پیوست، علی‌اصغر انصاری، مشاور هوشمندسازی پژوهشگاه ارتباطات و فناوری اطلاعات در رویداد هوش مصنوعی و قند پارسی بر اهمیت توسعه مدل‌های زبانی فارسی تأکید کرد و آن را ضرورتی فرهنگی و راهبردی برای حفظ و صیانت از زبان فارسی در فضای دیجیتال دانست. او تاکید کرد که زبان فارسی تنها یک ابزار ارتباطی نیست، بلکه بخشی اساسی از هویت ملی ماست و با توجه به حدود ۱۲۰ میلیون فارسی‌زبان در داخل و خارج کشور، مسئولیتی مضاعف بر دوش ایران قرار دارد تا این زبان را در برابر سلطه سامانه‌های زبانی بیگانه محافظت کند.

انصاری گفت: زبان فارسی باید به زبان علم تبدیل شود؛ یعنی نه تنها مصرف‌کننده دانش باشد بلکه تولیدکننده واژگان و مفاهیم علمی نیز باشد. به گفته او، مدل‌های زبانی بزرگ می‌توانند ابزار موثری برای واژه‌سازی علمی و توسعه تولیدات علمی به زبان فارسی باشند و در نتیجه بستری برای تولید محتوا، ترجمه ماشینی، آموزش و خلق واژگان نو فراهم کنند.

او در ادامه به زیرساخت‌های لازم برای پیشرفت در این حوزه پرداخت و گفت: در قانون برنامه هفتم توسعه، ایجاد زیرساخت‌های پردازشی قدرتمند و شبکه‌های ارتباطی پرسرعت یکی از اولویت‌های سیاست‌گذاری است. انصاری تأکید کرد که موفقیت در توسعه مدل‌های زبانی نیازمند مشارکت فعال دولت و بخش خصوصی به همراه تدوین سازوکارهای حقوقی شفاف است تا زمینه تحقق اهداف هوشمندسازی کشور فراهم شود.

او مدل‌های زبانی را موتور محرک تولید محصولات و خدمات بومی معرفی و تاکید کرد: استفاده از پلتفرم‌های داخلی، علاوه بر کنترل کیفیت و کاهش سوگیری‌های فرهنگی، زیربنای خلق سرویس‌های نوآورانه در حوزه‌های مختلف است. انصاری گفت: این رویکرد مزایای مهمی همچون حفظ حریم خصوصی و انطباق با نیازهای محلی را به همراه دارد و کشورهایی با جمعیت کمتر، مانند برخی کشورهای عربی، به سرعت در حال سرمایه‌گذاری و توسعه مدل‌های زبانی بومی خود هستند؛ بنابراین ایران نباید در این رقابت منطقه‌ای عقب بماند.

از نظر اقتصادی، انصاری به ظرفیت‌های قابل توجه این حوزه اشاره کرد و گفت که بازار مدل‌های زبانی در آمریکا سالانه حدود ۳ درصد رشد دارد و در ایران نیز با ظرفیت شرکت‌های دانش‌بنیان، دانشگاه‌ها و پژوهشگاه‌ها فرصت خوبی، به‌ویژه در حوزه‌های تولید محتوا، ترجمه ماشینی، خدمات سلامت، آموزش و صنایع مختلف برای کسب سهم از این بازار وجود دارد. اما یکی از موانع جدی پیش‌روی توسعه مدل‌های زبانی فارسی را عدم دسترسی مناسب پژوهشگران و شرکت‌ها به داده‌های زبان فارسی دانست. او تأکید کرد: با وجود وجود داده‌های زبان فارسی به صورت رسمی، در عمل این داده‌ها در دسترس قرار ندارند و این موضوع روند توسعه را کند کرده است. انصاری اضافه کرد: باید سازوکارهای شفاف و مؤثر حقوقی و فنی برای تسهیل دسترسی به داده‌ها و ایجاد پلتفرم‌های داده باز با نظارت نهادهای حاکمیتی طراحی شود.

او همچنین به نقش حاکمیت در مدیریت داده‌ها و پایش شاخص‌های اقتصاد دیجیتال پرداخت و یادآور شد که در برنامه هفتم توسعه مقرر شده مرکز آمار کشور با همکاری وزارت ارتباطات، به سنجش لایه‌های مختلف اقتصاد دیجیتال از جمله پلتفرم‌ها و هسته‌های فناوری بپردازد. این اقدام را گامی مهم در جهت تحقق حکمرانی هوشمند و مدیریت موثر اقتصاد دیجیتال دانست.

مشاور هوشمندسازی پژوهشگاه ارتباطات گفت: برای دستیابی به نرخ رشد GDP موردنظر باید سالانه رشد اقتصادی ۸ درصدی حاصل شود که ۳۵ درصد این رشد باید از مسیر بهره‌وری و دیجیتالی‌سازی صنایع تأمین گردد. او یادآور شد: طبق ماده ۶۶ قانون برنامه هفتم، تأمین داده و حفاظت از داده‌های شخصی برای کسب‌وکارهای دیجیتال از اصول مهم است و توسعه زیرساخت‌های پردازشی و ارتباطات پرسرعت در کف هرم نیازمندی‌های توسعه اقتصاد ناخالص کشور قرار دارد؛ زیرا دیتا و زیرساخت‌ها دو نیاز جدایی‌ناپذیر از هر اقدام فناورانه هستند.

او ادامه داد: اگر بخواهیم سهم اقتصاد دیجیتال را به ۱۰ درصد برسانیم، باید حدود ۱۲.۵۷ درصد رشد داشته باشیم. این هدف بدون توسعه زیرساخت‌ها و مشارکت دولت و بخش خصوصی در طراحی بسترهای حقوقی، قابل تحقق نیست. انصاری به تحلیل آماری اشاره کرد که نشان می‌دهد صنایع بزرگ کشور هنوز آمادگی پذیرش فناوری‌های نوین را ندارند و این چالشی جدی است؛ اما در مقابل، حوزه خدمات رشد قابل توجهی در بهره‌مندی از فناوری داشته است.

همچنین انصاری گفت: توسعه مدل‌های زبانی فارسی صرفاً محدود به فناوری نیست بلکه بخشی از راهبرد کلان هوشمندسازی کشور است که نیازمند اقدامات هماهنگ در سیاست‌گذاری، زیرساخت و فرهنگ‌سازی است.

امیرمحمد صالح‌اوف، مدیر تیم NLP مرکز تحقیقات هوش مصنوعی پارت، در نشست تخصصی مدل‌های زبانی فارسی گفت که ابزارهای هوش مصنوعی اکنون بخش جدایی‌ناپذیر زندگی روزمره شده‌اند. او توضیح داد که این مدل‌ها اگرچه هنوز به دقت انسان نرسیده‌اند، اما بسیار کاربردی‌اند. صالح‌اوف با مروری بر تاریخچه مدل‌های زبانی گفت که از دهه ۹۰ میلادی مدل‌ها پیشرفت زیادی داشته‌اند و نقطه عطف این مسیر، معرفی معماری ترنسفورمر در سال ۲۰۱۸ بوده که پایه بسیاری از مدل‌های امروزی است.

صالح‌اوف توضیح داد: با پیشرفت سخت‌افزار، به‌ویژه GPUهای ویژه‌ی هوش مصنوعی، در سال ۲۰۲۰ مدل‌های زبانی بزرگ (LLMها) شکل گرفتند که بدون نیاز به داده‌های خاص، می‌توانستند بسیاری از کارهای زبانی را انجام دهند. او گفت شرکت پارت از سال ۱۳۹۶ ساخت مدل‌های فارسی را آغاز کرد و اولین مدل آن‌ها از مدل‌های چندزبانه خارجی بهتر بود. سپس در سال ۱۳۹۸ موفق شدند نخستین مدل ترنسفورمری فارسی با ۱۵۰ میلیون پارامتر را آموزش دهند.

او گفت: پس از موفقیت در سال ۱۳۹۸، تیم آن‌ها در سال ۱۴۰۰ روی مدل‌های بزرگ‌تر تمرکز کرد و مدلی با ۱۲۷ میلیون پارامتر ساخت. در سال ۱۴۰۱ هم برای اولین‌بار آموزش مدل‌های بسیار بزرگ را آغاز کردند. به گفته او، در سال ۱۴۰۲ چند مدل زبانی بزرگ دیگر توسعه داده شد و تجربه‌های آموزشی مهمی به‌دست آمد که انگیزه‌ خوبی برای ورود جدی‌تر به مدل‌های عظیم‌تر در سال ۱۴۰۳ فراهم کرد.

صالح‌اوف اضافه کرد: در سال گذشته، مدل‌هایی با حدود ۳۵ و بیش از ۱۰۰ میلیارد پارامتر منتشر کرده‌اند که هم از نظر علمی و هم تجاری اهمیت زیادی داشته‌اند. او درباره توسعه مدل بومی گفت: مهم‌ترین بخش این فرایند جمع‌آوری داده است. از سال ۲۰۱۸ به بعد، کیفیت و تنوع داده‌ها بیش از معماری مدل اهمیت پیدا کرده است. به گفته او، برای این کار حجم زیادی متن فارسی از منابع مختلف جمع‌آوری شده، با کمک OCR متن فایل‌های تصویری و PDF استخراج شده، و حدود ۶ میلیون داده مصنوعی هم تولید شده است. همچنین بیش از ۱۵ هزار نفر-ساعت صرف برچسب‌گذاری انسانی شده تا مدل بتواند مفاهیمی مانند تاریخ، ادبیات، ریاضی و زیست‌شناسی را بهتر درک کند. داده‌های ترجیح انسانی نیز برای آموزش مدل‌های RLHF تهیه شده‌اند.

مدیر NLP مجموعه پارت در پاسخ به اینکه چرا با وجود مدل‌های خارجی باید مدل زبانی بومی داشت، گفت: از نظر تجربه کاربری، امنیت داده و دقت فرهنگی، مدل بومی برتری دارد؛ به‌ویژه در سازمان‌های حساس مثل بانک‌ها که نگرانی درباره نشت داده وجود دارد. او تأکید کرد که زبان فارسی بخشی از هویت فرهنگی ماست و مدل‌های خارجی درک دقیقی از آن ندارند.

از منظر راهبردی هم او اشاره کرد:  وابستگی به مدل‌های خارجی، در بلندمدت خطرناک است؛ چرا که ممکن است دسترسی به آن‌ها قطع شود و هزینه‌های دلاری بالایی به کشور تحمیل کند. همچنین، مدل‌های بومی را می‌توان برای حوزه‌های تخصصی و نیازهای خاص سازمانی به‌خوبی شخصی‌سازی کرد، در حالی که مدل‌های خارجی چنین امکانی ندارند یا به زیرساخت‌های پیشرفته‌تری نیاز دارند.

امیرمحمد صالح‌اوف درباره برنامه‌های آینده گفت: برای سال جاری، دو مسیر کلیدی در دستور کار قرار دارد. در ابتدا، معرفی گروه مدل زبانی «شاهین» که با معماری و روش آموزشی متفاوت از گروه «درنا» توسعه خواهد یافت و تمرکز اصلی آن بر شخصی‌سازی و آموزش مدل‌ها از صفر است. دوم، اجرای ارزیابی‌های جامع‌تر که ابعاد بیشتری از توانایی مدل‌ها را دربرمی‌گیرد تا بتوان آن‌ها را با دقت بالاتری برای کاربردهای متنوع انتخاب و به‌کار گرفت.

ایمان ظهوریان، معاون استراتژیک مرکز تحقیقات هوش مصنوعی پارت، گفت: هفت سال پیش پروژه «دیده‌بان» را با هدف رصد مداوم تحولات جهانی و داخلی در حوزه هوش مصنوعی راه‌اندازی کرده‌ایم. او گفت: دیده‌بان صرفاً یک ناظر نیست، بلکه کاوشگری است که تلاش می‌کند این فناوری پیچیده و پویا را در بستر زیست‌جهان اجتماعی و فرهنگی تحلیل کند.

ظهوریان گفت: در پنج سال نخست، خروجی این رصد به‌صورت کتاب‌هایی منتشر شد که هم به معرفی کاربردهای هوش مصنوعی برای صنایع ناآشنا می‌پرداخت و هم نقشه‌ای از زیست‌بوم داخلی این حوزه در ایران ارائه می‌داد. به گفته او، در دو سال اخیر این تحلیل‌ها در قالب فصل‌نامه منتشر می‌شود و موضوعاتی چون «هوش حکمرانی» و «هوش‌وارگی ماشین» را پوشش داده است.

او اشاره کرد: با افزایش شتاب توسعه مدل‌های زبانی فارسی، دیده‌بان رویکردی آینده‌نگر اتخاذ کرده و با بهره‌گیری از داده‌های انسانی و مدل‌های استدلال‌گر مبتنی بر هوش مصنوعی، سناریوهایی برای آینده طراحی کرده‌اند. او استعاره درخت را برای توصیف زیست‌بوم هوش مصنوعی به کار برد: ریشه‌هایی به‌نام توان پردازشی، تنه‌ای از مدل‌های بومی، شاخه‌هایی از مدل‌های خاص‌منظوره، و میوه‌هایی در قالب نوآوری‌های کاربردی. ظهوریان با رونمایی از شماره جدید دیده‌بان با عنوان آینده بی پایان آن را نقطه عطفی در مسیر توسعه هوش مصنوعی فارسی دانست.

https://pvst.ir/l80

0 نظر

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

*

برای بوکمارک این نوشته
Back To Top
جستجو