پروژه تازه دولت ایالات متحده برای تجمیع دادههای شخصی: دسترسی به حساسترین اطلاعات دیجیتال
در دورانی که اطلاعات شخصی به کالایی ارزشمند و قابل خرید و فروش در بازار…
۳ خرداد ۱۴۰۴
۳ خرداد ۱۴۰۴
زمان مطالعه : ۸ دقیقه
توسعه مدلهای زبانی فارسی، به عنوان زیرساختی حیاتی در حفظ هویت ملی و تسهیل تحول دیجیتال، اکنون در رأس اولویتهای برنامههای توسعه کشور قرار دارد. چالش اصلی در این مسیر، محدودیت دسترسی به دادههای متنوع و گسترده زبان فارسی است که روند پیشرفت را کند کرده و نیازمند طراحی سازوکارهای شفاف حقوقی و فنی است.
به گزارش پیوست، علیاصغر انصاری، مشاور هوشمندسازی پژوهشگاه ارتباطات و فناوری اطلاعات در رویداد هوش مصنوعی و قند پارسی بر اهمیت توسعه مدلهای زبانی فارسی تأکید کرد و آن را ضرورتی فرهنگی و راهبردی برای حفظ و صیانت از زبان فارسی در فضای دیجیتال دانست. او تاکید کرد که زبان فارسی تنها یک ابزار ارتباطی نیست، بلکه بخشی اساسی از هویت ملی ماست و با توجه به حدود ۱۲۰ میلیون فارسیزبان در داخل و خارج کشور، مسئولیتی مضاعف بر دوش ایران قرار دارد تا این زبان را در برابر سلطه سامانههای زبانی بیگانه محافظت کند.
انصاری گفت: زبان فارسی باید به زبان علم تبدیل شود؛ یعنی نه تنها مصرفکننده دانش باشد بلکه تولیدکننده واژگان و مفاهیم علمی نیز باشد. به گفته او، مدلهای زبانی بزرگ میتوانند ابزار موثری برای واژهسازی علمی و توسعه تولیدات علمی به زبان فارسی باشند و در نتیجه بستری برای تولید محتوا، ترجمه ماشینی، آموزش و خلق واژگان نو فراهم کنند.
او در ادامه به زیرساختهای لازم برای پیشرفت در این حوزه پرداخت و گفت: در قانون برنامه هفتم توسعه، ایجاد زیرساختهای پردازشی قدرتمند و شبکههای ارتباطی پرسرعت یکی از اولویتهای سیاستگذاری است. انصاری تأکید کرد که موفقیت در توسعه مدلهای زبانی نیازمند مشارکت فعال دولت و بخش خصوصی به همراه تدوین سازوکارهای حقوقی شفاف است تا زمینه تحقق اهداف هوشمندسازی کشور فراهم شود.
او مدلهای زبانی را موتور محرک تولید محصولات و خدمات بومی معرفی و تاکید کرد: استفاده از پلتفرمهای داخلی، علاوه بر کنترل کیفیت و کاهش سوگیریهای فرهنگی، زیربنای خلق سرویسهای نوآورانه در حوزههای مختلف است. انصاری گفت: این رویکرد مزایای مهمی همچون حفظ حریم خصوصی و انطباق با نیازهای محلی را به همراه دارد و کشورهایی با جمعیت کمتر، مانند برخی کشورهای عربی، به سرعت در حال سرمایهگذاری و توسعه مدلهای زبانی بومی خود هستند؛ بنابراین ایران نباید در این رقابت منطقهای عقب بماند.
از نظر اقتصادی، انصاری به ظرفیتهای قابل توجه این حوزه اشاره کرد و گفت که بازار مدلهای زبانی در آمریکا سالانه حدود ۳ درصد رشد دارد و در ایران نیز با ظرفیت شرکتهای دانشبنیان، دانشگاهها و پژوهشگاهها فرصت خوبی، بهویژه در حوزههای تولید محتوا، ترجمه ماشینی، خدمات سلامت، آموزش و صنایع مختلف برای کسب سهم از این بازار وجود دارد. اما یکی از موانع جدی پیشروی توسعه مدلهای زبانی فارسی را عدم دسترسی مناسب پژوهشگران و شرکتها به دادههای زبان فارسی دانست. او تأکید کرد: با وجود وجود دادههای زبان فارسی به صورت رسمی، در عمل این دادهها در دسترس قرار ندارند و این موضوع روند توسعه را کند کرده است. انصاری اضافه کرد: باید سازوکارهای شفاف و مؤثر حقوقی و فنی برای تسهیل دسترسی به دادهها و ایجاد پلتفرمهای داده باز با نظارت نهادهای حاکمیتی طراحی شود.
او همچنین به نقش حاکمیت در مدیریت دادهها و پایش شاخصهای اقتصاد دیجیتال پرداخت و یادآور شد که در برنامه هفتم توسعه مقرر شده مرکز آمار کشور با همکاری وزارت ارتباطات، به سنجش لایههای مختلف اقتصاد دیجیتال از جمله پلتفرمها و هستههای فناوری بپردازد. این اقدام را گامی مهم در جهت تحقق حکمرانی هوشمند و مدیریت موثر اقتصاد دیجیتال دانست.
مشاور هوشمندسازی پژوهشگاه ارتباطات گفت: برای دستیابی به نرخ رشد GDP موردنظر باید سالانه رشد اقتصادی ۸ درصدی حاصل شود که ۳۵ درصد این رشد باید از مسیر بهرهوری و دیجیتالیسازی صنایع تأمین گردد. او یادآور شد: طبق ماده ۶۶ قانون برنامه هفتم، تأمین داده و حفاظت از دادههای شخصی برای کسبوکارهای دیجیتال از اصول مهم است و توسعه زیرساختهای پردازشی و ارتباطات پرسرعت در کف هرم نیازمندیهای توسعه اقتصاد ناخالص کشور قرار دارد؛ زیرا دیتا و زیرساختها دو نیاز جداییناپذیر از هر اقدام فناورانه هستند.
او ادامه داد: اگر بخواهیم سهم اقتصاد دیجیتال را به ۱۰ درصد برسانیم، باید حدود ۱۲.۵۷ درصد رشد داشته باشیم. این هدف بدون توسعه زیرساختها و مشارکت دولت و بخش خصوصی در طراحی بسترهای حقوقی، قابل تحقق نیست. انصاری به تحلیل آماری اشاره کرد که نشان میدهد صنایع بزرگ کشور هنوز آمادگی پذیرش فناوریهای نوین را ندارند و این چالشی جدی است؛ اما در مقابل، حوزه خدمات رشد قابل توجهی در بهرهمندی از فناوری داشته است.
همچنین انصاری گفت: توسعه مدلهای زبانی فارسی صرفاً محدود به فناوری نیست بلکه بخشی از راهبرد کلان هوشمندسازی کشور است که نیازمند اقدامات هماهنگ در سیاستگذاری، زیرساخت و فرهنگسازی است.
امیرمحمد صالحاوف، مدیر تیم NLP مرکز تحقیقات هوش مصنوعی پارت، در نشست تخصصی مدلهای زبانی فارسی گفت که ابزارهای هوش مصنوعی اکنون بخش جداییناپذیر زندگی روزمره شدهاند. او توضیح داد که این مدلها اگرچه هنوز به دقت انسان نرسیدهاند، اما بسیار کاربردیاند. صالحاوف با مروری بر تاریخچه مدلهای زبانی گفت که از دهه ۹۰ میلادی مدلها پیشرفت زیادی داشتهاند و نقطه عطف این مسیر، معرفی معماری ترنسفورمر در سال ۲۰۱۸ بوده که پایه بسیاری از مدلهای امروزی است.
صالحاوف توضیح داد: با پیشرفت سختافزار، بهویژه GPUهای ویژهی هوش مصنوعی، در سال ۲۰۲۰ مدلهای زبانی بزرگ (LLMها) شکل گرفتند که بدون نیاز به دادههای خاص، میتوانستند بسیاری از کارهای زبانی را انجام دهند. او گفت شرکت پارت از سال ۱۳۹۶ ساخت مدلهای فارسی را آغاز کرد و اولین مدل آنها از مدلهای چندزبانه خارجی بهتر بود. سپس در سال ۱۳۹۸ موفق شدند نخستین مدل ترنسفورمری فارسی با ۱۵۰ میلیون پارامتر را آموزش دهند.
او گفت: پس از موفقیت در سال ۱۳۹۸، تیم آنها در سال ۱۴۰۰ روی مدلهای بزرگتر تمرکز کرد و مدلی با ۱۲۷ میلیون پارامتر ساخت. در سال ۱۴۰۱ هم برای اولینبار آموزش مدلهای بسیار بزرگ را آغاز کردند. به گفته او، در سال ۱۴۰۲ چند مدل زبانی بزرگ دیگر توسعه داده شد و تجربههای آموزشی مهمی بهدست آمد که انگیزه خوبی برای ورود جدیتر به مدلهای عظیمتر در سال ۱۴۰۳ فراهم کرد.
صالحاوف اضافه کرد: در سال گذشته، مدلهایی با حدود ۳۵ و بیش از ۱۰۰ میلیارد پارامتر منتشر کردهاند که هم از نظر علمی و هم تجاری اهمیت زیادی داشتهاند. او درباره توسعه مدل بومی گفت: مهمترین بخش این فرایند جمعآوری داده است. از سال ۲۰۱۸ به بعد، کیفیت و تنوع دادهها بیش از معماری مدل اهمیت پیدا کرده است. به گفته او، برای این کار حجم زیادی متن فارسی از منابع مختلف جمعآوری شده، با کمک OCR متن فایلهای تصویری و PDF استخراج شده، و حدود ۶ میلیون داده مصنوعی هم تولید شده است. همچنین بیش از ۱۵ هزار نفر-ساعت صرف برچسبگذاری انسانی شده تا مدل بتواند مفاهیمی مانند تاریخ، ادبیات، ریاضی و زیستشناسی را بهتر درک کند. دادههای ترجیح انسانی نیز برای آموزش مدلهای RLHF تهیه شدهاند.
مدیر NLP مجموعه پارت در پاسخ به اینکه چرا با وجود مدلهای خارجی باید مدل زبانی بومی داشت، گفت: از نظر تجربه کاربری، امنیت داده و دقت فرهنگی، مدل بومی برتری دارد؛ بهویژه در سازمانهای حساس مثل بانکها که نگرانی درباره نشت داده وجود دارد. او تأکید کرد که زبان فارسی بخشی از هویت فرهنگی ماست و مدلهای خارجی درک دقیقی از آن ندارند.
از منظر راهبردی هم او اشاره کرد: وابستگی به مدلهای خارجی، در بلندمدت خطرناک است؛ چرا که ممکن است دسترسی به آنها قطع شود و هزینههای دلاری بالایی به کشور تحمیل کند. همچنین، مدلهای بومی را میتوان برای حوزههای تخصصی و نیازهای خاص سازمانی بهخوبی شخصیسازی کرد، در حالی که مدلهای خارجی چنین امکانی ندارند یا به زیرساختهای پیشرفتهتری نیاز دارند.
امیرمحمد صالحاوف درباره برنامههای آینده گفت: برای سال جاری، دو مسیر کلیدی در دستور کار قرار دارد. در ابتدا، معرفی گروه مدل زبانی «شاهین» که با معماری و روش آموزشی متفاوت از گروه «درنا» توسعه خواهد یافت و تمرکز اصلی آن بر شخصیسازی و آموزش مدلها از صفر است. دوم، اجرای ارزیابیهای جامعتر که ابعاد بیشتری از توانایی مدلها را دربرمیگیرد تا بتوان آنها را با دقت بالاتری برای کاربردهای متنوع انتخاب و بهکار گرفت.
ایمان ظهوریان، معاون استراتژیک مرکز تحقیقات هوش مصنوعی پارت، گفت: هفت سال پیش پروژه «دیدهبان» را با هدف رصد مداوم تحولات جهانی و داخلی در حوزه هوش مصنوعی راهاندازی کردهایم. او گفت: دیدهبان صرفاً یک ناظر نیست، بلکه کاوشگری است که تلاش میکند این فناوری پیچیده و پویا را در بستر زیستجهان اجتماعی و فرهنگی تحلیل کند.
ظهوریان گفت: در پنج سال نخست، خروجی این رصد بهصورت کتابهایی منتشر شد که هم به معرفی کاربردهای هوش مصنوعی برای صنایع ناآشنا میپرداخت و هم نقشهای از زیستبوم داخلی این حوزه در ایران ارائه میداد. به گفته او، در دو سال اخیر این تحلیلها در قالب فصلنامه منتشر میشود و موضوعاتی چون «هوش حکمرانی» و «هوشوارگی ماشین» را پوشش داده است.
او اشاره کرد: با افزایش شتاب توسعه مدلهای زبانی فارسی، دیدهبان رویکردی آیندهنگر اتخاذ کرده و با بهرهگیری از دادههای انسانی و مدلهای استدلالگر مبتنی بر هوش مصنوعی، سناریوهایی برای آینده طراحی کردهاند. او استعاره درخت را برای توصیف زیستبوم هوش مصنوعی به کار برد: ریشههایی بهنام توان پردازشی، تنهای از مدلهای بومی، شاخههایی از مدلهای خاصمنظوره، و میوههایی در قالب نوآوریهای کاربردی. ظهوریان با رونمایی از شماره جدید دیدهبان با عنوان آینده بی پایان آن را نقطه عطفی در مسیر توسعه هوش مصنوعی فارسی دانست.