فناوری

مونا میرزایی تحریریه

پیوست » فناوری » هوش مصنوعی » ارزیابی مدل‌های زبانی بومی؛ ضرورت تعریف چارچوب مستقل این فناوری از هوش مصنوعی است

ارزیابی مدل‌های زبانی بومی؛ ضرورت تعریف چارچوب مستقل این فناوری از هوش مصنوعی است

مونا میرزایی تحریریه

۴ خرداد ۱۴۰۴

زمان مطالعه : ۹ دقیقه

توسعه مدل‌های زبانی بومی فارسی در میان رقابت فشرده جهانی در عرصه هوش مصنوعی، دیگر یک انتخاب نیست. بلکه ضرورتی راهبردی برای حفظ استقلال فناورانه، صیانت از داده‌های ملی، تقویت توان تولید داخلی و کاهش وابستگی به زیرساخت‌های خارجی است. آنچه امروز در ظاهر «پاسخ‌گویی ماشینی» به‌نظر می‌رسد، در واقع زیرساختی است برای قدرت نرم، امنیت دیجیتال، اقتصاد دانش‌بنیان و شکل‌دهی به آینده حکمرانی داده‌محور. غفلت از توسعه هدفمند این فناوری، تکرار تجربه‌های از دست‌رفته دهه‌های پیشین در حوزه پیام‌رسان‌ها و زیرساخت‌های دیجیتال خواهد بود. با این تفاوت که این‌بار، پیامدها صرفاً فناورانه نیستند، بلکه به بافت اقتصادی، امنیتی و حتی موقعیت بین‌المللی کشور نیز گره خورده‌اند.

به گزارش پیوست؛ ضا محمدی، عضو هیئت علمی دانشگاه علم‌وصنعت، در پنل تخصصی «چرایی توسعه مدل زبانی فارسی» در رویداد «هوش مصنوعی و قند پارسی» شرکت پارت، ضمن تأکید بر غیراقتصادی بودن این فناوری برای ایران، گفت: یکی از مهم‌ترین تأثیرات مدل‌های بومی، جنبه فرهنگی آن است. این فناوری به‌مرور در حال فرهنگ‌سازی است و پاسخ‌هایی که از سوی مدل‌های زبانی تولید می‌شود، می‌توانند بر شکل‌گیری فرهنگ و تصمیم‌گیری‌های عمومی در سال‌های آینده اثرگذار باشند.

او ادامه داد: همه می‌دانیم که این مدل‌ها دارای سوگیری‌اند، چرا که داده‌هایشان از دامنه‌های مختلف و بعضاً ناهمگن گردآوری شده است. بنابراین با یک پدیده جهانی مواجهیم که صرفاً محدود به زبان فارسی نیست.

محمدی از منظر اقتصادی نیز بر لزوم حفظ امنیت داده‌ها تأکید کرد و گفت: در بسیاری از کاربردها، ضرورتی ندارد مدل‌ها را از ابتدا آموزش دهیم. اگر بتوانیم مدل‌های موجود را با کارایی بالا برای زبان فارسی به‌کار بگیریم، آن‌ها را به‌سرعت پیاده‌سازی کنیم و در عین حال مانع خروج داده از کشور شویم، این می‌تواند یک راهکار مؤثر باشد؛ همان کاری که بسیاری از شرکت‌های بین‌المللی نیز انجام می‌دهند.

او با اشاره به ملاحظات راهبردی اضافه کرد:با توجه به تحریم‌ها و احتمال محدود شدن دسترسی به مدل‌های متن‌باز خارجی، اگر کشور ما هیچ مدلی در اختیار نداشته باشد، دچار چالش‌های اساسی خواهد شد. بنابراین، توسعه مدل‌های بومی از منظر استراتژیک بسیار حائز اهمیت است؛ چرا که در آینده نه‌چندان دور، توانمندی کشورها در حوزه هوش مصنوعی به یکی از معیارهای اصلی قدرت و استقلال آن‌ها بدل خواهد شد.

محمدی همچنین هشدار داد: ما در گذشته تجربه‌هایی داشته‌ایم که به‌دلیل نبود مسأله‌محوری، صرفاً بودجه صرف توسعه مدل شده، اما خروجی قابل استفاده‌ای نداشته‌ایم. اگر قرار است از ابتدا مدل آموزش دهیم، باید این کار مبتنی بر یک مسأله واقعی و قابل حل باشد که مشتری حاضر باشد بابت حل آن هزینه کند.

او گفت: به‌جای ورود مستقیم دولت، شاید بهتر باشد شرکت‌های فعال در حوزه هوش مصنوعی خودشان مسائل اقتصادی تعریف کنند و با تکیه بر آن‌ها به درآمدزایی برسند. این رویکرد می‌تواند پایداری بیشتری به همراه داشته باشد.

ضرورت توسعه مدل‌های زبانی فارسی و چالش‌های پیش‌رو

الهام فراهانی، عضو هیئت‌مدیره انجمن ملی هوش مصنوعی و هیئت علمی دانشگاه، درمورد چگونگی ایجاد ضرورت برای توسعه مدل‌های زبانی فارسی گفت: بسیاری از کاربران عمومی و تخصصی مدل‌های بزرگ زبانی هوش مصنوعی از وجود مدل‌های زبان فارسی خبر ندارند و تصورشان بر این مبنی است که یا این محصولات دقیق نیستند و یا ضرورتی نمی‌بینند وقتی نمونه‌های خارجی مثل ChatGPT، جمنای و دیپ‌سیک از زبان فارسی پشتیبانی می‌کنند؛ از مدل‌های فارسی استفاده کنند. بنابراین یکی از راه‌های هموارسازی برای توسعه مدل‌های بومی، متقاعد کردن نه تنها دولت برای حمایت، بلکه پذیرش در میان مصرف‌کنندگان آن هم است.

او با تأکید بر ضرورت ورود دولت به زیرساخت‌سازی افزود: فعالیت‌های بنیادین و زیرساختی باید به شکل سازمان‌یافته و با حمایت حاکمیتی تعریف و اجرا شوند. این سطح از پروژه‌ها فراتر از توان یک شرکت خصوصی است و نیاز به تعریف پروژه‌ای بزرگ، با حمایت دولتی دارد.

فراهانی با صراحت گفت: اینکه بگوییم چون مدل زبانی بومی نداریم، پس پروژه‌ای در این حوزه برنداریم، منطقی نیست. ما در حال حاضر پروژه‌هایی در حال اجرا داریم که با کیفیت خوب و هزینه بسیار پایین پیش می‌روند. اما متأسفانه به دلیل نبود آگاهی در برخی سازمان‌ها، برخی سودجویان از این شرایط سوءاستفاده می‌کنند. او هشدار داد: در مواردی دیده‌ایم که برای توسعه یک چت‌بات سازمانی ساده، هزینه‌هایی تا ۱۰ میلیارد تومان پیشنهاد شده، در حالی که آن پروژه شاید با ۱۰۰ میلیون تومان هم قابل اجرا بود. این رفتارها از نظر اخلاقی نگران‌کننده است و ناشی از شکاف دانشی موجود در کشور است.

فراهانی ادامه داد: در قدم اول، باید شفاف‌سازی و آگاه‌سازی عمومی صورت گیرد. رویدادهایی مثل همین نشست، می‌توانند نقش مؤثری در افزایش درک عمومی از ماهیت، مزایا و تفاوت‌های مدل‌های زبانی ایفا کنند. در خصوص شیوه اجرای پروژه‌ها تأکید کرد: من با اجرای پروژه‌ها توسط دولت مخالفم. دولت باید نقش حمایت‌گر داشته باشد، اما اجرای پروژه باید توسط بخش خصوصی انجام شود. الگویی که در کشور عمان پیاده شده می‌تواند الهام‌بخش باشد؛ در آنجا نهادی واسط بین دولت و بخش خصوصی وجود دارد که اجرای پروژه را تضمین می‌کند و سپس آن را به شرکت‌های کوچک‌تر واگذار می‌کند. چنین مدلی می‌تواند برای کشور ما هم بسیار مفید باشد.

زیست‌بومی برای توسعه مسئولانه و پایدار مدل‌های زبانی فارسی

سعیده ممتازی، هیئت علمی دانشگاه صنعتی امیرکبیر، با اشاره به امکان استفاده از مدل‌های موجود در حوزه پردازش زبان فارسی گفت: ما می‌توانیم از مدل‌های زبانی موجود خارجی بهره‌برداری کنیم، چرا که بسیاری از آن‌ها قابلیت‌هایی برای زبان فارسی هم دارند. درواقع، مدل‌های موجود می‌توانند زبان فارسی را پردازش کرده و حتی متن تولید کنند. اما زمانی که وارد لایه عمیق‌تری از زبان، یعنی فرهنگ نهفته در پس زبان می‌شویم، آن‌جاست که محدودیت‌ها خود را نشان می‌دهند.

او ادامه داد: تجربه ما نشان داده حتی در مدل‌های کوچک‌تری که از ابتدا برای زبان فارسی آموزش داده شده‌اند، پاسخ به مسائل فرهنگی دقیق‌تر و هم‌راستاتر بوده است تا مدل‌های بزرگ‌تر و عمومی. ممتازی بر اهمیت بهینه‌سازی مدل‌ها در شرایط محدودیت زیرساختی کشور تأکید کرد و گفت: تردیدی نیست که زیرساخت‌های ما اجازه نمی‌دهد به‌راحتی مدل‌های بزرگ جهانی را، آن‌گونه که هستند، در کشور به کار بگیریم. بنابراین نیاز به بهینه‌سازی داریم. اما این بهینه‌سازی نباید صرفاً سطحی یا تقلیدی باشد؛ باید به سمت مدل‌های بومیِ بهینه‌شده حرکت کنیم.

ممتازی همچنین گفت: استفاده از مدل‌های کلوز یا حتی مدل‌های متن‌باز سنگین، بدون بهینه‌سازی و بومی‌سازی، می‌تواند دقت در زبان فارسی را به‌شدت کاهش دهد. ما به مدل‌هایی نیاز داریم که نه‌فقط از نظر زبانی، بلکه از نظر فرهنگی نیز بومی شده باشند. از نظر او، یکی از چالش‌های مهم، توجه به مسئله محرمانگی داده‌ها است: اگر قرار است از داده‌های ملی و بومی برای آموزش مدل‌ها استفاده شود، باید حفاظت از محرمانگی این داده‌ها در اولویت قرار گیرد. تحت هیچ شرایطی نباید این داده‌ها بدون نظارت و چارچوب مشخص مورد استفاده قرار بگیرند. ممتازی ضمن ارجاع به نکات مطرح‌شده توسط سایر سخنرانان، تأکید کرد: در کنار بهینه‌سازی، بومی‌سازی و حفظ محرمانگی، باید به دنبال ایجاد یک زیست‌بوم باثبات برای توسعه مدل‌های زبانی باشیم؛ مدلی که هم علمی باشد، هم اخلاقی و هم متناسب با ظرفیت‌های بومی کشور.

ممتازی بر لزوم ارزیابی دقیق مدل‌های زبانی فارسی تأکید کرد و گفت: اختلافات درونی زبان فارسی ایجاب می‌کند ارزیابی‌ها در آزمایشگاه‌های معتبر داخلی انجام شود. وی افزود که این ارزیابی‌ها نباید صرفاً بر مبنای استانداردهای خارجی باشد، بلکه باید چارچوب بومی‌شده‌ای نیز برای آن تعریف شود تا بتوان عملکرد مدل‌ها را متناسب با فرهنگ و زبان فارسی سنجید.

به گفته او، طی یک سال گذشته دو نسخه از مدل‌ها توسعه یافته و آزمایشگاه آن‌ها به‌عنوان مرجع ارزیابی در حال تثبیت است. همکاری با پژوهشگاه‌ها نیز نقش مؤثری در پیشبرد این مسیر داشته است. ممتازی تأکید کرد: ارزیابی‌های بومی و بین‌المللی مکمل یکدیگرند. از یک‌سو، باید بتوان نشان داد که مدل‌های فارسی در زمینه‌هایی که مدل‌های عمومی خارجی ضعف دارند، عملکرد بهتری ارائه می‌دهند. از سوی دیگر، مقایسه با مدل‌های خارجی مانند انگلیسی به ما کمک می‌کند جایگاه کیفی مدل‌ها را با معیارهای جهانی بسنجیم و در مسیر توسعه، تصمیمات دقیق‌تری اتخاذ کنیم.

اهمیت سرمایه‌گذاری در هوش مصنوعی هم‌تراز صنایع بزرگ نفت و معدن

علی‌اصغر انصاری، مشاور هوشمندسازی پژوهشگاه ارتباطات، با اشاره به عملکرد مطلوب برخی مدل‌های زبانی جهانی در زبان فارسی، تصریح کرد:عملکرد برخی مدل‌های بین‌المللی در زبان فارسی قابل قبول است، اما وقتی از بومی‌سازی صحبت می‌شود، مسئله صرفاً کیفیت نیست، بلکه باید به جنبه‌های راهبردی و زیرساختی آن نگاه کرد. بازار فناوری در ایران محدود است و توسعه برخی محصولات، مانند گوشی هوشمند، با بازگشت سرمایه مواجه نمی‌شود؛ ولی در مورد مدل‌های زبانی، موضوع متفاوت است.

او ادامه داد:مدل‌های زبانی تنها ابزارهای فناورانه نیستند. آن‌ها حامل قدرت نرم، مولفه‌ای از حاکمیت داده، و عامل مهمی در صیانت از فرهنگ و هویت ملی هستند. همان‌گونه که در حوزه‌های دفاعی نیاز به خودکفایی وجود دارد، در فناوری‌های نوین هم باید بر بومی‌سازی تمرکز شود.

انصاری به تجربه‌های از دست‌رفته در سال‌های گذشته اشاره کرد و افزود: در دهه ۹۰، زمان طلایی برای توسعه پیام‌رسان‌های بومی از دست رفت و ما به پلتفرم‌های خارجی وابسته شدیم. در دهه ۸۰ نیز پروژه‌های مهمی در حوزه نرم‌افزارهای زیرساختی بی‌نتیجه ماندند. اکنون در آستانه تحول در حوزه مدل‌های زبانی قرار داریم و نباید اجازه داد فرصت دوباره‌ای از بین برود.

از نظر او، بومی‌سازی مدل‌های زبانی نه‌تنها توجیه فرهنگی و امنیتی دارد، بلکه از نظر اقتصادی نیز قابل دفاع است:این مدل‌ها می‌توانند زیرساخت تولید محصولات متنوع مبتنی بر هوش مصنوعی باشند و سهم بازار داخلی را حفظ کنند. اتکا به توان داخلی، وابستگی به شرکت‌های خارجی را کاهش می‌دهد.

انصاری همچنین بر جایگاه ملی هوش مصنوعی در سیاست‌گذاری‌های کلان تأکید کرد: در حوزه نفت و معدن سرمایه‌گذاری‌های عظیمی تقریبا به اندازه ۱۲۰ میلیارد دلار با اراده حاکمیتی صورت گرفته است. اگر قرار باشد هوش مصنوعی نیز به یک مزیت ملی تبدیل شود، باید در تراز همان صنایع برای آن برنامه‌ریزی شود.

او با اشاره به رقابت ژئوپلیتیکی قدرت‌ها در حوزه فناوری گفت: محدودیت‌هایی که آمریکا علیه چین در زمینه سخت‌افزار اعمال کرده، نشان می‌دهد هوش مصنوعی به حوزه قدرت و رقابت استراتژیک وارد شده است. در چنین شرایطی، تنها با سرمایه‌گذاری منسجم، می‌توان جایگاه قابل‌اتکایی در این عرصه به دست آورد. همچنین به نبود نظام فنی مشخص در پروژه‌های هوش مصنوعی کشور نیز انتقاد کرد و گفت:شرکت‌های فعال در این حوزه قرارداد می‌بندند، اما چارچوب اجرایی مشخصی ندارند. دولت باید با تدوین آیین‌نامه‌ها، استانداردها و نظامات فنی، این خلأ را برطرف کند.

مدل زبانی هوش مصنوعی ایرانی

https://pvst.ir/l8e

0 نظر

ارسال دیدگاه لغو پاسخ