یسنا امان‌پور تحریریه

پیوست » فناوری » هوش مصنوعی » فرهنگستان زبان فارسی به عنوان منبع و متولی اصلی نگارش صحیح ویرایشگرهای هوشمند انتخاب شد

فرهنگستان زبان فارسی به عنوان منبع و متولی اصلی نگارش صحیح ویرایشگرهای هوشمند انتخاب شد

یسنا امان‌پور تحریریه

۲۸ شهریور ۱۴۰۳

زمان مطالعه : ۱۰ دقیقه

هوش مصنوعی، هنوز نتوانسته در زبان فارسی جایگاه خود را بیابد و خطاهای زیاد آن موجب می‌شود تا کاربران ایرانی با احتیاط بیشتری سراغ آ‌ن روند با این وجود قرار است فرهنگستان زبان و ادب فارسی به عنوان منبع و متولی نگارش صحیح متون فارسی مورد استناد ویرایشگرهای هوشمند قرار گیرد.

به گزارش پیوست، فعالان حوزه ویرایشگرهای هوشمند زبان فارسی برای دستری به منبع درست املایی واژگان سراغ فرهنگستان زبان و ادب فارسی رفته‌اند و آن را منبع اصلی خود قرار داده‌اند.

بنیان‌گذار ویراویراست فرهنگستان زبان و ادب فارسی را منبع و مرجع اصلی جهت استناد و اطمینان از صحت و درستی مطالب دانست و گفت: ما در ساخت ویراویراست از استانداردهای فرهنگستان زبان و ادبیات فارسی برای املا و دستور خط استفاده می‌کنیم.

سید محمدباقر سجادی، مدیرعامل دادماتک نیز اعلام کرد که ویرایش لغات بر اساس و برمبنای استانداردهای تعیین شده از سوی فرهنگستان زبان فارسی صورت می‌گیرد.

ویرایش بر اساس فهم و معنا عبارات و کلمات

امین رحمانی، بنیانگذار ویراویراست، ویرایشگرهای هوشمند را اینچنین تعریف کرد: ویرایشگر هوشمند زبان فارسی ابزاری است که با استفاده از هوش مصنوعی و پردازش زبان طبیعی، متن‌های فارسی را از نظر صوری (غلط املایی و دستور خط)، نگارشی، دستور زبانی، معنایی و ساختاری بررسی و ویرایش می‌کند. این ابزار باید دقت زیادی در تشخیص و تصحیح اشتباه‌های زبانی داشته و با سرعت خوبی پردازش کند.

او از دیگر ویژگی‌های این ابزار را قابلیت سازگاری با سبک‌های مختلف نگارش و رابط کاربری ساده و کاربرپسند مطرح کرد.

سید محمدباقر سجادی، مدیرعامل دادماتک در رابطه با تعریف این ابزار گفت: ویرایشگر هوشمند زبان فارسی، سامانه‌ای است که زبان فارسی را به خوبی بشناسد و بتواند اشکالات املایی را با توجه به بافتار متن اصلاح و علائم نگارشی را ویرایش کند.

رعایت علائم نگارشی، یکسان‌سازی کاراکترها، اصلاح بر اساس فرهنگستان زبان و ادب، اصلاح کلمات غلط بر اساس دیکشنری و فرهنگ لغات فارسی، ویرایش نکردن کلمات درست و اصلاح براساس بافتار معنا ۶ ویژگی‌ای است که مدیرعامل دادماتک برای یک ویرایشگر هوشمند برشمرد.

او در ارتباط با ویژگی اول و دوم گفت: یک ویرایشگر هوشمند زبان فارسی باید بتواند علائم ویرایشی مانند نقطه، ویرگول، دونقطه و غیره را به خوبی درک و در صورت لزوم اصلاح کند یا حتی وجود آن را به کاربر پیشنهاد دهد. در واقع یک ویرایشگر باید قابلیت این را داشته باشد تا علائم نگارشی را به خوبی مدیریت کند. منظور از یکسان‌سازی کاراکترها عمدتا کاراکترهای خاص از جمله کاراکترهای عربی است. یکسری از کاراکترها و حروف مانند «ک و ی» که مشابه عربی دارند هنگام نوشتن با کامپیوتر نیازمند یک یونی کد هستند. ویرایشگر باید هر کدام از این‌ها را یکسان‌سازی یا به اصطلاح تخصصی‌تر نرمال‌سازی کند. به عبارتی این ابزار باید نرمال‌سازی را انجام داده و همه حروف را متناسب با زبان فارسی استاندارد که کیبورد فارسی از آن پشتیبانی می‌کند مورد استفاده قرار دهد.

سجادی، اصلاح بر اساس بافتار معنا را مهم‌ترین ویژگی یک ویرایشگر هوشمند زبان فارسی دانست. با توجه به این موضوع که در زبان فارسی با مجموعه کلمات هم‌آوا و کلماتی با حروف یکسان رو به رو هستیم، انتخاب واژه برای ویرایشگر دشوار خواهد بود. بنابراین این ابزار باید با درک و فهم جمله، واژه متناسب را انتخاب کند. برای مثال ویرایشگر هوشمند چگونه باید تفاوت میان دو کلمه «قالب» و «غالب» را تشخیص دهد؟ تشخیص تمایز میان این واژه‌های هم‌آوا به قابلیت فهم معنایی ویرایشگر هوشمند ارتباط دارد.

اشتباهات املایی، مولفه توسعه مدل‌های ویرایشگر

مدیرعامل دادماتک، داده‌های آموزشی و داده‌های ارزیابی را ۲ نوع داده مورد نیاز ویرایشگرهای هوشمند خواند. او درباره داده‌های ارزیابی گفت: این نوع داده‌ها توسط عامل انسانی که افراد خبره‌ای در این زمینه هستند برچسب‌گذاری شده است. در واقع متن‌هایی که اشکالات املایی آن مشخص شده باشد، داده ارزیابی نام دارند. یکی از ویژگی‌های مهم و عمده این نوع از داده‌ها، تنوع بالا است، به طوری که تمامی ویژگی‌های یک ویرایشگر را در خود جای داده باشد. به عبارت دیگر می‌بایست انواع غلط‌های املایی و نحوه نگارش صحیح آن در این مجموعه وجود داشته باشد.

داده‌های آموزشی شامل حجم زیادی از متون و اسناد بدون برچسب است که به احتمال خیلی زیاد درست نوشته شده‌اند و دارای ایراد نگارشی نیست مانند کتب، روزنامه و مجلات.

سجادی همچنین متذکر شد که گاهی در این دسته از مطالب احتمال بروز خطا هست. او وجود این خطاها را که به اصطلاح تخصصی «نویز» نامیده می‌شود، طبیعی و قابل مدیریت دانست.

رحمانی، آموزش مدل‌های یادگیری ماشین را نیازمند داده‌های گسترده و متنوع دانست که شامل متون ویرایش‌ شده و داده‌های برچسب‌گذاری شده‌ای است که خطاها و اصلاحات را نشان می‌دهد. همچنین متون تخصصی که واژگان و اصطلاحات خاصی را پوشش می‌دهد نیز برای آموزش این مدل‌ها ضروری است.

فرهنگستان، اصلی‌ترین منبع استاندارد برای استناد

بنیان‌گذار ویراویراست، فرهنگستان زبان و ادب فارسی را منبع و مرجع اصلی جهت استناد و اطمینان از صحت و درستی مطالب دانست و گفت: ما در ساخت ویراویراست از استانداردهای فرهنگستان زبان و ادبیات فارسی برای املا و دستور خط استفاده می‌کنیم.

رحمانی برای بخش‌های معنایی و ساختاری، بهره‌مندی از دانش و تخصص زبانشناسان و ویراستاران این مجموعه را عنوان کرد.

سجادی علاوه‌بر استناد به موارد فرهنگستان زبان و ادب فارسی که مرجع اصلی و استاندارد زبان فارسی است، استانداردهای ماشینی زبان فارسی را از دیگر استانداردهایی عنوان کرد که باید توسط ویرایشگرها رعایت شود. طبقه گفته مدیرعامل دادماتک ۲ گونه استاندارد وجود دارد، استاندارد فرهنگستان و استانداردهای ماشینی زبان فارسی که متعلق به سیستم کامپیوتری است.

سجادی در رابطه با گونه دوم استانداردها گفت: این استانداردها شاید لزوما به صورت مستقیم به خود زبان فارسی مرتبط نباشد و غالبا مورد توجه فهم و خوانش ماشینی است که باید استانداردهای کاراکترها همان یونی کدها و حروف فارسی را رعایت کند.

سجادی معتقد است رعایت استانداردهای مربوط به سیستم‌های ماشینی چندان دشوار نیست و چه بسا سامانه‌های خارج از کشور نیز از این اصول تبعیت کنند. اما استانداردهای فرهنگستان موضوعی است که احتمال رعایت نشدن آن بسیار زیاد است.

استفاده از نیم‌فاصله، موضوعی که تحقیقا متعلق به زبان فارسی است، استفاده از همزه یا ی، شکل صحیح نوشتاری افعال و غیره مواردی است که برای نوشتن املای درست و بدون غلط آنها باید مطابق با استانداردهای فرهنگستان اقدام کرد. این موضوع حائز اهمیت باید توسط ویرایشگرهای هوشمند زبان فارسی که در داخل کشور توسعه می‌یابند پشتیبانی شود.

مدیریت پیچیدگی‌ها با هوش مصنوعی

مدیریت پیچیدگی‌های زبان فارسی مانند استثنائات نحوری، کلمات هم‌آوا و کلمات چندمعنایی شامل دشواری‌هایی در ویرایشگر هوشمند زبان فارسی است. رحمانی استفاده از مدل‌های یادگیری عمیق را راه‌حل و شیوه مدیریت این پیچیدگی عنوان کرد و گفت: برای مدیریت این پیچیدگی‌ها، ما از مدل‌های یادگیری عمیق استفاده می‌کنیم که قادر به تشخیص و تحلیل معنای کلمات در زمینه‌های مختلف است. پیش‌بینی هم‌آوایی و معنای کلمات با استفاده از داده‌های بزرگ و متنوع انجام می‌شود. مدل‌های زبانی‌ تولید شده بر اساس الگوریتم جدید گوگل (ترنسفرمر، ۲۰۱۸) تا حدی این پیچیدگی‌های زبانی را حل کرده است‌.

سجادی، کلمات هم‌آوا، هم‌نویس و کلمات خاص را سه پیچیدگی مدیریت ویرایشگرهای هوشمند زبان فارسی دانست و راه‌حل آن را استفاده از ابزار هوش مصنوعی معرفی کرد.

او در رابطه با این پیچیدگی‌ها گفت: کلمات هم‌آوا به معنای کلماتی با نوشتار متفاوت اما آوایی یکسان عموما در ویرایشگرهای هوشمند به شکل درست املایی تشخیص داده نشده و حتی اگر به غلط نوشته شود، این واژه اصلاح نمی‌شود زیرا درک تمایز ۲ واژه‌ هم‌آوا برای این ابزار دشوار است. کلماتی چون حیات و حیاط، قالب و غالب و همچنین پرتقال و پرتغال نمونه‌هایی از این واژگان هم‌آوا هستند که انتخاب صحیح آنها توسط ویرایشگر مستلزم درک معنای آن واژه در جمله یا عبارت است.

کلمات هم‌نویس مانند مِهر و مُهر نیز از دیگر موارد لازم به مدیریت است اما اندازه پیچیدگی این دسته از واژگان در قیاس با کلمات هم‌آوا چندان دشوار و سخت و مقدار آنها بسیار زیاد نیست.

تا اینجا موارد مذکور شکل و ساختار صحیح،‌ منبع و استاندارد فرهنگستان را شامل بودند و یک ویرایشگر می‌تواند متکی به این داده‌ها و با به‌کارگیری ابزار هوش مصنوعی، املای صحیح آن را بنویسد. اما اسامی خاص در هیچ کدام از این دسته‌بندی‌ها قرار نداشته و منبعی برای رجوع جهت نوشتار صحیح آن وجود ندارد. اسم شخص، برند تجاری، نام شرکت، تیم‌های فوتبال یا حتی کلمات خارجی که به زبان فارسی نیز نوشته می‌شود از جمله اسامی خاصی است که شکل صحیح آن برای ویرایشگر هوشند زبان فارسی مجهول است. زمانی که ویرایشگر با املای نادرست این کلمات رو به رو می‌شود قاعدتا باید آن را اصلاح کند اما چون دیکشنری متصل به آن دارای نمونه صحیح آن نیست بنابراین به اصلاح آن اقدام نمی‌کند.

درک تمایز شباهت و تفاوت‌ها، چالش اصلی ویرایشگرهای هوشمند

سجادی برای مدیریت این پیچیدگی‌ها هوش مصنوعی را پیشنهاد داد و گفت: این پیچیدگی‌ها را فقط می‌توان با هوش مصنوعی مدیریت کرد. قبلا نیز ویرایشگرهایی داشتیم که رول بیس یا همان مبتنی بر قوانین دستی بودند اما آنها قابلیت درک و مدیریت پیچیدگی‌ها را نداشتند. به تبع این ویرایشگرهای مبتنی بر قوانین در برابر پیچیدگی‌های جدی زبان فارسی کارآمد نخواهند بود. به‌کارگیری هوش مصنوعی جهت غلط‌یابی، اصلاح واژگان نادرست، درک تمایز کلمات هم‌آوا و هم‌نویسه و تشخیص شکل صحیح نوشتاری اسامی خاص که در حال حاضر اصلی‌ترین چالش این حوزه است موثر خواهد بود.

رحمانی، دشواری مدیریت تنوع و پیچیدگی‌های زبان فارسی، کمبود داده‌های باکیفیت برای آموزش مدل‌ها و همچنین سازگاری ابزار با سبک‌های نگارشی مختلف را از جمله چالش‌های ویرایشگرهای هوشمند برشمرد و در این باره گفت: زبان فارسی دارای تنوع زیاد در ساختارها و معانی کلمات است که این موضوع تحلیل دقیق و صحیح را دشوار می‌کند. مدیریت استثنائات زبانی و اطمینان از تطابق با استانداردهای نگارشی نیز از دیگر چالش‌های کار با این ابزار است.

او همچنین گفت: در حال حاضر فرهنگستان به عنوان متولی حفظ و نگهداری زبان فارسی استانداردهای نگارشی بسیاری را ارائه کرده است.

نگارش متون فارسی محدود به یک سبک نیست و گونه‌های متفاوتی از جمله علمی، ادبی و محاوره‌ای را شامل می‌شود. یک ویرایشگر هوشمند برای ویرایش مطلب باید متناسب با لحن و سبک غالب نگارش کرده و در همان چارچوب ویرایش کند. بنیانگذار ویراویراست برای این منظور، آموزش مدل‌های زبانی ویرایش از طریق داده‌های مختلف سبک‌های نگارشی را الزامی دانست. او همچنین افزود که توسعه الگوریتم‌های تطبیقی و سفارشی‌سازی پیشنهادها بر اساس نیازهای کاربران و نوع متن از راهکارهای ویراویراست برای سازگاری با سبک‌های مختلف است.

طبق گفته رحمانی، ساختار زبانی پیچیده، واژگان متنوع و چندمعنای زبان فارسی بزرگ‌ترین چالش‌ برای آموزش مدل‌های زبانی است. افزون بر این، تفاوت‌های فرهنگی و ادبیاتی در زبان فارسی نیز منجر به پیچیدگی بیشتر می‌شود و نیاز به توسعه مدل‌های خاص برای زبان فارسی را افزایش می‌دهد. او برای حل این مشکلات، جمع‌آوری داده‌های متنی فارسی ویرایش شده برای آموزش مدل‌های زبانی، توسعه مدل‌های خاص برای زبان فارسی و اعمال تکنیک‌های پردازش زبان طبیعی به مشکلات خاص زبان فارسی را پیشنهاد داد.

استفاده از ابزار پیشرفته برای عقب نماندن از توسعه

ویرایشگر هوشمند همگام با پیشرفت فناوری نیازمند اعمال تغییرات و به‌روزرسانی‌هایی است که اگر این موارد جدید اضافه نشود مسیر توسعه آن محقق نشده و به مرور کارآمدی این ابزار از دست خواهد رفت. مدیرعامل دادماتک در این راستا، پیشنهاددهی عبارات و جملات بهتر و توصیفی‌تر، تغییر جملات با ضرورت حفظ معنا به شکل ادبی‌تر و صریح‌تر، کوتاه کردن جملات طولاتی و بازسازی آن به طوری که خروجی بهتری نسبت به حالت اولیه داشته باشد را بیان کرد. او همچنین تعریف و مطرح کردن الگوی نوشتن نامه، وبلاگ و غیره که هر کدام ادبیات خاصی دارد توسط این ابزار برای سامانه‌ها را نمونه پیشرفته خدمات این ابزار دانست.

بنیانگذار ویراویراست، استفاده از ترجمه ماشینی را گام مهمی در توسعه ویرایشگرها دانست؛ چرا که تفاوت‌های فرهنگی، ادبی و نحوری می‌تواند باعث ایجاد و بروز خطاهای ترجمه‌ای شده و کیفیت ترجمه را کاهش دهد. تشخیص احساسات، امکان دسته‌بندی کردن متون، تولید متن طبیعی (Natural Language Generation) و ویرایش محتوایی و علمی مربوط به حوزه‌های تخصصی مانند حقوقی یا پزشکی از دیگر قابلیت‌هایی است که استفاده از آنها را در پیشرفت و کارایی این ابزار نقش بسزایی دارد.

فارسی هوش مصنوعی

https://pvst.ir/izo

0 نظر

ارسال دیدگاه لغو پاسخ