درخواست انحصار اوپنایآی و محدود کردن رقبایی همچون xAI ایلان ماسک
شرکت اوپنایآی که به تازگی جدیدترین دور جذب سرمایه خود را با ارزشگذاری ۱۵۰ میلیارد…
۱۲ مهر ۱۴۰۳
۲۸ شهریور ۱۴۰۳
زمان مطالعه : ۱۰ دقیقه
هوش مصنوعی، هنوز نتوانسته در زبان فارسی جایگاه خود را بیابد و خطاهای زیاد آن موجب میشود تا کاربران ایرانی با احتیاط بیشتری سراغ آن روند با این وجود قرار است فرهنگستان زبان و ادب فارسی به عنوان منبع و متولی نگارش صحیح متون فارسی مورد استناد ویرایشگرهای هوشمند قرار گیرد.
به گزارش پیوست، فعالان حوزه ویرایشگرهای هوشمند زبان فارسی برای دستری به منبع درست املایی واژگان سراغ فرهنگستان زبان و ادب فارسی رفتهاند و آن را منبع اصلی خود قرار دادهاند.
بنیانگذار ویراویراست فرهنگستان زبان و ادب فارسی را منبع و مرجع اصلی جهت استناد و اطمینان از صحت و درستی مطالب دانست و گفت: ما در ساخت ویراویراست از استانداردهای فرهنگستان زبان و ادبیات فارسی برای املا و دستور خط استفاده میکنیم.
سید محمدباقر سجادی، مدیرعامل دادماتک نیز اعلام کرد که ویرایش لغات بر اساس و برمبنای استانداردهای تعیین شده از سوی فرهنگستان زبان فارسی صورت میگیرد.
امین رحمانی، بنیانگذار ویراویراست، ویرایشگرهای هوشمند را اینچنین تعریف کرد: ویرایشگر هوشمند زبان فارسی ابزاری است که با استفاده از هوش مصنوعی و پردازش زبان طبیعی، متنهای فارسی را از نظر صوری (غلط املایی و دستور خط)، نگارشی، دستور زبانی، معنایی و ساختاری بررسی و ویرایش میکند. این ابزار باید دقت زیادی در تشخیص و تصحیح اشتباههای زبانی داشته و با سرعت خوبی پردازش کند.
او از دیگر ویژگیهای این ابزار را قابلیت سازگاری با سبکهای مختلف نگارش و رابط کاربری ساده و کاربرپسند مطرح کرد.
سید محمدباقر سجادی، مدیرعامل دادماتک در رابطه با تعریف این ابزار گفت: ویرایشگر هوشمند زبان فارسی، سامانهای است که زبان فارسی را به خوبی بشناسد و بتواند اشکالات املایی را با توجه به بافتار متن اصلاح و علائم نگارشی را ویرایش کند.
رعایت علائم نگارشی، یکسانسازی کاراکترها، اصلاح بر اساس فرهنگستان زبان و ادب، اصلاح کلمات غلط بر اساس دیکشنری و فرهنگ لغات فارسی، ویرایش نکردن کلمات درست و اصلاح براساس بافتار معنا ۶ ویژگیای است که مدیرعامل دادماتک برای یک ویرایشگر هوشمند برشمرد.
او در ارتباط با ویژگی اول و دوم گفت: یک ویرایشگر هوشمند زبان فارسی باید بتواند علائم ویرایشی مانند نقطه، ویرگول، دونقطه و غیره را به خوبی درک و در صورت لزوم اصلاح کند یا حتی وجود آن را به کاربر پیشنهاد دهد. در واقع یک ویرایشگر باید قابلیت این را داشته باشد تا علائم نگارشی را به خوبی مدیریت کند. منظور از یکسانسازی کاراکترها عمدتا کاراکترهای خاص از جمله کاراکترهای عربی است. یکسری از کاراکترها و حروف مانند «ک و ی» که مشابه عربی دارند هنگام نوشتن با کامپیوتر نیازمند یک یونی کد هستند. ویرایشگر باید هر کدام از اینها را یکسانسازی یا به اصطلاح تخصصیتر نرمالسازی کند. به عبارتی این ابزار باید نرمالسازی را انجام داده و همه حروف را متناسب با زبان فارسی استاندارد که کیبورد فارسی از آن پشتیبانی میکند مورد استفاده قرار دهد.
سجادی، اصلاح بر اساس بافتار معنا را مهمترین ویژگی یک ویرایشگر هوشمند زبان فارسی دانست. با توجه به این موضوع که در زبان فارسی با مجموعه کلمات همآوا و کلماتی با حروف یکسان رو به رو هستیم، انتخاب واژه برای ویرایشگر دشوار خواهد بود. بنابراین این ابزار باید با درک و فهم جمله، واژه متناسب را انتخاب کند. برای مثال ویرایشگر هوشمند چگونه باید تفاوت میان دو کلمه «قالب» و «غالب» را تشخیص دهد؟ تشخیص تمایز میان این واژههای همآوا به قابلیت فهم معنایی ویرایشگر هوشمند ارتباط دارد.
مدیرعامل دادماتک، دادههای آموزشی و دادههای ارزیابی را ۲ نوع داده مورد نیاز ویرایشگرهای هوشمند خواند. او درباره دادههای ارزیابی گفت: این نوع دادهها توسط عامل انسانی که افراد خبرهای در این زمینه هستند برچسبگذاری شده است. در واقع متنهایی که اشکالات املایی آن مشخص شده باشد، داده ارزیابی نام دارند. یکی از ویژگیهای مهم و عمده این نوع از دادهها، تنوع بالا است، به طوری که تمامی ویژگیهای یک ویرایشگر را در خود جای داده باشد. به عبارت دیگر میبایست انواع غلطهای املایی و نحوه نگارش صحیح آن در این مجموعه وجود داشته باشد.
دادههای آموزشی شامل حجم زیادی از متون و اسناد بدون برچسب است که به احتمال خیلی زیاد درست نوشته شدهاند و دارای ایراد نگارشی نیست مانند کتب، روزنامه و مجلات.
سجادی همچنین متذکر شد که گاهی در این دسته از مطالب احتمال بروز خطا هست. او وجود این خطاها را که به اصطلاح تخصصی «نویز» نامیده میشود، طبیعی و قابل مدیریت دانست.
رحمانی، آموزش مدلهای یادگیری ماشین را نیازمند دادههای گسترده و متنوع دانست که شامل متون ویرایش شده و دادههای برچسبگذاری شدهای است که خطاها و اصلاحات را نشان میدهد. همچنین متون تخصصی که واژگان و اصطلاحات خاصی را پوشش میدهد نیز برای آموزش این مدلها ضروری است.
بنیانگذار ویراویراست، فرهنگستان زبان و ادب فارسی را منبع و مرجع اصلی جهت استناد و اطمینان از صحت و درستی مطالب دانست و گفت: ما در ساخت ویراویراست از استانداردهای فرهنگستان زبان و ادبیات فارسی برای املا و دستور خط استفاده میکنیم.
رحمانی برای بخشهای معنایی و ساختاری، بهرهمندی از دانش و تخصص زبانشناسان و ویراستاران این مجموعه را عنوان کرد.
سجادی علاوهبر استناد به موارد فرهنگستان زبان و ادب فارسی که مرجع اصلی و استاندارد زبان فارسی است، استانداردهای ماشینی زبان فارسی را از دیگر استانداردهایی عنوان کرد که باید توسط ویرایشگرها رعایت شود. طبقه گفته مدیرعامل دادماتک ۲ گونه استاندارد وجود دارد، استاندارد فرهنگستان و استانداردهای ماشینی زبان فارسی که متعلق به سیستم کامپیوتری است.
سجادی در رابطه با گونه دوم استانداردها گفت: این استانداردها شاید لزوما به صورت مستقیم به خود زبان فارسی مرتبط نباشد و غالبا مورد توجه فهم و خوانش ماشینی است که باید استانداردهای کاراکترها همان یونی کدها و حروف فارسی را رعایت کند.
سجادی معتقد است رعایت استانداردهای مربوط به سیستمهای ماشینی چندان دشوار نیست و چه بسا سامانههای خارج از کشور نیز از این اصول تبعیت کنند. اما استانداردهای فرهنگستان موضوعی است که احتمال رعایت نشدن آن بسیار زیاد است.
استفاده از نیمفاصله، موضوعی که تحقیقا متعلق به زبان فارسی است، استفاده از همزه یا ی، شکل صحیح نوشتاری افعال و غیره مواردی است که برای نوشتن املای درست و بدون غلط آنها باید مطابق با استانداردهای فرهنگستان اقدام کرد. این موضوع حائز اهمیت باید توسط ویرایشگرهای هوشمند زبان فارسی که در داخل کشور توسعه مییابند پشتیبانی شود.
مدیریت پیچیدگیهای زبان فارسی مانند استثنائات نحوری، کلمات همآوا و کلمات چندمعنایی شامل دشواریهایی در ویرایشگر هوشمند زبان فارسی است. رحمانی استفاده از مدلهای یادگیری عمیق را راهحل و شیوه مدیریت این پیچیدگی عنوان کرد و گفت: برای مدیریت این پیچیدگیها، ما از مدلهای یادگیری عمیق استفاده میکنیم که قادر به تشخیص و تحلیل معنای کلمات در زمینههای مختلف است. پیشبینی همآوایی و معنای کلمات با استفاده از دادههای بزرگ و متنوع انجام میشود. مدلهای زبانی تولید شده بر اساس الگوریتم جدید گوگل (ترنسفرمر، ۲۰۱۸) تا حدی این پیچیدگیهای زبانی را حل کرده است.
سجادی، کلمات همآوا، همنویس و کلمات خاص را سه پیچیدگی مدیریت ویرایشگرهای هوشمند زبان فارسی دانست و راهحل آن را استفاده از ابزار هوش مصنوعی معرفی کرد.
او در رابطه با این پیچیدگیها گفت: کلمات همآوا به معنای کلماتی با نوشتار متفاوت اما آوایی یکسان عموما در ویرایشگرهای هوشمند به شکل درست املایی تشخیص داده نشده و حتی اگر به غلط نوشته شود، این واژه اصلاح نمیشود زیرا درک تمایز ۲ واژه همآوا برای این ابزار دشوار است. کلماتی چون حیات و حیاط، قالب و غالب و همچنین پرتقال و پرتغال نمونههایی از این واژگان همآوا هستند که انتخاب صحیح آنها توسط ویرایشگر مستلزم درک معنای آن واژه در جمله یا عبارت است.
کلمات همنویس مانند مِهر و مُهر نیز از دیگر موارد لازم به مدیریت است اما اندازه پیچیدگی این دسته از واژگان در قیاس با کلمات همآوا چندان دشوار و سخت و مقدار آنها بسیار زیاد نیست.
تا اینجا موارد مذکور شکل و ساختار صحیح، منبع و استاندارد فرهنگستان را شامل بودند و یک ویرایشگر میتواند متکی به این دادهها و با بهکارگیری ابزار هوش مصنوعی، املای صحیح آن را بنویسد. اما اسامی خاص در هیچ کدام از این دستهبندیها قرار نداشته و منبعی برای رجوع جهت نوشتار صحیح آن وجود ندارد. اسم شخص، برند تجاری، نام شرکت، تیمهای فوتبال یا حتی کلمات خارجی که به زبان فارسی نیز نوشته میشود از جمله اسامی خاصی است که شکل صحیح آن برای ویرایشگر هوشند زبان فارسی مجهول است. زمانی که ویرایشگر با املای نادرست این کلمات رو به رو میشود قاعدتا باید آن را اصلاح کند اما چون دیکشنری متصل به آن دارای نمونه صحیح آن نیست بنابراین به اصلاح آن اقدام نمیکند.
سجادی برای مدیریت این پیچیدگیها هوش مصنوعی را پیشنهاد داد و گفت: این پیچیدگیها را فقط میتوان با هوش مصنوعی مدیریت کرد. قبلا نیز ویرایشگرهایی داشتیم که رول بیس یا همان مبتنی بر قوانین دستی بودند اما آنها قابلیت درک و مدیریت پیچیدگیها را نداشتند. به تبع این ویرایشگرهای مبتنی بر قوانین در برابر پیچیدگیهای جدی زبان فارسی کارآمد نخواهند بود. بهکارگیری هوش مصنوعی جهت غلطیابی، اصلاح واژگان نادرست، درک تمایز کلمات همآوا و همنویسه و تشخیص شکل صحیح نوشتاری اسامی خاص که در حال حاضر اصلیترین چالش این حوزه است موثر خواهد بود.
رحمانی، دشواری مدیریت تنوع و پیچیدگیهای زبان فارسی، کمبود دادههای باکیفیت برای آموزش مدلها و همچنین سازگاری ابزار با سبکهای نگارشی مختلف را از جمله چالشهای ویرایشگرهای هوشمند برشمرد و در این باره گفت: زبان فارسی دارای تنوع زیاد در ساختارها و معانی کلمات است که این موضوع تحلیل دقیق و صحیح را دشوار میکند. مدیریت استثنائات زبانی و اطمینان از تطابق با استانداردهای نگارشی نیز از دیگر چالشهای کار با این ابزار است.
او همچنین گفت: در حال حاضر فرهنگستان به عنوان متولی حفظ و نگهداری زبان فارسی استانداردهای نگارشی بسیاری را ارائه کرده است.
نگارش متون فارسی محدود به یک سبک نیست و گونههای متفاوتی از جمله علمی، ادبی و محاورهای را شامل میشود. یک ویرایشگر هوشمند برای ویرایش مطلب باید متناسب با لحن و سبک غالب نگارش کرده و در همان چارچوب ویرایش کند. بنیانگذار ویراویراست برای این منظور، آموزش مدلهای زبانی ویرایش از طریق دادههای مختلف سبکهای نگارشی را الزامی دانست. او همچنین افزود که توسعه الگوریتمهای تطبیقی و سفارشیسازی پیشنهادها بر اساس نیازهای کاربران و نوع متن از راهکارهای ویراویراست برای سازگاری با سبکهای مختلف است.
طبق گفته رحمانی، ساختار زبانی پیچیده، واژگان متنوع و چندمعنای زبان فارسی بزرگترین چالش برای آموزش مدلهای زبانی است. افزون بر این، تفاوتهای فرهنگی و ادبیاتی در زبان فارسی نیز منجر به پیچیدگی بیشتر میشود و نیاز به توسعه مدلهای خاص برای زبان فارسی را افزایش میدهد. او برای حل این مشکلات، جمعآوری دادههای متنی فارسی ویرایش شده برای آموزش مدلهای زبانی، توسعه مدلهای خاص برای زبان فارسی و اعمال تکنیکهای پردازش زبان طبیعی به مشکلات خاص زبان فارسی را پیشنهاد داد.
ویرایشگر هوشمند همگام با پیشرفت فناوری نیازمند اعمال تغییرات و بهروزرسانیهایی است که اگر این موارد جدید اضافه نشود مسیر توسعه آن محقق نشده و به مرور کارآمدی این ابزار از دست خواهد رفت. مدیرعامل دادماتک در این راستا، پیشنهاددهی عبارات و جملات بهتر و توصیفیتر، تغییر جملات با ضرورت حفظ معنا به شکل ادبیتر و صریحتر، کوتاه کردن جملات طولاتی و بازسازی آن به طوری که خروجی بهتری نسبت به حالت اولیه داشته باشد را بیان کرد. او همچنین تعریف و مطرح کردن الگوی نوشتن نامه، وبلاگ و غیره که هر کدام ادبیات خاصی دارد توسط این ابزار برای سامانهها را نمونه پیشرفته خدمات این ابزار دانست.
بنیانگذار ویراویراست، استفاده از ترجمه ماشینی را گام مهمی در توسعه ویرایشگرها دانست؛ چرا که تفاوتهای فرهنگی، ادبی و نحوری میتواند باعث ایجاد و بروز خطاهای ترجمهای شده و کیفیت ترجمه را کاهش دهد. تشخیص احساسات، امکان دستهبندی کردن متون، تولید متن طبیعی (Natural Language Generation) و ویرایش محتوایی و علمی مربوط به حوزههای تخصصی مانند حقوقی یا پزشکی از دیگر قابلیتهایی است که استفاده از آنها را در پیشرفت و کارایی این ابزار نقش بسزایی دارد.