skip to Main Content
محتوای اختصاصی کاربران ویژهورود به سایت

فراموشی رمز عبور

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ عضو شوید

ثبت نام سایت

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ وارد شوید

فراموشی رمز عبور

وارد شوید یا عضو شوید

جشنواره نوروزی آنر

نویسندگی با AI ادبیات و هوش مصنوعی را با هم نابود می‌کند

۳ آذر ۱۴۰۴

زمان مطالعه : ۱۱ دقیقه

با ظهور مدل‌های زبانی بزرگ (یا LLMها) پس از شهرت گرفتن ChatGPT در سال ۲۰۲۲ که حالا رقبایی چون گراک و جمینای گوگل را نیز در کنار خود دارد، هرآنچه به متن و نگارش مربوط می‌شد به یک باره دگرگونی بزرگی را پیش روی خود می‌دید. الگوریتم‌های عظیم هوش مصنوعی به واسطه دسترسی به داده‌های آموزشی ساخت انسان و تقلید الگو‌های نگارش انسانی، در کمتر از یک دقیقه می‌‌توانند متنی خواندنی و تا حدی غیرقابل تمایز از نوشته انسانی تولید کنند.

گرچه حالا قابلیت‌های هوش مصنوعی مولد به بخش‌‌های دیگری چون تصویر، ویدیو، صوت و کدنویسی نیز توسعه یافته اما نگارش متن در هر ابعادی شاید بیشتر از همه تحت تاثیر این فناوری قرار گرفته است. گزارشی از گاردین با اشاره به نظرسنجی میان نویسندگان رمان انگلستان نشان داد که ۵۱ درصد از نویسندگان باور دارند هوش مصنوعی در نهایت به طور کامل جایگزین آنها می‌شود و حتی ۳۹ درصد آنها از کاهش درآمد خود در نتیجه هوش مصنوعی مولد خبر داده‌اند.

گرچه تولید متن به ظاهر باکیفیت، سریع و تقریبا رایگان در ابتدا هیجان انگیز به نظر می‌رسد اما در بلندمدت و طبق تحقیقات انجام گرفته، معضل امروز نویسندگان به جام زهری برای هوش مصنوعی تبدیل می‌شود.

به عبارت ساده هرچه هوش مصنوعی بیشتر بنویسد، داده‌های آموزشی باکیفیت انسانی کمتری برای آموزش نسل‌های بعدی این فناوری در دسترس است و مدل با آموزش بر مبنای داده‌های بی‌کیفیت ساخته نسل پیشین خود، به‌تدریج در مسیر«سقوط» گام بر می‌‌دارد و توانایی تولید متن معنادار را از دست خواهد داد.

اما در سوی دیگر، صنعت نشر و نویسندگی که امروز خود را در معرض یک بحران مشاهده می‌کند، با توجه به اهمیت محتوای کاملا انسانی و قابل تایید، احتمالا در مسیر یک تبدیل به یک نظام دو بخشی حرکت خواهد کرد که ارزش فرهنگی و اقتصادی آثار اصیل انسانی به شدت در مقابل انبوهی از زباله‌های دیجیتال، افزایش خواهد یافت.

کتاب‌های ارزان‌، بی‌کیفیت اما پرفروش هوش مصنوعی

از سال ۲۰۲۳ به بعد و با فراگیر شدن هوش مصنوعی، پلتفرم کتاب دیجیتال آمازون (KDP) شاهد انفجار تعداد کتاب‌ها بوده است. طبق برخی تخمین‌های غیررسمی، در سال ۲۰۲۴ بیش از ۶۰ تا ۷۰ درصد کتاب‌های جدید در برخی ژانرها (رمان عاشقانه، کتاب کودک، راهنمای سفر) این پلتفرم به طور کامل یا تا حد زیادی توسط هوش مصنوعی نوشته شده‌اند.

گزارشی از وایس در سال ۲۰۲۳ نشان می‌دهد که چطور بخش پرفروش‌‌های این پلتفرم‌ را کتاب‌‌های بی‌معنای نوشته هوش مصنوعی قبضه کرده‌اند. هزینه‌ی تولید چنین کتاب‌هایی کمتر از ۵۰ دلار (چند ساعت کار با میدجرنی برای طراحی جلد و استفاده از چت‌بات‌ها برای متن و صفحه‌آرایی خودکار) است، در حالی که یک نویسنده برای یک رمان ۸۰ هزار کلمه‌ای ممکن است ۶ تا ۱۸ ماه زمان بگذارد.

نتیجه؟ قیمت متوسط کتاب‌های الکترونیکی در ژانرهای پرطرفدار به شدت سقوط کرده است. خواننده‌ای که در گذشته حاضر بود ۹.۹۹ دلار برای یک رمان عاشقانه‌ باکیفیت بپردازد، حالا می‌تواند با ۰.۹۹ دلار یا حتی رایگان (در قالب اشتراک Kindle Unlimited) به ده‌ها رمان مشابه دسترسی پیدا کند. این کاهش قیمت، درآمد نویسندگان انسانی را به شدت کاهش می‌دهد و نظرسنجی انجام گرفته میان رمان‌نویسان بریتانیایی نیز این پدیده را تایید می‌کند.

اما خطر این پدیده تنها متوجه نویسندگان و ناشران نیست، چراکه توسعه‌دهندگان هوش مصنوعی نیز برای پیشرفت و بهبود ابزارها یا حتی حفظ کیفیت فعلی آنها به داده‌های با کیفیت نیاز دارند و کتاب و نوشته‌های انسانی مهم‌ترین منبعی است که به تولد چنین ابزارهای قدرتمندی منجر شد. شرکت‌های هوش مصنوعی نه تنها از داده‌های رایگان پیشا AI که توسط انسان‌‌ها در فضای وب منتشر شده بود برای آموزش استفاده کرده‌اند، بلکه حتی کتاب‌های دارای حق نشر و سرقتی را نیز در داده‌های آموزشی خود جای داده‌‌اند.

کیفیت مدل‌ها تا حد زیادی به داده‌های آموزشی وابسته است، چرا که هوش مصنوعی توالی کلمه‌ها را بر مبنای الگو‌های موجود در داده‌های آموزشی خود حدس می‌زند و هرچه داده‌ها بی کیفیت‌تر شوند، خروجی بی‌کیفیت‌تر می‌شود و هرچه خروجی این ابزارها بیشتر در دیتاست‌های آموزشی نفوذ کند، این مدل‌ها از اوج خود فاصله می‌گیرند (روندی که البته شرکت‌های هوش مصنوعی با راه‌حل‌هایی به دنبال جلوگیری از آن هستند.)

همین مساله باعث می‌شود تا در آینده احتمالا یک نظام دوبخشی را حوزه کتاب‌ها و نشریات مشاهده کنیم. در بخش نوشته‌هایی را داریم که کاملا نوشته انسان‌‌ها هستند و نه تنها از ارزش‌ذاتی بالایی برخوردارند، بلکه به دلیل کم‌یاب بودنشان قیمت بیشتری هم برای مخاطب و هم برای مدل‌های هوش مصنوعی خواهند داشت و در بخش دیگر هم تولیدات کاملا مصنوعی که بدون شک ارزش چندانی نخواهند داشت (که البته یک طیف ترکیبی نیز در این میان این دو حداکثر قرار می‌گیرند.)

در دنیای هنر و به ویژه موسیقی نیز پیش از این پدیده‌ای مشابه را مشاهده کرده‌ایم. دسترسی رایگان به موسیقی و تولید ساده آن با ابزارهای دیجیتالی باعث شد تا تنها تعداد کمی از موزیسین‌ها و آثار تایید شده در پلتفرم‌هایی چون اسپاتیفای درآمد قابل توجه داشته باشند و بقیه به سمت صفر میل کنند.

تغییر ماهیت نویسندگی

قوانین کپی‌رایت آمریکا و اروپا تصریح می‌کنند اثری که به طور کامل توسط هوش مصنوعی خلق شده باشد، قابل ثبت نیست. بنابراین در چنین آثاری، نقش نویسنده از «خالق متن» به «کارگردان خلاق» یا «curator» تغییر ماهیت می‌دهد و انسان فقط ارائه دهنده پرامپت، گزینش‌گر و ویرایش‌کننده خروجی نهایی و پذیرنده مسئولیت آن است.

بنابراین گرچه در بخش قبل توضیح دادیم که آثار اصیل و نوشته‌های کاملا انسانی همچنان ارزشمند باقی می‌مانند، اما در بسیاری از موارد ممکن است نویسندگان معمولی و تازه‌کار حتی انگیزه‌ی یادگیری فنون داستان‌نویسی عمیق را از دست بدهند.

گفتنی است که براساس آخرین نسخه سال ۲۰۲۳ دستورالعمل‌های ثبت حق نشر ایالات متحده، نویسندگان می‌توانند در صورت استفاده از هوش مصنوعی در آثار خود در صورتی ایفای نقش انسان در بیان این آثار «به اندازه کافی خلاق» باشد، حق نشر آن را در اختیار بگیرند.

با این حال هرچه استفاده از هوش مصنوعی در نوشته‌های مختلف از جمله کتاب و محتوا بیشتر می‌شود، خروجی نویسندگان کیفیت کمتری پیدا خواهد کرد و همین خروجی که قرار است داده‌‌های آموزشی نسل بعد را تشکیل دهد باعث بی کیفیت‌تر شدن مدل‌های هوش مصنوعی نسل بعدی خواهد شد. پدیده‌ای که از آن با نام «فروپاشی مدل» یا «Model Collapse» یاد می‌شود.

چرا فروپاشی مدل (Model Collapse) اجتناب‌ناپذیر است؟

«فروپاشی مدل» پدیده‌ای است که در آن مدل‌های مولد مبتنی بر توالی (recursive؛ پیش‌بینی محتمل‌ترین کلمه بعدی براساس توالی فعلی در جمله یا کلمه اول) در نتیجه آموزش بر اساس خروجی‌های مدل‌های قبلی (داده مصنوعی)، به‌تدریج از نحوه توزیع کلمات و جملات واقعی در زبان انسانی فاصله می‌گیرند و این فاصله در نهایت به دلیل حجم عظیم داده‌های ساخته مدل‌های نسل قبلی در داده‌های آموزشی به حدی زیاد می‌شود که شاهد تولید متون همگن، تکراری و بی‌معنا خواهیم بود.

این پدیده اولین بار در مقاله‌ی معروف «The Curse of Recursion» توسط محققان دانشگاه کمبریج، ادینبورگ، تورنتو و موسسه وکتور مطرح و سپس در مقالات ۲۰۲۳–۲۰۲۴ به طور کامل اثبات ریاضی و تجربی شد.

سه خطای اصلی که به فروپاشی مدل منجر می‌شوند

۱. خطا در نمونه‌گیری آماری (Statistical Sampling Error)

پژوهشگران کالج دانشگاهی لندن و پژوهشگران شرکت Holistic AIv، در پژوهشی این خطا را اینگونه توضیح می‌دهند که هر بار ما متنی را توسط هوش مصنوعی تولید و سپس همان را به عنوان داده‌ آموزشی استفاده می‌کنیم، بخش‌هایی از توزیع واقعی زبان و نگارش انسان (به‌ویژه در رابطه با موارد نادر، سبک‌های خاص، اصطلاحات محلی، طنز پیچیده، استعاره‌های نو) به دلیل حجم محدود نمونه‌گیری از بین می‌رود.

۲. خطای بیان عملی (Functional Expressivity Error)

هیچ مدلی (حتی با ۱۰ هزار میلیارد پارامتر هم) نمی‌تواند تمام پیچیدگی‌های زبان انسانی را به طور کامل به نمایش بگذارد. بنابراین همیشه بخشی از «عمق زبان انسانی» در فرآیند تولید از بین می‌رود. این خطا هرچه نسل تولیدات مصنوعی بیشتر می‌شود، افزایش یافته و در نتیجه هوش مصنوعی را از بیان عمیق انسانی دورتر می‌کند.

۳. خطا در بهینه‌سازی یا یادگیری (Optimization/Learning Error)

الگوریتم‌های یادگیری آماری به طور طبیعی به سمت الگوهایی گرایش دارنده که یادگیری آنها ساده است و درعین حال پرتکرار هستند. بنابر این، هر نسل جدید بیشتر به سمت کلیشه‌ها، جملات ساده و ساختارهای تکراری پیش می‌رود.

ترکیب این سه خطا و انباشت آن در نسل‌های متوالی مدل‌هایی که ممکن است در آینده به طور غیرمستقیم یا مستقیم مسئول تولید بخش عظیمی از داده‌های آموزشی خود باشند، در نهایت در نسل nام شکاف زیادی را میان هوش مصنوعی با واقعیت بیان انسانی رقم می‌زند و در نهایت خروجی مدل به متونی کاملا همگن و بی‌معنا تبدیل می‌شود به گونه‌ای که با گذشت زمان و عبور از تعداد نسل‌های کافی، خروجی مدل زبانی به تکرار‌های بی معنی و چینش تصادفی کلمات تقلیل می‌یابد و مطالعه پژوهشگران دانشگاه پکینگ چین نشان می‌دهد که گرچه تا چندین نسل (در مواردی تا ۲۵ نسل) در ابتدا تنوع کلمات و گوناگونی زبانی مدل بهبود پیدا می‌کند، اما به یکباره شاهد سقوط کیفیت خروجی هستیم.

این فروپاشی طبق گفته پژوهشگران دو مرحله دارد و در مرحله اولیه شاهد از دست رفتن تنوع زبانی و سبک‌های ادبی با ارزش و پیجیده است و در نهایت در مرحله نهایی این فروپاشی، تسلط و زبان روان ظاهری مدل هم نابود می‌شود و در واقع هوش مصنوعی به یک مولد زباله دیجیتال بدل می‌گردد.

نکته‌ دردناک این است که در مراحل اولیه، معیارهای معمول شاید حتی نشان از بهبود مدل داشته باشند زیرا هوش مصنوعی روی الگوهای ساده‌تر و پرتکرار تمرکز کرده است؛ اما در وظایف پیچیده (داستان‌نویسی خلاق، استدلال اخلاقی، طنز ظریف) عملکرد بسیار ضعیفی دارد.

حال مشکل اینجاست که چنین روندی در بدترین حالت می‌تواند نه تنها مدل‌ها را در نهایت به فروپاشی بکشاند، بلکه با از میان بردن انگیزه نگارش و سودده نبودن نگارش در سال‌هایی که عملکرد خوبی را از مدل‌ها شاهد هستیم، بسیاری از نویسندگان تازه‌‌کار را از تلاش مایوس کند؛ گرچه در نهایت آثار بدیع و پیچیده انسانی احتمالا ارزش بیشتری پیدا می‌کنند.

تلاش صنعت هوش مصنوعی برای جلوگیری از فروپاشی مدل

صنعت هوش مصنوعی و شرکت‌های چند هزار میلیارد دلاری فعال در این عرصه اما بی‌توجه به چنین روندی نیستند و مساله کمبود و ارزش داده‌های با کیفیت و راهکاری برای جلویگری از این روند از همین حالا در اولویت قرار گرفته است.

شرکت‌هایی چون انویدیا، انتروپیک و xAI ایلان ماسک، مدل‌های مخصوص را برای تولید داده مصنوعی با کیفیت تولید کرده‌اند که هدفش جایگزین کردن داده‌های انسانی در صورت عدم دسترسی به منابع یا حتی حذف بعضی خلا‌های موجود در مواردی است که امکان دسترسی به داده‌های با کیفیت در آن وجود ندارد. برای مثال Nemotron از شرکت انیویدیا یکی از این نمونه‌ها است. با این حال تحقیقات نشان داده که حتی بهترین داده‌های مصنوعی هم در بلندمدت نمی‌توانند جایگزین داده انسانی شوند.

از این رو شرکت‌ها به دنبال راهکاری برای ترکیب داده‌های مصنوعی با انسانی برای حفظ کیفیت دیتاست هستند. پژوهش کالج دانشگاهی لندن نشان می‌دهد که ترکیب داده‌های واقعی انسان با داده‌های مصنوعی می‌تواند در برخی از حوزه‌های تخصصی سرعت فروپاشی مدل را تا ۱۵ برابر کاهش داد. اما این راه‌حل خودش یک مشکل بزرگ دارد: داده انسانی جدید روزبه‌روز کمتر و گران‌تر می‌شود.

به همین دلیل شرکت‌ها به رویکرد‌هایی چون «فراموشی» یا حذف یادگرفته‌های گذشته برای جلوگیری از پیشروی روند فروپاشی روی آورده‌اند و یا در مواردی به اجبار مدل‌ها را به سمت افزایش تنوع سوق می‌دهند که البته هزینه رایانشی را تا حد زیادی افزایش می‌دهد.

در سوی دیگر، برخی شرکت‌ها در حال ذخیره‌سازی عظیم داده‌های وب قبل از سال ۲۰۲۳ هستند (Common Crawl، کتاب‌های اسکن‌شده، آرشیوهای دانشگاهی) تا از آن به عنوان نقطه بازگشت و مبدا با کیفیت برای آموزش اولیه مدل‌های جدید‌تر خود استفاده کنند و از داده‌های بی کیفیت عصر پیشروی هوش مصنوعی در امان باشند.

پایان راه نویسندگی؟

گرچه ابزارهای مولد متن، دسترسی آسان و تقریبا رایگان به آنها تولید محتوای بی‌کیفیت و کم عمق را ساده‌تر از همیشه کرده است و در واقعیت شاهد کاهش درآمد نویسندگان شده‌ایم و ترس‌های درمورد جایگزینی کامل توسط هوش مصنوعی وجود دارد، اما به نظر می‌رسد که با توجه به پژوهش‌های انجام شده نویسندگی واقعی و آثار عمیق ادبی و تخصصی انسانی، در آینده حتی بیشتر از امروز اهمیت و ارزش خواهد داشت.

آنچه ممکن است همانند دیگر بخش‌ها باعث تحول صنعت نشر و مشاغل مرتبط با نگارش شود، احتمالا کاهش فرصت‌ برای آزمون و خطای تازه‌کار‌ها و آغاز به کار آنها است. گرچه هوش مصنوعی بدون شک متفاوت از تحولات اخیر فناوری است، اما به یاد داشته باشید که نه ابزار‌های تولید موسیقی دیجیتال در دهه‌های ۷۰ و ۸۰ به نابودی موسیقی و از میان رفتن موزیسین‌ها منجر شدند و نه فوتوشاپ پایانی بر هنر‌های دیجیتال بود؛ بلکه در عمل آنچه به عنوان تهدید تلقی می‌شد در نهایت باعث توسعه صنعت و گوناگونی بیشتر شد. هوش مصنوعی نیز ممکن است به ابزاری تبدیل شود که همانند وعده توسعه‌‌دهندگانش، با از میان بردن کارهای تکراری،‌ راه را برای خلاقیت بیشتر هموار سازد. باید منتظر بود و دید.

https://pvst.ir/mz9

0 نظر

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

*

برای بوکمارک این نوشته
Back To Top
جستجو