مهدی جعفری مترجم

پیوست » فناوری » هوش مصنوعی » یافته‌های یک مطالعه جدید: ابزارهای هوش مصنوعی محتوای دارای حق نشر را حفظ کرده‌اند

یافته‌های یک مطالعه جدید: ابزارهای هوش مصنوعی محتوای دارای حق نشر را حفظ کرده‌اند

مهدی جعفری مترجم

۱۷ فروردین ۱۴۰۴

زمان مطالعه : ۴ دقیقه

مطالعه جدیدی درمورد هوش مصنوعی اوپن‌ا‌ی‌آی شواهدی را ارائه کرده است که ادعای شاکیان نقض حق نشر حمایت می‌کند. طبق این مطالعه، شرکت اوپن‌ای‌آی در آموزش برخی از مدل‌های هوش مصنوعی خود از محتوای دارای حق نشر استفاده کرده است و مدل‌های این شرکت داده‌های دارای حق نشر را به خاطر سپرده‌اند.

به گزارش پیوست به نقل از تک‌کرانچ، اوپن‌ای‌آی هم‌اکنون چندین شکایت حقوقی در رابطه با نقض حق نشر و سو استفاده از آثار دیگران مواجه است. نویسندگان، برنامه‌نویسان و سایر دارندگان حقوق اثر می‌گویند این شرکت به صورت غیرمجاز از آثار آنها، از جمله کتاب‌ها، کدها و سایر منابع، برای توسعه‌ی مدل‌های زبانی استفاده کرده است.

با اینکه اوپن‌ای‌آی اصل «استفاده منصفانه» را مبنای دفاع در برابر این شکایات می‌داند، اما شاکیان معتقدند که قانون حق نشر ایالات متحده، استثنایی برای استفاده از آثار در قالب داده‌های آموزشی در نظر نگرفته است.

این مطالعه جدید که توسط پژوهشگرانی از دانشگاه‌های واشنگتن، کپنهاگ و استنفورد انجام گرفته است، روش جدیدی را برای شناسایی داده‌هایی که هوش مصنوعی «به خاطر سپرده است» ارائه می‌کند. در این روش مبنای API یا رابط‌های برنامه‌نویسی اپلیکیشن از جمله شرکت اوپن‌ای‌آی هدف گرفته می‌شود.

مدل‌های هوش مصنوعی در واقع یک سری موتورهای پیش‌بینی هستند که پس از آموزش با داده‌های گسترده، الگو هایی را شناسایی می‌کنند. سپس این مدل‌ها می‌توانند براساس همین الگو‌ها به تولید مقاله، تصویر و غیره بپردازند.

با این حال، با توجه به ماهیت و روند یادگیری این مدل، گاهی اوقات هوش مصنوعی نسخه‌های عینی از داده‌ها را نیز بازگو می‌کند. پیش‌تر مشخص شده بود که مدل‌های تولید تصویر می‌توانند صحنه‌هایی از فیلم‌هایی را که بر روی آن‌ها آموزش دیده‌اند بازتولید کنند، و مدل‌های زبانی نیز گاهی متونی نزدیک به سرقت ادبی از منابع خبری تولید کرده‌اند.

روش ارائه‌شده در این مطالعه بر شناسایی واژه‌هایی تمرکز دارد که هم‌مولفان مطالعه از آنها به عنوان کلماتی با «شگفتی بالا» یاد می‌کنند. اینها در واقع کلماتی هستند که در بدنه کلی یک اثر به عنوان کلمات غیرمعمول شناخته می‌شوند. برای مثال کلمه «radar» یا «رادار» در جمله «من و جک کاملا بی حرکت بودیم در حالی که رادار زمزه می‌کرد» به عنوان یک عبارت با شگفتی بالا شناخته می‌شود زیرا احتمال اینکه کلمه‌هایی مثل «موتور» یا «رادیو» پیش از عبارت «زمزمه کردن» یا «Humming» بیایند، بسیار پایین است.

محققان با این روش به بررسی این مساله پرداختند که آیا مدل‌های زبانی محتوای دارای حق نشر را حفظ کرده‌اند یا خیر. محققان ابتدا کلمات با شگفتی بالا را از بخش‌هایی از رمان‌های داستانی و مقالات روزنامه نیویورک‌تایمز حذف کردند و سپس به بررسی این موضوع پرداختند که آیا مدل‌هایی مانند GPT-3.5 و GPT-4 می‌توانند واژه‌های مورد نظر را به درستی حدس بزنن، موضوعی که نشانه‌ای از حفظ بودن محتوای است. اگر مدل بتواند واژه‌ی حذف‌شده را به‌درستی حدس بزند، این احتمال وجود دارد که پیش‌تر این محتوا را در فرآیند آموزش خود مشاهده و حفظ کرده است.

مثالی از نحوه انجام این مطالعه که در آن کلمه Melkor (عبارتی به زبان مصنوعی اِلف‌ها که به ندرت در چنین شرایطی استفاده می‌شود و استفاده از آن در منابع مختلف محدود است) از محتوا حذف شده است اما GPT 3.5 به درستی آن را حدس می‌زند.

نتایج این بررسی نشان داد که GPT-4 بخش‌هایی از رمان‌های محبوب، از جمله آثاری از دیتاست BookMIA که شامل کتاب‌های الکترونیکی دارای حق نشر است، را به‌احتمال زیاد در حافظه‌ی خود جای داده است. همچنین شواهدی از بازتولید برخی مقالات نیویورک‌تایمز توسط مدل مشاهده شد که البته تعداد این شواهد نسبت به کتاب‌ها کمتر بود.

ابهیلاشا راوی‌چاندر، دانشجوی دکتری دانشگاه واشنگتن و یکی از نویسندگان این مطالعه، به تک‌کرانچ گفت که این یافته‌ها نشان می‌دهد مدل‌های زبانی ممکن است بر روی داده‌هایی بحث‌برانگیز آموزش دیده باشند. او تاکید کرد که «برای داشتن مدل‌هایی که قابل اعتماد باشند، باید مدل‌هایی داشته باشیم که بتوان آن‌ها را به‌صورت علمی بررسی، ممیزی و تحلیل کرد. هدف مطالعه ما ارائه‌ ابزاری برای بررسی عملکرد مدل‌های زبانی بزرگ است، اما به‌روشنی نیاز به شفافیت بیشتری در داده‌های آموزشی کل این اکوسیستم احساس می‌شود.»

اوپن‌ای‌آی مدت‌هاست که خواستار انعطاف‌پذیری بیشتر در قوانین مربوط به استفاده از داده‌های دارای حق نشر در آموزش مدل‌های هوش مصنوعی است. هرچند این شرکت با برخی ناشران قراردادهای رسمی امضا کرده و امکان اعلام مخالفت برای مالکان محتوا را فراهم کرده، اما هم‌زمان در حال لابی با دولت‌های مختلف برای قانون‌گذاری در راستای گنجاندن “استفاده منصفانه” به‌عنوان مبنای آموزش مدل‌های هوش مصنوعی است.

این مطالب را هم بخوانید: