راهکارهای صعود به جمع ۱۰ کشور برتر هوش مصنوعی
در یادداشت «تحلیل گزارشهای جهانی برای صعود ایران از رتبه ۷۰ در هوش مصنوعی به…
۱۸ فروردین ۱۴۰۴
۱۷ فروردین ۱۴۰۴
زمان مطالعه : ۴ دقیقه
مطالعه جدیدی درمورد هوش مصنوعی اوپنایآی شواهدی را ارائه کرده است که ادعای شاکیان نقض حق نشر حمایت میکند. طبق این مطالعه، شرکت اوپنایآی در آموزش برخی از مدلهای هوش مصنوعی خود از محتوای دارای حق نشر استفاده کرده است و مدلهای این شرکت دادههای دارای حق نشر را به خاطر سپردهاند.
به گزارش پیوست به نقل از تککرانچ، اوپنایآی هماکنون چندین شکایت حقوقی در رابطه با نقض حق نشر و سو استفاده از آثار دیگران مواجه است. نویسندگان، برنامهنویسان و سایر دارندگان حقوق اثر میگویند این شرکت به صورت غیرمجاز از آثار آنها، از جمله کتابها، کدها و سایر منابع، برای توسعهی مدلهای زبانی استفاده کرده است.
با اینکه اوپنایآی اصل «استفاده منصفانه» را مبنای دفاع در برابر این شکایات میداند، اما شاکیان معتقدند که قانون حق نشر ایالات متحده، استثنایی برای استفاده از آثار در قالب دادههای آموزشی در نظر نگرفته است.
این مطالعه جدید که توسط پژوهشگرانی از دانشگاههای واشنگتن، کپنهاگ و استنفورد انجام گرفته است، روش جدیدی را برای شناسایی دادههایی که هوش مصنوعی «به خاطر سپرده است» ارائه میکند. در این روش مبنای API یا رابطهای برنامهنویسی اپلیکیشن از جمله شرکت اوپنایآی هدف گرفته میشود.
مدلهای هوش مصنوعی در واقع یک سری موتورهای پیشبینی هستند که پس از آموزش با دادههای گسترده، الگو هایی را شناسایی میکنند. سپس این مدلها میتوانند براساس همین الگوها به تولید مقاله، تصویر و غیره بپردازند.
با این حال، با توجه به ماهیت و روند یادگیری این مدل، گاهی اوقات هوش مصنوعی نسخههای عینی از دادهها را نیز بازگو میکند. پیشتر مشخص شده بود که مدلهای تولید تصویر میتوانند صحنههایی از فیلمهایی را که بر روی آنها آموزش دیدهاند بازتولید کنند، و مدلهای زبانی نیز گاهی متونی نزدیک به سرقت ادبی از منابع خبری تولید کردهاند.
روش ارائهشده در این مطالعه بر شناسایی واژههایی تمرکز دارد که هممولفان مطالعه از آنها به عنوان کلماتی با «شگفتی بالا» یاد میکنند. اینها در واقع کلماتی هستند که در بدنه کلی یک اثر به عنوان کلمات غیرمعمول شناخته میشوند. برای مثال کلمه «radar» یا «رادار» در جمله «من و جک کاملا بی حرکت بودیم در حالی که رادار زمزه میکرد» به عنوان یک عبارت با شگفتی بالا شناخته میشود زیرا احتمال اینکه کلمههایی مثل «موتور» یا «رادیو» پیش از عبارت «زمزمه کردن» یا «Humming» بیایند، بسیار پایین است.
محققان با این روش به بررسی این مساله پرداختند که آیا مدلهای زبانی محتوای دارای حق نشر را حفظ کردهاند یا خیر. محققان ابتدا کلمات با شگفتی بالا را از بخشهایی از رمانهای داستانی و مقالات روزنامه نیویورکتایمز حذف کردند و سپس به بررسی این موضوع پرداختند که آیا مدلهایی مانند GPT-3.5 و GPT-4 میتوانند واژههای مورد نظر را به درستی حدس بزنن، موضوعی که نشانهای از حفظ بودن محتوای است. اگر مدل بتواند واژهی حذفشده را بهدرستی حدس بزند، این احتمال وجود دارد که پیشتر این محتوا را در فرآیند آموزش خود مشاهده و حفظ کرده است.
نتایج این بررسی نشان داد که GPT-4 بخشهایی از رمانهای محبوب، از جمله آثاری از دیتاست BookMIA که شامل کتابهای الکترونیکی دارای حق نشر است، را بهاحتمال زیاد در حافظهی خود جای داده است. همچنین شواهدی از بازتولید برخی مقالات نیویورکتایمز توسط مدل مشاهده شد که البته تعداد این شواهد نسبت به کتابها کمتر بود.
ابهیلاشا راویچاندر، دانشجوی دکتری دانشگاه واشنگتن و یکی از نویسندگان این مطالعه، به تککرانچ گفت که این یافتهها نشان میدهد مدلهای زبانی ممکن است بر روی دادههایی بحثبرانگیز آموزش دیده باشند. او تاکید کرد که «برای داشتن مدلهایی که قابل اعتماد باشند، باید مدلهایی داشته باشیم که بتوان آنها را بهصورت علمی بررسی، ممیزی و تحلیل کرد. هدف مطالعه ما ارائه ابزاری برای بررسی عملکرد مدلهای زبانی بزرگ است، اما بهروشنی نیاز به شفافیت بیشتری در دادههای آموزشی کل این اکوسیستم احساس میشود.»
اوپنایآی مدتهاست که خواستار انعطافپذیری بیشتر در قوانین مربوط به استفاده از دادههای دارای حق نشر در آموزش مدلهای هوش مصنوعی است. هرچند این شرکت با برخی ناشران قراردادهای رسمی امضا کرده و امکان اعلام مخالفت برای مالکان محتوا را فراهم کرده، اما همزمان در حال لابی با دولتهای مختلف برای قانونگذاری در راستای گنجاندن “استفاده منصفانه” بهعنوان مبنای آموزش مدلهای هوش مصنوعی است.