نفوذ به بایگانی اینترنت و درز اطلاعات ۳۱ میلیون کاربر
روز چهارشنبه یک پاپآپ آلوده در وبسایت بایگانی اینترنت (archive.org) مدعی نفوذ و در اطلاعاتی…
۱۹ مهر ۱۴۰۳
۱۹ فروردین ۱۴۰۳
زمان مطالعه : ۳ دقیقه
نیویورک تایمز در گزارش تازهای با اشاره به راهکار شرکتهای برای دسترسی به محتوای با کیفیت میگوید اوپنایآی برای رفع این از یک مدل رونویسی صوتی به نام Whisper استفاده میکند و بیش از یک میلیون ساعت ویدیو یوتیوب را برای آموزش GPT-4 رونویسی کرده است.
به گزارش پیوست، استفاده از رونویس ویدیوها ممکن است شرکت را بر سر موضوع استفاده منصفانه به دردسر بیاندازد. گرگ براکمن، رئیس اوپنایآی به شخصه در جمعآوری ویدیوهای استفاده شده دخیل بوده است.
لینزی هلد، سخنگوی اوپنایآی در ایمیلی به وبسایت ورج در این باره گفت که شرکت پایگاههای داده خاص را برای هر مدلی آماده میکند تا «به درک آنها از جهان واقعی کمک کرده» و جایگاه رقابتی خود را حفظ کند. هلد در ادامه گفت که این شرکت از «منابع بیشماری از جمله دادههای عمومی و همکاری برای دسترسی به دادههای غیر عمومی» استفاده میکند و حتی به دنبال تولید دادههای مصنوعی است.
مقاله نیویورک تایمز میگوید این شرکت در سال ۲۰۲۱ بخش زیادی از دادههای مفید را به پایان رسانده و درنتیجه پس از اتمام دیگر منابع به سراغ رونویسی ویدیوها، پادکستها و کتابهای صوتی یوتیوب رفته است. تا آن زمان اوپنایآی مدلهای خود را با دادههایی مثل کدهای کامپیوتری Github، پایگاه حرکتهای شترنج و محتوای تکالیف درسی Quizlet آموزش داده بود.
مت براینت، سخنگوی گوگل نیز در ایمیل به ورج گفت که این شرکت «گزارشهای تایید نشدهآی» از فعالیت اوپنآیآی دریافت کرده و «فایلهای robot.txt و شرایط استفاده ما هردو کشت غیرمجاز یا دانلود محتوای یوتیوب را منع میکنند.» نیل موهان، مدیرعامل یوتیوب نیز به موضوعات مشابهی درمورد استفاده اوپنایآی از دادههای این پلتفرم برای آموزش مدل مولد ویدیو سورا اشاره کرد. براینت میگوید گوگل «اقدامات فنی و قانون» را برای جلوگیری از استفاده از غیر مجاز در دستور کار قرار داده و این در حالی است که «ما بنیان حقوقی یا فنی روشنی برای این کار داریم.»
منابع تایمز میگویند که شرکت گوگل نیز رونوشت ویدیوهای یوتیوب را جمعآوری کرده است. به گفته براینت این شرکت مدلهای خود را براساس «بخشی از محتوای یوتیوب و طبق توافق با تولیدکنندگان محتوای یوتیوب آموزش داده است.»
به گفته تایمز بخش حقوقی گوگل از تیم حریم خصوصی شرکت خواستهاند تا بیان سیاست خود را به گونهای تغییر دهد که شرکت بتواند از بخشی از دادههای مشتریان از جمله ابزارهای اداری مثل گوگل داکس استفاده کند. به نظر میرسد که سیاست جدید عمدا در روز یکم جولای منتشر شده است تا با توجه به انتشار در روز تعطیل مورد توجه چندانی قرار نگیرد.
شرکت متا نیز به نظر برای دسترسی به دادههای آموزشی به این در و آن در میزند. براساس فایل ضبط شدهای از تیم هوش مصنوعی این شرکت که به دست نیویورک تایمز رسیده است، تیم هوش مصنوعی متا استفاده غیرمجاز از آثار دارای حق کپیرایت را پیشنهاد کرده تا شرکت بتواند با اوپنایآی هم قدم شود. این شرکت پس از استفاده از تمام دادههای موجود «کتابهای زبان انگلیسی، مقاله،شعر و مقالات خبری موجود در اینترنت» به دنبال پرداخت هزینه برای خرید جواز کتابها یا حتی خرید یک ناشر بزرگ است. همچنین با توجه به تغییرات حریم خصوصی اعمال شده پس از رسوایی کمبریج آنالتیکا، این شرکت در استفاده از دادههای مشتریان نیز با توجه به مباحث حریم خصوصی با محدودیتهایی روبرو است.
به نظر میرسد شرکتهای بزرگ توسعه دهنده هوش مصنوعی از جمله گوگل و اوپنایآی در دسترسی به دادههای با کیفیت به مشکل خوردهاند و مدلها نیز برای بهتر شدن به دادههای بیشتری نیاز دارند. به گفته والاستریت ژورنال یکی از راهحلهای این مساله میتواند استفاده دادههای «مصنوعی» باشد که توسط خود مدلها تولید میشود و در واقع حلقهای از یادگیری تشکیل میشود.