مهدی جعفری مترجم

پیوست » فناوری » اوپن‌ای‌آی از رونویس بیش از یک میلیون ساعت ویدیو یوتیوب برای آموزش GPT-4 استفاده کرده است

اوپن‌ای‌آی از رونویس بیش از یک میلیون ساعت ویدیو یوتیوب برای آموزش GPT-4 استفاده کرده است

مهدی جعفری مترجم

۱۹ فروردین ۱۴۰۳

زمان مطالعه : ۳ دقیقه

نیویورک تایمز در گزارش تازه‌ای با اشاره به راهکار شرکت‌های برای دسترسی به محتوای با کیفیت می‌گوید اوپن‌ای‌آی برای رفع این از یک مدل رونویسی صوتی به نام Whisper استفاده می‌کند و بیش از یک میلیون ساعت ویدیو یوتیوب را برای آموزش GPT-4 رونویسی کرده است.

به گزارش پیوست، استفاده از رونویس ویدیوها ممکن است شرکت را بر سر موضوع استفاده منصفانه به دردسر بیاندازد. گرگ براکمن، رئیس اوپن‌ای‌آی به شخصه در جمع‌آوری ویدیو‌های استفاده شده دخیل بوده است.

لینزی هلد، سخنگوی اوپن‌ای‌آی در ایمیلی به وبسایت ورج در این باره گفت که شرکت پایگاه‌های داده خاص را برای هر مدلی آماده می‌کند تا «به درک آن‌ها از جهان واقعی کمک کرده» و جایگاه رقابتی خود را حفظ کند. هلد در ادامه گفت که این شرکت از «منابع بیشماری از جمله داده‌های عمومی و همکاری برای دسترسی به داده‌های غیر عمومی» استفاده می‌کند و حتی به دنبال تولید داده‌های مصنوعی است.

مقاله نیویورک تایمز می‌گوید این شرکت در سال ۲۰۲۱ بخش زیادی از داده‌های مفید را به پایان رسانده و درنتیجه پس از اتمام دیگر منابع به سراغ رونویسی ویدیو‌ها، پادکست‌ها و کتاب‌های صوتی یوتیوب رفته است. تا آن زمان اوپن‌ای‌آی مدل‌های خود را با داده‌هایی مثل کد‌های کامپیوتری Github،‌ پایگاه حرکت‌های شترنج و محتوای تکالیف درسی Quizlet آموزش داده بود.

مت براینت، سخنگوی گوگل نیز در ایمیل به ورج گفت که این شرکت «گزارش‌های تایید نشده‌آی» از فعالیت اوپن‌آی‌آی دریافت کرده و «فایل‌های robot.txt و شرایط استفاده ما هردو کشت غیرمجاز یا دانلود محتوای یوتیوب را منع می‌کنند.» نیل موهان، ‌مدیرعامل یوتیوب نیز به موضوعات مشابهی درمورد استفاده اوپن‌ای‌آی از داده‌های این پلتفرم برای آموزش مدل مولد ویدیو سورا اشاره کرد. براینت می‌گوید گوگل «اقدامات فنی و قانون» را برای جلوگیری از استفاده از غیر مجاز در دستور کار قرار داده و این در حالی است که «ما بنیان حقوقی یا فنی روشنی برای این کار داریم.»

منابع تایمز می‌گویند که شرکت گوگل نیز رونوشت ویدیو‌های یوتیوب را جمع‌آوری کرده است. به گفته براینت این شرکت مدل‌های خود را براساس «بخشی از محتوای یوتیوب و طبق توافق با تولیدکنندگان محتوای یوتیوب آموزش داده است.»

به گفته تایمز بخش حقوقی گوگل از تیم حریم خصوصی شرکت خواسته‌اند تا بیان سیاست خود را به گونه‌ای تغییر دهد که شرکت بتواند از بخشی از داده‌های مشتریان از جمله ابزارهای اداری مثل گوگل داکس استفاده کند. به نظر می‌رسد که سیاست جدید عمدا در روز یکم جولای منتشر شده است تا با توجه به انتشار در روز تعطیل مورد توجه چندانی قرار نگیرد.

شرکت متا نیز به نظر برای دسترسی به داده‌های آموزشی به این در و آن در می‌زند. براساس فایل ضبط شده‌ای از تیم هوش مصنوعی این شرکت که به دست نیویورک تایمز رسیده است، تیم هوش مصنوعی متا استفاده غیرمجاز از آثار دارای حق کپی‌رایت را پیشنهاد کرده تا شرکت بتواند با اوپن‌ای‌آی هم قدم شود. این شرکت پس از استفاده از تمام داده‌های موجود «کتاب‌های زبان انگلیسی، مقاله،‌شعر و مقالات خبری موجود در اینترنت» به دنبال پرداخت هزینه برای خرید جواز کتاب‌ها یا حتی خرید یک ناشر بزرگ است. همچنین با توجه به تغییرات حریم خصوصی اعمال شده پس از رسوایی کمبریج آنالتیکا، این شرکت در استفاده از داده‌های مشتریان نیز با توجه به مباحث حریم خصوصی با محدودیت‌هایی روبرو است.

به نظر می‌رسد شرکت‌های بزرگ توسعه دهنده هوش مصنوعی از جمله گوگل و اوپن‌ای‌آی در دسترسی به داده‌های با کیفیت به مشکل خورده‌اند و مدل‌ها نیز برای بهتر شدن به داده‌های بیشتری نیاز دارند. به گفته وال‌استریت ژورنال یکی از راه‌حل‌های این مساله می‌تواند استفاده داده‌های «مصنوعی» باشد که توسط خود مدل‌ها تولید می‌شود و در واقع حلقه‌ای از یادگیری تشکیل می‌شود.

این مطالب را هم بخوانید: