مدل جدید هوش مصنوعی متا با تماشای ویدیو‌ها یاد می‌گیرد

مهدی جعفری مترجم

۲۸ بهمن ۱۴۰۲

زمان مطالعه : ۳ دقیقه

محققان متا مدل تازه‌ای را منتشر کردند که روند آموزشی متفاوت از مدل‌های بزرگ زبانی دارد. این مدل با تماشای ویدیو و خیلی شبیه‌تر به انسان و موجودات زنده یاد می‌گیرد. مدیر هوش مصنوعی متا پیشتر به محدودیت‌های هوش مصنوعی امروز در مقایسه با انسان و دیگر موجودات زنده اشاره کرده بود و این نوآوری شاید گام بزرگی به سوی آینده باشد.

به گزارش پیوست، در چند روزی که گذشت سه غول هوش مصنوعی از نوآوری‌های خود رونمایی کردند. اوپن‌ای‌آی از مولد ویدیویی به نام سورا پرده برداشت و گوگل هم جمینی ۱.۵ را عرضه کرد. شرکت متا هم که رویکردی متن‌باز را برخلاف دو شرکت دیگر در پیش گرفته حالا از مدلی به نام V-JEPA رونمایی کرده و می گوید روش یادگیری آن شبیه‌تر به موجودات زنده است.

به گفته متا این مدل گامی در جهت ساخت سیستم‌هایی است که می‌توانند جهان فیزیکی را درک کنند زیرا قابلیت یادگیری از ویدیو را دارد. مدل‌های زبانی بزرگ معمولا براساس تعداد زیادی جمله و عبارت آموزش داده می‌شوند و در روند آموزش مدل یاد می‌گیرد که چطور جاهای خالی و پنهان شده یک جمله را پر کند. به این ترتیب می‌تواند رفته‌رفته یک سری از کلمات را در محتمل‌ترین حالتش کنار هم بچیند و جملاتی معنادار تشکیل دهد.

یان لکان، رئیس هوش مصنوعی متا که پیشتر به محدودیت‌های تکیه بر محتوای متنی و یادگیری از این طریق اشاره کرده بود می‌گوید اگر مدل‌های هوش مصنوعی بتوانند به جای کلمه از تصویر ویدیویی استفاده کنند، سرعت یادگیری بیشتر می‌شود.

او می‌گوید: «هدف ما ساخت ماشین هوش مصنوعی پیشرفته‌ای است که شبیه‌تر به انسان‌ها یاد بگیرد و مدل‌های داخلی جهان اطراف را تشکیل داده و بتواند یاد بگیرد، خود را انطباق دهد و به گونه‌ای کارآمد برای تکمیل وظایف پیچیده برنامه‌ریزی کند.»

یکی از نکات جالب روند یادگیری مدل این است که ویدیو‌های به کار رفته در روند آموزش نشانه‌گذاری نشده‌اند. در فرایند یادگیری بخشی از تصویر و زمان ویدیو از چشم مدل پنهان می‌شود و بدون نشانه‌گذاری این مدل می‌آموزد که بخش پنهان شده احتمالا چه چیزی بوده است (اگر یک انسان ابتدای افتادن سیب از درخت و سپس سیبی روی زمین را ببیند، به راحتی می‌تواند بخش نادیده را تصور و پازل را تکمیل کند.)

نکته مهم دیگر اینکه V-JEPA یک مدل مولد نیست و مدلی مفهومی از جهان تولید می‌کند. محققان متا می‌گویند V-JEPA، پس از یک پیش آموزش با استفاده از مخفی کردن بخش‌ها و زمان‌هایی از ویدیو «در شناسایی و درک روابط پیچیده بین اشیا تبحر پیدا می‌کند.»

لکان معتقد است که ناتوانی مدل‌های بزرگ زبانی در یادگیری به واسطه دیدن و شنیدن، سرعت حرکت به سمت هوش مصنوعی عمومی یا ابزاری هوشمندتر از انسان را کاهش می‌دهد.

گام بعدی متا پس از V-JEPA، اضافه کردن صوت به تصویر است که در نتیجه آن بعد تازه‌ای از داده‌ها در اختیار مدل قرار می‌گیرد. به گفته غول شبکه اجتماع، این مدل براساس جواز غیرتجازی Creative Commons عرضه شده تا محققان بتوانند آن را بررسی کنند و حتی توانمندی‌های آن را توسعه دهند.

این مطالب را هم بخوانید: