گام بعدی برای تکنولوژی هوش مصنوعی: ویدیوهای فوری

مهدی جعفری مترجم

۱۹ فروردین ۱۴۰۲

زمان مطالعه : ۸ دقیقه

استارتاپی در نیویورک و چند شرکت دیگر در حال کار روی سیستم‌هایی هستند که با استفاده از چند کلمه ویدیو کوتاهی را تولید می‌کند. عرضه این تکنولوژی می‌تواند گامی بزرگ و ترسناک برای هوش مصنوعی (AI) باشد.

ایان سانساورا، معمار نرم‌افزار استارت‌آپ هوش مصنوعی رانوی (Runway AI) در نیویورک، توصیفی چند کلمه‌ای از آنچه می‌خواهد در یک ویدیو ببیند ارائه کرد. او نوشت «رودخانه آرامی در جنگل.»

کمتر از دو دقیقه بعد، یک سرویس آزمایشی ویدیو کوتاهی از یک رودخانه آرام درون یک جنگ ارائه کرد. آب رودخانه که به آرامی و با درخشش زیر نور آفتاب بین درخت‌ها و سرخس‌ها در حرکت بود به گوشه‌ای پیچید و آهسته به سنگ‌ها برخورد کرد.

رانوی که قرار است همین هفته سرویس خود را در اختیار گروه کوچکی از آزمایش کنندگان قرار دهد یکی از چندین شرکتی است که در حال ساخت این تکنولوژی هستند. به لطف تکنولوژی این شرکت‌ها مردم به زودی می‌توانند با نوشتن چند کلمه در کامپیوترشان ویدیو بسازند.

آنها نمایندگان مرحله بعدی رقابتی در صنعتی هستند که بزرگانی مثل مایکروسافت و گوگل و چندین استارت‌آپ کوچک را شامل می‌شود. ساخت شکل جدیدی از سیستم‌های هوش مصنوعی که به باور برخی به پدیده مهم تکنولوژی تبدیل می‌شود و همان اندازه مرورگر‌ها یا آیفون اهمیت خواهد داشت.

این سیستم‌های جدید سرعت کار فیلم‌سازان و دیگر هنرمندان دیجیتالی را بهبود بخشید و در عین حال به راهکار جدید و فوری برای انتشار اطلاعات وارنه‌ای تبدیل می‌شوند که به سختی قابل شناسایی است. تشخیص واقعیت از آنچه در اینترنت منتشر می‌شود از همیشه سخت‌تر خواهد شد.

این سیستم‌ها نمونه‌ای از هوش مصنوعی مولد هستند که در حال حاضر متن، تصویر و صوت را خیلی سریع تولید می‌کند. مثال دیگر آن ChatGPT است، چت‌بات هوشمندی که توسط استارت‌آپ اوپن‌ای‌آی در سن‌فرانسیسکو عرضه شد و سال گذشته با توانایی‌های خاص خود صنعت تکنولوژی را حیرت زده کرد.

گوگل و متا، شرکت مادر فیسبوک، سال گذشته از اولین سیستم‌های تولید ویدیو رونمایی کردند اما به دلیل نگرانی‌های موجود درمورد احتمال استفاده از آنها برای انتشار اطلاعات وارونه، آنهم با سرعت و بازدهی بیشتر، این تکنولوژی را در اختیار عموم قرار نداده‌اند.

اما کریستوبلا مالنزوئلا، مدیرعامل رانوی، می‌گوید به عقیده او این تکنولوژی به حدی مهم است که با وجود خطرات نمی‌توان آن را در آزمایشگاه‌های تحقیقاتی محبوس کرد. او می‌گوید: «این یکی از حیرت‌انگیز ترین تکنولوژی‌هایی است که در صد سال اخیر ساخته‌ایم. ما باید اجازه استفاده از آن را به مردم بدهیم.»

البته که امکان اصلاح و دستکاری فیلم و ویدیو پدیده جدیدی نیست. فیلم‌سازها سال‌ها است که چنین کاری را انجام می‌دهند. در سال‌های اخیر، محققان و هنرمندان دیجیتالی هم از تکنولوژی مختلف هوش مصنوعی و نرم‌افزارهای گوناگون برای ساخت و اصلاح ویدیوهایی استفاده کرده‌اند که عموما به دیپ‌فیک معروف‌اند.

اما سیستم‌هایی مثل آنچه رانوی ارائه می‌کند، مهارت ادیت و اصلاح را با فشردن یک دکمه جایگزین خواهند کرد.

تکنولوژی رانوی براساس یک توصیف کوتاه ویدیو تولید می‌کند. برای شروع کافی است توصیفی به کوتاهی یک تذکر کوتاه را برای آن تایپ کنید.

بهترین نتیجه را زمانی می‌گیرد که تکاپوی چندی اما نه خیلی زیاد را هم چاشنی توصیف خود کنید. چیزی مثل «یک روز بارانی در شهری بزرگ» یا «سگی با گوشی همراه در پارک.» دکمه اینتر را بزنید و سیستم ویدیویی پس از یک یا دو دقیقه ویدیو را تولید می‌کند.

این تکنولوژی به سادگی تصاویر معمول، مثل گربه‌ای که روی فرش خوابیده، را بازتولید می‌کند یا قادر است سناریوهای عجیبی مثل گاوی در جشن تولد را به واقعیت تبدیل کند.

این ویدیو‌ها تنها چهار ثانیه هستند و اگر دقت کنید اندکی آشفته و تار نیز به نظر می‌رسند. تصاویر گاها شکل عجیب و نا منظمی پیدا می‌کنند. سیستم برای ترکیب حیواناتی مثل سگ و گربه با اشیا غیرمتحرکتی مثل توپ و تلفن همراه راه‌کار خاصی دارد. اما اگر توصیف درستی ارائه کنید، سیستم ویدیو‌هایی را تولید می‌کند که نشانگر مسیر حرکت تکنولوژی هستند.

فیلیپ ایسولا، پروفسور موسسه تکنولوژی ماساچوست و متخصص هوش مصنوعی، می‌گوید: «در حال حاضر تنها در صورتی که ویدیو بسیار با کیفیت باشد می‌توانم به آن اعتماد کنم. اما این شرایط هم خیلی زود عوض می‌شود.»

سیستم رانوی نیز همانند دیگر تکنولوژی‌های هوش مصنوعی با تجزیه و تحلیل داده‌های دیجیتالی به یادگیری می‌پردازد که در اینجا به معنی تصاویر، ویدیو‌ها و کپشن‌هایی است که محتویات تصاویر را توصیف می‌کنند. محققان مصمم هستند که اگر این نوع تکنولوژی با حجم عظیمی از اطلاعات آموزش ببیند می‌تواند به سرعت رشد کرده و مهارت‌های خود را بیشتر کند. به باور متخصصان، آنها به زودی می‌توانند فیلم‌های کوتاهی با شکل و شمایل حرفه‌ای را با موسیقی و دیالوگ کافی تولید کنند.

به سختی می‌توان محصول فعلی این سیستم را تعریف کرد. نه عکس و است نه کارتون. در واقع مجموعه‌ای از پیکسل‌هایی را شاهد هستیم که برای ساخت یک ویدیو واقع‌گرایانه ترکیب شده‌اند. این شرکت قصد دارد در کنار تکنولوژی خود ابزارهای دیگری را عرضه کند که از نظر آنها به سرعت بخشیدن به کار هنرمندان کمک خواهد کرد.

چندین استارت‌آپ از جمله اوپن‌ای‌آی هم تکنولوژی‌های مشابهی را عرضه کرده‌اند می‌تواند تصاویر ثابتی را از توضیح‌های مختصر مثل «عکس یک خرس عروسکی در حال اسکیت‌برد سواری در میدان تایمز» خلق کند. پیشرفت سریع تصاویر ساخته هوش مصنوعی نیز حاکی از مسیر رو به رشد این تکنولوژی است.

ماه گذشته، شبکه‌های اجتماعی به شوخی با پاپ فرنسیس در یک کت بالنسیاگا مشغول بودند-لباسی که برای یک پیرمرد ۸۶ ساله به طرز عجیبی به روز بود. اما این تصاویر واقعی نبودند. یک کارگر ساختمانی ۳۱ ساله اهل شیکاگو با استفاده از هوش مصنوعی مید‌جرنی (Midjourney) این تصاویر را خلق کرده بود.

دکتر ایسولا سال‌ها برای ساخت و آزمایش این نوع تکنولوژی، ابتدا به عنوان محققی در دانشگاه برکلی کالیفرنیا و در اوپن‌ای‌آی و سپس به عنوان استاد در دانشگاه M.I.T، زمان گذاشته است. تصویر زنده و با کیفیت پاپ فرانسیس حتی او را هم فریب داد.

او می‌گوید: «زمانی بود که مردم دیپ‌فیک‌هایی منتشر می‌کردند و مرا فریب نمی‌داد زیرا بسیار عجیب یا غیرواقعی بودند. اما حالا نمی‌توانیم هیچ تصویری در اینترنت را از روی ظاهر بپذیریم.»

مید‌جرنی یکی از خدماتی است که با یک توضیح کوتاه تصاویر ثابت واقع‌گرایانه‌ای را تولید می‌کند. از جمله دیگر ابزارها می‌توان به استیبل دیفیوژن (Stable Diffusion) و دال‌ای (DALL-E)، یکی دیگر از تکنولوژی‌های اوپن‌ای‌آی که از یک سال پیش با موج شهرت گرفتن مولد‌های تصویر متولد شد، اشاره کرد.

مید‌جرنی برای فعالیت به یک شبکه عصبی متکی است که مهارت‌هایش را از حجم عظیمی داده یاد می‌گیرد. این شبکه عصبی میلیون‌ها تصویر دیجیتالی و توضیحات متنی آن را تحت بررسی قرار می‌دهد.

زمانی که فردی یک تصویر را برای سیستم توصیف می‌کند، سیستم لیستی از ویژگی‌هایی که آن تصویر می‌تواند شامل شود را ارائه می‌کند. یکی از این ویژگ‌ها ممکن است انحنایی در بالای گوش یک سگ باشد. ویژگی دیگری لبه یک گوشی همراه. سپس یک شبکه عصبی ثانویه به نام مدل انتشار (Diffusion)، تصویر را خلق و پیکسل‌های مورد نیاز برای آن ویژگی‌ها را تولید می‌کند. در نهایت پیکسل‌ها در قالب یک تصویر یکپارچه ارائه می‌شوند.

شرکت‌هایی مثل رانوی، که در حال حاضر ۴۰ کارمند دارد و بیش از ۹۵.۵ میلیون دلار را جذب خود کرده است، از همین تکنیک برای تولید تصاویر متحرک استفاده می‌کنند. تکنولوژی آنها با تجزیه و تحلیل هزاران ویدیو می‌تواند نحوه قراردادن تعداد زیادی عکس ثابت در کنار هم برای شکل دادن به یک تصویر متحرک یک پارچه را بیاموزد.

والنزوئلا می‌گوید: «ویدیو در واقع زنجیره‌ای از فریم‌ها-تصاویر ثابت-است که به شکلی خاص ترکیب شده و توهمی از حرکت را القا می‌کنند. مساله آموزش دادن مدلی است که رابطه و پیوستگی بین هر فریم را درک کند.»

همانند اولین نسخه‌های دال‌ای و میدجرنی، این تکنولوژی‌ هم گاهی مفاهیم و تصاویر را به شکل عجیب ترکیب می‌کند. مثلا اگر فیلم یک خرس عروسکی که بسکتبال بازی می‌کند را درخواست کنید شاید یک حیوان عروسکی عجیب را در حالی که توپ بسکتبال در دست گرفته ارائه کند. اگر بگویید ویدیویی از یک سگ با گوشی همراه در پارک ارائه کن شاید سگی با یک بدن عجیب و انسان مانند در حالی که تلفن همراه دست دارد را در اختیار شما بگذارد.

اما طبق باور متخصصان نقایص فعلی با آموزش بیشتر و داده بیشتر رفع شدنی است. آنها باور دارند که در نهایت می‌توان از طریق این تکنولوژی به سادگی نوشتن یک جمله فیلم تولید کرد.

سوزان بانسر، مولف و ناشری در پنسیلوانیا که به آزمایش این تکنولوژی تولید ویدیو مشغول است می‌گوید: «در گذشته برای انجام کاری حتی نزدیک به این هم نیاز به یک دوربین داشتید. پشتیبان می‌خواستید. یک مکان نیاز بود و باید اجازه می‌گرفتید. باید پول جور می‌کردید. حالا دیگر به هیچ کدام از آنها نیازی نیست. تنها کافی است بنشینید و تصورش کنید.»

منبع: NYTimes

این مطالب را هم بخوانید: