معرفی سیزده هوش مصنوعی تولید و پردازش تصویر: خلق از حروف ساده
امروزه و با توسعه هوش مصنوعی ابزار پردازش تصویر بسیاری برای تبدیل متن به تصویر…
۳۰ آبان ۱۴۰۳
۱۹ فروردین ۱۴۰۲
زمان مطالعه : ۸ دقیقه
استارتاپی در نیویورک و چند شرکت دیگر در حال کار روی سیستمهایی هستند که با استفاده از چند کلمه ویدیو کوتاهی را تولید میکند. عرضه این تکنولوژی میتواند گامی بزرگ و ترسناک برای هوش مصنوعی (AI) باشد.
ایان سانساورا، معمار نرمافزار استارتآپ هوش مصنوعی رانوی (Runway AI) در نیویورک، توصیفی چند کلمهای از آنچه میخواهد در یک ویدیو ببیند ارائه کرد. او نوشت «رودخانه آرامی در جنگل.»
کمتر از دو دقیقه بعد، یک سرویس آزمایشی ویدیو کوتاهی از یک رودخانه آرام درون یک جنگ ارائه کرد. آب رودخانه که به آرامی و با درخشش زیر نور آفتاب بین درختها و سرخسها در حرکت بود به گوشهای پیچید و آهسته به سنگها برخورد کرد.
رانوی که قرار است همین هفته سرویس خود را در اختیار گروه کوچکی از آزمایش کنندگان قرار دهد یکی از چندین شرکتی است که در حال ساخت این تکنولوژی هستند. به لطف تکنولوژی این شرکتها مردم به زودی میتوانند با نوشتن چند کلمه در کامپیوترشان ویدیو بسازند.
آنها نمایندگان مرحله بعدی رقابتی در صنعتی هستند که بزرگانی مثل مایکروسافت و گوگل و چندین استارتآپ کوچک را شامل میشود. ساخت شکل جدیدی از سیستمهای هوش مصنوعی که به باور برخی به پدیده مهم تکنولوژی تبدیل میشود و همان اندازه مرورگرها یا آیفون اهمیت خواهد داشت.
این سیستمهای جدید سرعت کار فیلمسازان و دیگر هنرمندان دیجیتالی را بهبود بخشید و در عین حال به راهکار جدید و فوری برای انتشار اطلاعات وارنهای تبدیل میشوند که به سختی قابل شناسایی است. تشخیص واقعیت از آنچه در اینترنت منتشر میشود از همیشه سختتر خواهد شد.
این سیستمها نمونهای از هوش مصنوعی مولد هستند که در حال حاضر متن، تصویر و صوت را خیلی سریع تولید میکند. مثال دیگر آن ChatGPT است، چتبات هوشمندی که توسط استارتآپ اوپنایآی در سنفرانسیسکو عرضه شد و سال گذشته با تواناییهای خاص خود صنعت تکنولوژی را حیرت زده کرد.
گوگل و متا، شرکت مادر فیسبوک، سال گذشته از اولین سیستمهای تولید ویدیو رونمایی کردند اما به دلیل نگرانیهای موجود درمورد احتمال استفاده از آنها برای انتشار اطلاعات وارونه، آنهم با سرعت و بازدهی بیشتر، این تکنولوژی را در اختیار عموم قرار ندادهاند.
اما کریستوبلا مالنزوئلا، مدیرعامل رانوی، میگوید به عقیده او این تکنولوژی به حدی مهم است که با وجود خطرات نمیتوان آن را در آزمایشگاههای تحقیقاتی محبوس کرد. او میگوید: «این یکی از حیرتانگیز ترین تکنولوژیهایی است که در صد سال اخیر ساختهایم. ما باید اجازه استفاده از آن را به مردم بدهیم.»
البته که امکان اصلاح و دستکاری فیلم و ویدیو پدیده جدیدی نیست. فیلمسازها سالها است که چنین کاری را انجام میدهند. در سالهای اخیر، محققان و هنرمندان دیجیتالی هم از تکنولوژی مختلف هوش مصنوعی و نرمافزارهای گوناگون برای ساخت و اصلاح ویدیوهایی استفاده کردهاند که عموما به دیپفیک معروفاند.
اما سیستمهایی مثل آنچه رانوی ارائه میکند، مهارت ادیت و اصلاح را با فشردن یک دکمه جایگزین خواهند کرد.
تکنولوژی رانوی براساس یک توصیف کوتاه ویدیو تولید میکند. برای شروع کافی است توصیفی به کوتاهی یک تذکر کوتاه را برای آن تایپ کنید.
بهترین نتیجه را زمانی میگیرد که تکاپوی چندی اما نه خیلی زیاد را هم چاشنی توصیف خود کنید. چیزی مثل «یک روز بارانی در شهری بزرگ» یا «سگی با گوشی همراه در پارک.» دکمه اینتر را بزنید و سیستم ویدیویی پس از یک یا دو دقیقه ویدیو را تولید میکند.
این تکنولوژی به سادگی تصاویر معمول، مثل گربهای که روی فرش خوابیده، را بازتولید میکند یا قادر است سناریوهای عجیبی مثل گاوی در جشن تولد را به واقعیت تبدیل کند.
این ویدیوها تنها چهار ثانیه هستند و اگر دقت کنید اندکی آشفته و تار نیز به نظر میرسند. تصاویر گاها شکل عجیب و نا منظمی پیدا میکنند. سیستم برای ترکیب حیواناتی مثل سگ و گربه با اشیا غیرمتحرکتی مثل توپ و تلفن همراه راهکار خاصی دارد. اما اگر توصیف درستی ارائه کنید، سیستم ویدیوهایی را تولید میکند که نشانگر مسیر حرکت تکنولوژی هستند.
فیلیپ ایسولا، پروفسور موسسه تکنولوژی ماساچوست و متخصص هوش مصنوعی، میگوید: «در حال حاضر تنها در صورتی که ویدیو بسیار با کیفیت باشد میتوانم به آن اعتماد کنم. اما این شرایط هم خیلی زود عوض میشود.»
سیستم رانوی نیز همانند دیگر تکنولوژیهای هوش مصنوعی با تجزیه و تحلیل دادههای دیجیتالی به یادگیری میپردازد که در اینجا به معنی تصاویر، ویدیوها و کپشنهایی است که محتویات تصاویر را توصیف میکنند. محققان مصمم هستند که اگر این نوع تکنولوژی با حجم عظیمی از اطلاعات آموزش ببیند میتواند به سرعت رشد کرده و مهارتهای خود را بیشتر کند. به باور متخصصان، آنها به زودی میتوانند فیلمهای کوتاهی با شکل و شمایل حرفهای را با موسیقی و دیالوگ کافی تولید کنند.
به سختی میتوان محصول فعلی این سیستم را تعریف کرد. نه عکس و است نه کارتون. در واقع مجموعهای از پیکسلهایی را شاهد هستیم که برای ساخت یک ویدیو واقعگرایانه ترکیب شدهاند. این شرکت قصد دارد در کنار تکنولوژی خود ابزارهای دیگری را عرضه کند که از نظر آنها به سرعت بخشیدن به کار هنرمندان کمک خواهد کرد.
چندین استارتآپ از جمله اوپنایآی هم تکنولوژیهای مشابهی را عرضه کردهاند میتواند تصاویر ثابتی را از توضیحهای مختصر مثل «عکس یک خرس عروسکی در حال اسکیتبرد سواری در میدان تایمز» خلق کند. پیشرفت سریع تصاویر ساخته هوش مصنوعی نیز حاکی از مسیر رو به رشد این تکنولوژی است.
ماه گذشته، شبکههای اجتماعی به شوخی با پاپ فرنسیس در یک کت بالنسیاگا مشغول بودند-لباسی که برای یک پیرمرد ۸۶ ساله به طرز عجیبی به روز بود. اما این تصاویر واقعی نبودند. یک کارگر ساختمانی ۳۱ ساله اهل شیکاگو با استفاده از هوش مصنوعی میدجرنی (Midjourney) این تصاویر را خلق کرده بود.
دکتر ایسولا سالها برای ساخت و آزمایش این نوع تکنولوژی، ابتدا به عنوان محققی در دانشگاه برکلی کالیفرنیا و در اوپنایآی و سپس به عنوان استاد در دانشگاه M.I.T، زمان گذاشته است. تصویر زنده و با کیفیت پاپ فرانسیس حتی او را هم فریب داد.
او میگوید: «زمانی بود که مردم دیپفیکهایی منتشر میکردند و مرا فریب نمیداد زیرا بسیار عجیب یا غیرواقعی بودند. اما حالا نمیتوانیم هیچ تصویری در اینترنت را از روی ظاهر بپذیریم.»
میدجرنی یکی از خدماتی است که با یک توضیح کوتاه تصاویر ثابت واقعگرایانهای را تولید میکند. از جمله دیگر ابزارها میتوان به استیبل دیفیوژن (Stable Diffusion) و دالای (DALL-E)، یکی دیگر از تکنولوژیهای اوپنایآی که از یک سال پیش با موج شهرت گرفتن مولدهای تصویر متولد شد، اشاره کرد.
میدجرنی برای فعالیت به یک شبکه عصبی متکی است که مهارتهایش را از حجم عظیمی داده یاد میگیرد. این شبکه عصبی میلیونها تصویر دیجیتالی و توضیحات متنی آن را تحت بررسی قرار میدهد.
زمانی که فردی یک تصویر را برای سیستم توصیف میکند، سیستم لیستی از ویژگیهایی که آن تصویر میتواند شامل شود را ارائه میکند. یکی از این ویژگها ممکن است انحنایی در بالای گوش یک سگ باشد. ویژگی دیگری لبه یک گوشی همراه. سپس یک شبکه عصبی ثانویه به نام مدل انتشار (Diffusion)، تصویر را خلق و پیکسلهای مورد نیاز برای آن ویژگیها را تولید میکند. در نهایت پیکسلها در قالب یک تصویر یکپارچه ارائه میشوند.
شرکتهایی مثل رانوی، که در حال حاضر ۴۰ کارمند دارد و بیش از ۹۵.۵ میلیون دلار را جذب خود کرده است، از همین تکنیک برای تولید تصاویر متحرک استفاده میکنند. تکنولوژی آنها با تجزیه و تحلیل هزاران ویدیو میتواند نحوه قراردادن تعداد زیادی عکس ثابت در کنار هم برای شکل دادن به یک تصویر متحرک یک پارچه را بیاموزد.
والنزوئلا میگوید: «ویدیو در واقع زنجیرهای از فریمها-تصاویر ثابت-است که به شکلی خاص ترکیب شده و توهمی از حرکت را القا میکنند. مساله آموزش دادن مدلی است که رابطه و پیوستگی بین هر فریم را درک کند.»
همانند اولین نسخههای دالای و میدجرنی، این تکنولوژی هم گاهی مفاهیم و تصاویر را به شکل عجیب ترکیب میکند. مثلا اگر فیلم یک خرس عروسکی که بسکتبال بازی میکند را درخواست کنید شاید یک حیوان عروسکی عجیب را در حالی که توپ بسکتبال در دست گرفته ارائه کند. اگر بگویید ویدیویی از یک سگ با گوشی همراه در پارک ارائه کن شاید سگی با یک بدن عجیب و انسان مانند در حالی که تلفن همراه دست دارد را در اختیار شما بگذارد.
اما طبق باور متخصصان نقایص فعلی با آموزش بیشتر و داده بیشتر رفع شدنی است. آنها باور دارند که در نهایت میتوان از طریق این تکنولوژی به سادگی نوشتن یک جمله فیلم تولید کرد.
سوزان بانسر، مولف و ناشری در پنسیلوانیا که به آزمایش این تکنولوژی تولید ویدیو مشغول است میگوید: «در گذشته برای انجام کاری حتی نزدیک به این هم نیاز به یک دوربین داشتید. پشتیبان میخواستید. یک مکان نیاز بود و باید اجازه میگرفتید. باید پول جور میکردید. حالا دیگر به هیچ کدام از آنها نیازی نیست. تنها کافی است بنشینید و تصورش کنید.»
منبع: NYTimes