skip to Main Content
محتوای اختصاصی کاربران ویژهورود به سایت

فراموشی رمز عبور

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ عضو شوید

ثبت نام سایت

با شبکه های اجتماعی وارد شوید

عضو نیستید؟ وارد شوید

فراموشی رمز عبور

وارد شوید یا عضو شوید

جشنواره نوروزی آنر

ابزارهای مولد ویدیو چطور برای کاربران تصویر‌سازی می‌کنند؟

۲۴ شهریور ۱۴۰۴

زمان مطالعه : ۹ دقیقه

پس از عرضه ChatGPT در سال ۲۰۲۲ و شهرت جهانی هوش مصنوعی مولد، به تدریج ابزارهای مولد از متن به سمت دیگر رسانه‌های دیجیتال از جمله تصویر، صوت و ویدیو حرکت کردند. در حال حاضر ابزارهای قدرتمندی برای تولید ویدیو و تصویر از سوی شرکت‌های پیشتاز عرضه شده و تصور تولید یک کلیپ سینمایی تنها با یک دستور متنی که سال‌ها پیش در تصور کسی نمی‌گنجید، امروز تا حد زیادی پیشرفت کرده است.

ابزارهایی قدرتمندی همچون سورا از اوپن‌ای‌آی، Veo 3 از از دیپ‌مایند گوگل و Gen-4 از Runway حالا می‌توانند ویدیوهایی تولید کنند که شاید به‌سختی بتوان آنها را از فیلم‌برداری واقعی یا انیمیشن‌های CGI تمایز داد.  اما پرسش اینجاست که این مدل‌های قدرتمند چگونه به چنین سطحی از کیفیت رسیده‌اند و  چطور این خروجی با کیفیت را تولید می‌کنند؟‌

از این رو در این گزارش پیوست به مقاله‌ای از نشریه فناوری MIT می‌پردازیم که جزئیات تولید ویدیو با و منطق پشت این ابزارها را تا حد زیادی برای ما روشن می‌کند. این مسیر با ایده برای هم‌آمیزی پیکسل‌ها یا دیفیوژن آغاز می‌شود و تا مبدل‌های هم‌آمیختگی نهان یا لتنت دیفیوژن ترنسفورمرها، که ترکیبی از دو مسیر پژوهشی مهم در یادگیری ماشین است، ادامه دارد.

نقطه شروع: دیفیوژن چیست؟

مدل‌های دیفیوژن (Diffusion Models) ریشه در ایده‌ای ساده اما قدرتمند دارند. در واقع مدل‌ها در واقع وظیفه‌ای را در جهان تصویر برعهده دارند که مدل‌های مولد متن برای تولید متن برعهده می‌گیرند و پس از یادگیری براساس حجم عظیمی از داده‌های متنی، حروف و کلمات را براساس الگویی در کنار هم چیده و چیزی قابل ارتباط و فهم در اختیار انسان می‌گذارد.

تصویری واضحی را تصور کنید که روی آن به‌تدریج نویز یا همان پیکسل‌های تصادفی اضافه می‌شود. بعد از ده‌ها یا صدها بار اضافه کردن نویز، نتیجه این کار یک تصویر پر از نویز و شبیه به «صفحه برفکی» تلویزیون‌های قدیمی است در زمانی که سیگنالی دریافت نمی‌کنند.

مدل دیفیوژن وظیفه دارد تا این فرایند را معکوس کند و از نویز‌ها یک تصویر واضح بسازد. برای این کار در مرحله آموزش، شبکه عصبی میلیون‌ها تصویر را در وضعیت‌های مختلف «پر از نویز» را مشاهده می‌کنند و یاد می‌گیرد که چگونه در هر مرحله نویز را حذف کرده و تصویر را بازسازی کند. در نتیجه، وقتی از مدل بخواهید یک تصویر جدید بسازد، فرایند را برعکس می‌کند. از یک صفحه نویز خالص کارش را آغاز می‌کند و مرحله به مرحله تصویر نهایی را آشکار می‌سازد.

از این رو می‌توان مدل دیفیوژن را نوعی ماشین بازسازی تدریجی دانست که از بی‌نظمی کامل به سمت نظم حرکت می‌کند. اما قاعده و مسیر حرکت این مدل دیفیوژن را متن یا همان پرامپت کاربر مخشص می‌کند.

ورود متن به معادله: پیوند دیفیوژن و زبان

دیفیوژن به تنهایی تنها قادر به تولید تصاویر تصادفی است. اما برای اینکه خروجی دقیقا مطابق دستور کاربر باشد و مثلا اسب تک‌شاخی در حال خوردن اسپاگتی را که کاربر خواسته تولید کند، نیاز به مدلی است که معنای متن را فهمیده و آن را به تصویر پیوند دهد.

در اینجا مدل‌های زبان بزرگ (LLM) یا سامانه‌های مشابه نقش میانجی و مترجم را ایفا می‌کنند. برای این کار، ابتدا در یک مرحله آموزشی پیوند و ارتباط میان متن‌ و کلمات با تصاویر یا ویدیو‌های مختلف به این مدل‌ها آموخته می‌شود. سپس در مرحله تولید، این مدل‌ها گام‌های مختلف پاک‌سازی نویز توسط دیفیوژن را رهبری می‌کنند. به عبارتی، مدل بزرگ زبانی هر بار به مدل دیفیوژن می‌گوید: «این مرحله به تصویر یک اسب تک‌شاخ نزدیک‌تر شده است یا خیر؟» و مسیر تولید تصویر را اصلاح و اصلاح می‌کند.

اما اینجا نکته‌ مهمی که در اینجا باید بدانید این است که بیشتر این براساس داده‌های اینترنتی یا میلیاردها تصویر و متن جفت‌شده آموزش دیده‌اند و به همین دلیل خروجی‌ آنها در حقیقت چکیده‌ای از تصاویر موجود در اینترنت است؛ با تمام سوگیری‌ها، کلیشه‌ها و حتی محتوای نامطلوبی که در داده‌ها وجود دارد.

اما تا به اینجای کار تنها صحبت از تصویر است و برای تبدیل تصاویر به ویدیو به فرایند بسیار طولانی‌تری نیاز است و باید هزاران یا حتی میلیون‌ها تصویر (فریم) به خوبی برای تولید یک خروجی مناسب در کنار هم قرار گیرند.

بسط دیفیوژن برای گذار از تصویر به ویدیو

ایجاد یک تصویر واحد با دیفیوژن نسبتا ساده است، اما تولید ویدیو یا کنار هم قرار دادن هزاران فریمی که از یکپارچگی لازم برخوردار باشند، دشوار خواهد بود. مدل باید مطمئن شود که شی یا صحنه‌ای که در یک فریم ظاهر می‌شود، در فریم بعدی هم به‌طور سازگار باقی بماند. برای مثال، اگر در فریم اول خورشید در سمت راست باشد، نباید در فریم بعدی ناگهان ناپدید شود.

بنابراین مدل دیفیوژن برای ویدیو باید دنباله‌ای از تصاویر را به‌طور همزمان پردازش کند و پیوستگی زمانی و مکانی را حفظ نماید. همین مساله باعث شده تا تولید ویدیو با هوش مصنوعی به یکی از چالش‌برانگیزترین و پرهزینه‌ترین بخش‌های این فناوری تبدیل شود.

لتنت دیفیوژن: راهکاری برای کاهش بار رایانشی

استفاده از فرایند دیفیوژن به تنهایی، بسیار پرهزینه است؛ زیرا هر فریم ویدیو شامل میلیون‌ها پیکسل است و برای هر پیکسل باید بارها پردازش انجام شود. به همین دلیل محققان راه‌حل لتنت دیفیوژن (Latent Diffusion) را مطرح کرده‌اند.

در فرایند لتنت دیفیوژن، داده خام (تصاویر یا ویدیوها) ابتدا فشرده می‌شوند و تنها ویژگی‌های اصلی‌شان در قالب یک فضای لتنت یا نهان ذخیره می‌شود. در این فضا، اطلاعات غیرضروری حذف شده و فقط چکیده ریاضیاتی داده‌ها باقی می‌ماند.

فرایندی مشابه را در حوزه‌های دیگر نیز شاهد هستیم. وقتی ویدیویی را در اینترنت تماشا می‌کنید، فایل اصلی فشرده شده و به‌صورت رمزگذاری‌شده به دستگاه شما می‌رسد. سپس دستگاه شما آن را دوباره بازسازی می‌کند. لتنت دیفیوژن هم از همین ایده در مدل‌های مولد استفاده می‌کند تا فرایند افزودن و حذف نویز نه روی میلیون‌ها پیکسل، بلکه روی کدهای فشرده انجام شود.

این روش بسیار سریع‌تر و کارآمدتر از دیفیوژن خام است. البته حتی در این حالت هم تولید ویدیو انرژی و توان پردازشی بسیار بالایی می‌طلبد.

ترنسفورمرها برای حفظ انسجام و پیوستگی

مسئله اصلی در تولید ویدیو حفظ انسجام و پیوستگی تصاویر در طول زمان است؛ یعنی اشیا، نور، حرکات و صحنه‌ها باید از فریمی به فریم دیگر به صورت منطقی و طبیعی تغییر پیدا کرده و منتقل شوند. برای این کار از معماری ترنسفورمر (Transformer) یا مبدل استفاده می‌شود.

ترنسفورمرها می‌توانند به خوبی دنباله‌های طولانی داده را پردازش کنند. همین ویژگی آن‌ها را به قلب مدل‌های زبانی مانند GPT و Gemini تبدیل کرده است تا انسجام و پیوستگی متن را حفظ کنند. پژوهشگران با رویکردی خلاقانه از همین ابزار در مولد‌های ویدیو کمک گرفته‌اند و شرکت اوپن‌ای‌‌آی با ترکیب ترنسفورمر‌ها در مولد ویدیو سورا، این رویکرد را به استاندارد صنعتی در تولید ویدیو تبدیل کرد.

نمونه‌ای‌ از ویدیو تولید شده با مدل سورا اوپن‌ای‌آی:

اوپن‌ای‌آی برای استفاده از ترنسفورمر‌ها در جهان ویدیو، ویدیو‌ها را در بُعد مکان و زمان تقسیم‌بندی کرد تا ترنسفورمر بتواند همانند کلمات و حروف در مدل‌های زبانی با آنها برخورد کرده و انسجام و یکپارچگی آنها را حفظ کند. تیم بروکس، پژوهشگر ارشد مدل سورا اوپن‌ای‌آی، در این باره می‌گوید: «درست مثل اینکه شما تمام فریم‌های ویدیو را روی هم بگذارید و مکعب‌های کوچکی را از آن برش بزنید.» که یعنی در این نگاه ویدیو و فریم‌های مختلف آن همانند کیکی برش زده می‌شوند و هرچه این کیک با اضافه شدن فریم‌های جدید قطور‌تر می‌شود، ترنسفورمر پیوستگی و انسجام هر برش جداگانه از آن را زیر نظر می‌گیرد و در نهایت تمام این کیک از پیوستگی لازم برخوردار می‌شود.

ترنسفورمر می‌تواند این مکعب‌ها را به‌صورت دنباله‌ای تحلیل کند و ارتباط میان آن‌ها را بیاموزد. وقتی ترنسفورمر با دیفیوژن ترکیب می‌شود، مدل قادر است ویدیوهایی بسازد که اشیا در آن‌ها «ثابت» باقی می‌مانند و به شکل طبیعی حرکت می‌کنند.

این روش همچنین به شرکت‌ها اجازه می‌دهد تا مدل‌های خود را براساس داده‌های مختلفی، از ویدیوهای عمودی موبایل گرفته تا فیلم‌های سینمایی، آموزش دهند. همین تنوع داده سبب شده کیفیت خروجی مدل‌ها در سال‌های اخیر جهشی چشمگیر داشته باشد.

پایان عصر ویدیوهای صامت با پیوند میان صوت و تصویر

تا مدت‌ها ویدیوهای تولیدشده با هوش مصنوعی بدون صدا بودند. اما گوگل با عرضه مدل Veo 3 توانست گامی مهم برای حذف این محدودیت بردارد:‌ تولید همزمان تصویر و صدا. دمیس هاسابیس امسال در رویداد Google I/O در این باره گفت: «ما در حال عبور از عصر تولید ویدیو صامت هستیم.»

چالش اصلی برای ویدیو‌های غیرصامت، پیوند صحیح میان داده‌های صوتی و تصویری به گونه‌ای بود که دیفیوژن بتواند هر دو را همزمان پردازش و تولید کند. وقتی مدل Veo 3 ویدیو تولید می‌کند، مدل دیفیوژن آن در یک فرایند یکپارچه صوت و ویدیو را در کنار هم تولید می‌کند تا تصاویر و صدا همگام با یکدیگر باشند.

نمونه‌ای از ویدیو‌های تولید شده با مدل Veo 3  از گوگل و میدجرنی:

اگر مدل‌های دیفیوژن قادر به تولید داده‌های مختلف هستند، آیا مدل‌های بزرگ زبانی هم اینگونه کار می‌کنند؟

پاسخ کوتاه این است که خیر یا حداقل در حال حاضر اینگونه نیست. مدل‌های زبانی بزرگ (LLM) مانند GPT-5 با استفاده از ترنسفورمرها ساخته می‌شوند، نه دیفیوژن. با اینکه مدل‌های دیفیوژن در بیشتر موارد برای تولید تصویر، ویدیو و صوت استفاده می‌شوند، اما مرز این دو روز به روز کمرنگ تر می‌شود.

تولید ویدیو با ترکیب دیفیوژن و ترنسفورمر پیشرفت کرده است و در تابستان امسال گوگل دیپ‌مایند اعلام کرد که در حال ساخت یک LLM آزمایشی است که به جای ترنسفورمر از یک مدل دیفیوژن برای تولید متن استفاده می‌کند. دلیل حرکت در چنین مسیری این است که با وجود پرهزینه و پرمصرف‌ بودن تولید ویدیو با مدل‌های دیفیوژن، این مدل ها به خودی خود از لحاظ مصرف انرژی عملکرد بهتری نسبت به ترنسفورمر‌ها دارند. در نتیجه با استفاده از یک مدل دیفیوژن برای تولید متن به جای ترنسفورمرها، گوگل می‌تواند مصرف انرژی مدل‌های بزرگ زبانی را تا حد زیادی کاهش دهد. بعید نیست که در آینده شاهد کاربرد مدل‌های دیفیوژن در مبدل‌های متن و افزایش استفاده از آنها باشیم.

 

https://pvst.ir/mb8

0 نظر

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

*

برای بوکمارک این نوشته
Back To Top
جستجو