پهپادهای مجهز به هوش مصنوعی میدان جنگ را متحول میکنند: اوکراین بزرگترین آزمایشگاه شرکتهای غربی
ظهور پهپادهای هوشمند مجهز به فناوری هوش مصنوعی، فصل تازهای در معادلات جنگی رقم زده…
۲۴ شهریور ۱۴۰۴
۲۴ شهریور ۱۴۰۴
زمان مطالعه : ۹ دقیقه
پس از عرضه ChatGPT در سال ۲۰۲۲ و شهرت جهانی هوش مصنوعی مولد، به تدریج ابزارهای مولد از متن به سمت دیگر رسانههای دیجیتال از جمله تصویر، صوت و ویدیو حرکت کردند. در حال حاضر ابزارهای قدرتمندی برای تولید ویدیو و تصویر از سوی شرکتهای پیشتاز عرضه شده و تصور تولید یک کلیپ سینمایی تنها با یک دستور متنی که سالها پیش در تصور کسی نمیگنجید، امروز تا حد زیادی پیشرفت کرده است.
ابزارهایی قدرتمندی همچون سورا از اوپنایآی، Veo 3 از از دیپمایند گوگل و Gen-4 از Runway حالا میتوانند ویدیوهایی تولید کنند که شاید بهسختی بتوان آنها را از فیلمبرداری واقعی یا انیمیشنهای CGI تمایز داد. اما پرسش اینجاست که این مدلهای قدرتمند چگونه به چنین سطحی از کیفیت رسیدهاند و چطور این خروجی با کیفیت را تولید میکنند؟
از این رو در این گزارش پیوست به مقالهای از نشریه فناوری MIT میپردازیم که جزئیات تولید ویدیو با و منطق پشت این ابزارها را تا حد زیادی برای ما روشن میکند. این مسیر با ایده برای همآمیزی پیکسلها یا دیفیوژن آغاز میشود و تا مبدلهای همآمیختگی نهان یا لتنت دیفیوژن ترنسفورمرها، که ترکیبی از دو مسیر پژوهشی مهم در یادگیری ماشین است، ادامه دارد.
مدلهای دیفیوژن (Diffusion Models) ریشه در ایدهای ساده اما قدرتمند دارند. در واقع مدلها در واقع وظیفهای را در جهان تصویر برعهده دارند که مدلهای مولد متن برای تولید متن برعهده میگیرند و پس از یادگیری براساس حجم عظیمی از دادههای متنی، حروف و کلمات را براساس الگویی در کنار هم چیده و چیزی قابل ارتباط و فهم در اختیار انسان میگذارد.
تصویری واضحی را تصور کنید که روی آن بهتدریج نویز یا همان پیکسلهای تصادفی اضافه میشود. بعد از دهها یا صدها بار اضافه کردن نویز، نتیجه این کار یک تصویر پر از نویز و شبیه به «صفحه برفکی» تلویزیونهای قدیمی است در زمانی که سیگنالی دریافت نمیکنند.
مدل دیفیوژن وظیفه دارد تا این فرایند را معکوس کند و از نویزها یک تصویر واضح بسازد. برای این کار در مرحله آموزش، شبکه عصبی میلیونها تصویر را در وضعیتهای مختلف «پر از نویز» را مشاهده میکنند و یاد میگیرد که چگونه در هر مرحله نویز را حذف کرده و تصویر را بازسازی کند. در نتیجه، وقتی از مدل بخواهید یک تصویر جدید بسازد، فرایند را برعکس میکند. از یک صفحه نویز خالص کارش را آغاز میکند و مرحله به مرحله تصویر نهایی را آشکار میسازد.
از این رو میتوان مدل دیفیوژن را نوعی ماشین بازسازی تدریجی دانست که از بینظمی کامل به سمت نظم حرکت میکند. اما قاعده و مسیر حرکت این مدل دیفیوژن را متن یا همان پرامپت کاربر مخشص میکند.
دیفیوژن به تنهایی تنها قادر به تولید تصاویر تصادفی است. اما برای اینکه خروجی دقیقا مطابق دستور کاربر باشد و مثلا اسب تکشاخی در حال خوردن اسپاگتی را که کاربر خواسته تولید کند، نیاز به مدلی است که معنای متن را فهمیده و آن را به تصویر پیوند دهد.
در اینجا مدلهای زبان بزرگ (LLM) یا سامانههای مشابه نقش میانجی و مترجم را ایفا میکنند. برای این کار، ابتدا در یک مرحله آموزشی پیوند و ارتباط میان متن و کلمات با تصاویر یا ویدیوهای مختلف به این مدلها آموخته میشود. سپس در مرحله تولید، این مدلها گامهای مختلف پاکسازی نویز توسط دیفیوژن را رهبری میکنند. به عبارتی، مدل بزرگ زبانی هر بار به مدل دیفیوژن میگوید: «این مرحله به تصویر یک اسب تکشاخ نزدیکتر شده است یا خیر؟» و مسیر تولید تصویر را اصلاح و اصلاح میکند.
اما اینجا نکته مهمی که در اینجا باید بدانید این است که بیشتر این براساس دادههای اینترنتی یا میلیاردها تصویر و متن جفتشده آموزش دیدهاند و به همین دلیل خروجی آنها در حقیقت چکیدهای از تصاویر موجود در اینترنت است؛ با تمام سوگیریها، کلیشهها و حتی محتوای نامطلوبی که در دادهها وجود دارد.
اما تا به اینجای کار تنها صحبت از تصویر است و برای تبدیل تصاویر به ویدیو به فرایند بسیار طولانیتری نیاز است و باید هزاران یا حتی میلیونها تصویر (فریم) به خوبی برای تولید یک خروجی مناسب در کنار هم قرار گیرند.
ایجاد یک تصویر واحد با دیفیوژن نسبتا ساده است، اما تولید ویدیو یا کنار هم قرار دادن هزاران فریمی که از یکپارچگی لازم برخوردار باشند، دشوار خواهد بود. مدل باید مطمئن شود که شی یا صحنهای که در یک فریم ظاهر میشود، در فریم بعدی هم بهطور سازگار باقی بماند. برای مثال، اگر در فریم اول خورشید در سمت راست باشد، نباید در فریم بعدی ناگهان ناپدید شود.
بنابراین مدل دیفیوژن برای ویدیو باید دنبالهای از تصاویر را بهطور همزمان پردازش کند و پیوستگی زمانی و مکانی را حفظ نماید. همین مساله باعث شده تا تولید ویدیو با هوش مصنوعی به یکی از چالشبرانگیزترین و پرهزینهترین بخشهای این فناوری تبدیل شود.
استفاده از فرایند دیفیوژن به تنهایی، بسیار پرهزینه است؛ زیرا هر فریم ویدیو شامل میلیونها پیکسل است و برای هر پیکسل باید بارها پردازش انجام شود. به همین دلیل محققان راهحل لتنت دیفیوژن (Latent Diffusion) را مطرح کردهاند.
در فرایند لتنت دیفیوژن، داده خام (تصاویر یا ویدیوها) ابتدا فشرده میشوند و تنها ویژگیهای اصلیشان در قالب یک فضای لتنت یا نهان ذخیره میشود. در این فضا، اطلاعات غیرضروری حذف شده و فقط چکیده ریاضیاتی دادهها باقی میماند.
فرایندی مشابه را در حوزههای دیگر نیز شاهد هستیم. وقتی ویدیویی را در اینترنت تماشا میکنید، فایل اصلی فشرده شده و بهصورت رمزگذاریشده به دستگاه شما میرسد. سپس دستگاه شما آن را دوباره بازسازی میکند. لتنت دیفیوژن هم از همین ایده در مدلهای مولد استفاده میکند تا فرایند افزودن و حذف نویز نه روی میلیونها پیکسل، بلکه روی کدهای فشرده انجام شود.
این روش بسیار سریعتر و کارآمدتر از دیفیوژن خام است. البته حتی در این حالت هم تولید ویدیو انرژی و توان پردازشی بسیار بالایی میطلبد.
مسئله اصلی در تولید ویدیو حفظ انسجام و پیوستگی تصاویر در طول زمان است؛ یعنی اشیا، نور، حرکات و صحنهها باید از فریمی به فریم دیگر به صورت منطقی و طبیعی تغییر پیدا کرده و منتقل شوند. برای این کار از معماری ترنسفورمر (Transformer) یا مبدل استفاده میشود.
ترنسفورمرها میتوانند به خوبی دنبالههای طولانی داده را پردازش کنند. همین ویژگی آنها را به قلب مدلهای زبانی مانند GPT و Gemini تبدیل کرده است تا انسجام و پیوستگی متن را حفظ کنند. پژوهشگران با رویکردی خلاقانه از همین ابزار در مولدهای ویدیو کمک گرفتهاند و شرکت اوپنایآی با ترکیب ترنسفورمرها در مولد ویدیو سورا، این رویکرد را به استاندارد صنعتی در تولید ویدیو تبدیل کرد.
نمونهای از ویدیو تولید شده با مدل سورا اوپنایآی:
اوپنایآی برای استفاده از ترنسفورمرها در جهان ویدیو، ویدیوها را در بُعد مکان و زمان تقسیمبندی کرد تا ترنسفورمر بتواند همانند کلمات و حروف در مدلهای زبانی با آنها برخورد کرده و انسجام و یکپارچگی آنها را حفظ کند. تیم بروکس، پژوهشگر ارشد مدل سورا اوپنایآی، در این باره میگوید: «درست مثل اینکه شما تمام فریمهای ویدیو را روی هم بگذارید و مکعبهای کوچکی را از آن برش بزنید.» که یعنی در این نگاه ویدیو و فریمهای مختلف آن همانند کیکی برش زده میشوند و هرچه این کیک با اضافه شدن فریمهای جدید قطورتر میشود، ترنسفورمر پیوستگی و انسجام هر برش جداگانه از آن را زیر نظر میگیرد و در نهایت تمام این کیک از پیوستگی لازم برخوردار میشود.
ترنسفورمر میتواند این مکعبها را بهصورت دنبالهای تحلیل کند و ارتباط میان آنها را بیاموزد. وقتی ترنسفورمر با دیفیوژن ترکیب میشود، مدل قادر است ویدیوهایی بسازد که اشیا در آنها «ثابت» باقی میمانند و به شکل طبیعی حرکت میکنند.
این روش همچنین به شرکتها اجازه میدهد تا مدلهای خود را براساس دادههای مختلفی، از ویدیوهای عمودی موبایل گرفته تا فیلمهای سینمایی، آموزش دهند. همین تنوع داده سبب شده کیفیت خروجی مدلها در سالهای اخیر جهشی چشمگیر داشته باشد.
تا مدتها ویدیوهای تولیدشده با هوش مصنوعی بدون صدا بودند. اما گوگل با عرضه مدل Veo 3 توانست گامی مهم برای حذف این محدودیت بردارد: تولید همزمان تصویر و صدا. دمیس هاسابیس امسال در رویداد Google I/O در این باره گفت: «ما در حال عبور از عصر تولید ویدیو صامت هستیم.»
چالش اصلی برای ویدیوهای غیرصامت، پیوند صحیح میان دادههای صوتی و تصویری به گونهای بود که دیفیوژن بتواند هر دو را همزمان پردازش و تولید کند. وقتی مدل Veo 3 ویدیو تولید میکند، مدل دیفیوژن آن در یک فرایند یکپارچه صوت و ویدیو را در کنار هم تولید میکند تا تصاویر و صدا همگام با یکدیگر باشند.
نمونهای از ویدیوهای تولید شده با مدل Veo 3 از گوگل و میدجرنی:
پاسخ کوتاه این است که خیر یا حداقل در حال حاضر اینگونه نیست. مدلهای زبانی بزرگ (LLM) مانند GPT-5 با استفاده از ترنسفورمرها ساخته میشوند، نه دیفیوژن. با اینکه مدلهای دیفیوژن در بیشتر موارد برای تولید تصویر، ویدیو و صوت استفاده میشوند، اما مرز این دو روز به روز کمرنگ تر میشود.
تولید ویدیو با ترکیب دیفیوژن و ترنسفورمر پیشرفت کرده است و در تابستان امسال گوگل دیپمایند اعلام کرد که در حال ساخت یک LLM آزمایشی است که به جای ترنسفورمر از یک مدل دیفیوژن برای تولید متن استفاده میکند. دلیل حرکت در چنین مسیری این است که با وجود پرهزینه و پرمصرف بودن تولید ویدیو با مدلهای دیفیوژن، این مدل ها به خودی خود از لحاظ مصرف انرژی عملکرد بهتری نسبت به ترنسفورمرها دارند. در نتیجه با استفاده از یک مدل دیفیوژن برای تولید متن به جای ترنسفورمرها، گوگل میتواند مصرف انرژی مدلهای بزرگ زبانی را تا حد زیادی کاهش دهد. بعید نیست که در آینده شاهد کاربرد مدلهای دیفیوژن در مبدلهای متن و افزایش استفاده از آنها باشیم.