گوگل از مولد تصویر جدید Veo در پاسخ به اوپن‌ای‌آی رونمایی کرد

مهدی جعفری مترجم

۲۵ اردیبهشت ۱۴۰۳

زمان مطالعه : ۳ دقیقه

مراسم Google I/O همانطور که انتظار می‌رفت با پاسخ گوگل به مهمترین رقیب خود در عصر هوش مصنوعی همراه شد. غول جستجو که برای سلطه بر صنعت AI تلاش می‌کند در این مراسم از مدل تازه‌ای به نام Veo رونمایی کرد که می‌تواند ویدیو‌های با کیفیت 1080p براساس پرامپت متنی ایجاد کند و مولد تصویر Imagen 3 نیز کیفیت تبدیل متن به تصویر را افزایش می‌دهد.

به گزارش پیوست، شرکت اوپن‌ای‌آی که شب گذشته مراسم توسعه دهندگان خود را با عرضه مدل جدید هوش مصنوعی GPT-4o به پایان برد پیش از این با رونمایی از سورا (Sora)، ابزاری برای تولید ویدیو‌های خیره‌کننده، عاشقان فناوری را مجذوب خود کرده بود و حالا گوگل پاسخی به نام Veo را برای این مدل رونمایی کرد.

گوگل مدعی است که Veo «درک پیشرفته‌ای از زبان طبیعی و معناشناسی بصری» دارد تا بتوانید هر ویدیویی که در ذهن خود دارید را با آن تولید کنید. ویدیو‌های ساخته این هوش مصنوعی می‌توانند فراتر از «یک دقیقه» باشند، محدودیتی که اوپن‌ای‌آی برای سورا در نظر گرفته است. مولد ویدیو گوگل همچنین می‌تواند تکنیک‌های بصری و سینمایی مثل تایم‌لپس را نیز بفهمند.

با این حال گوگل برای اینکه نشان دهد Veo قرار نیست شغل هنرمندان را به سرقت ببرد با استودیو خلاقی برای نمایش توانمندی‌های این مدل همکاری می‌کند. هنوز تصاویری از ماحصل این همکاری به نمایش گذاشته نشده است.

گوگل می‌گوید Veo می‌تواند بهتر از مدل‌های پیشین فیزیک جهان واقعی را شبیه سازی کند و همچنین عملکرد بهتری در رندر تصاویر با کیفیت دارد.

مدل مولد ویدیو گوگل از طریق ابزار VideoFX این شرکت از همین امروز در اختیار برخی از تولیدکنندگان محتوا قرار می‌گیرد و به گفته شرکت به زودی به بخش ویدیو‌های کوتاه یوتیوب و دیگر محصولات نیز اضافه خواهد شد.

مولد تصویر Imagen 3

با اینکه توجه اصلی مخاطبان و گوگل به ابزار مولد ویدیو است اما مولد تصویر Imagen 3 امروز با وعده‌های امیدوار‌کننده (و شاید تکراری) این شرکت از تولید تصاویر با «بالاترین کیفیت» براساس پرامپت متنی و «سطح خیره‌کننده‌ای از جزئیات» برای «تصاویر واقع‌گرایانه و شبیه جهان واقعی» و کاهش مصنوعات معرفی شد.

البته که در این عرصه نیز رقابت مستقیم گوگل و اوپن‌ای‌آی بسیار واضح است و باید دید این مدل می‌تواند عملکردی مشابه یا حتی بهتر از Dall-E 3، مدل مولد تصویر اوپن‌ای‌آی، را به ثبت برساند. گوگل می‌گوید Imagen 3 بهتر از قبل متن را درک می‌کند و همچنین در توجه به جزئیات ارائه شده در پرامپت‌های طولانی نیز عملکرد بهتری دارد.

گوگل همچنین در حال همکاری با چندین هنرمند برای آزمایش Music AI Sandbox یا بسته ابزارهای این شرکت در حوزه موسیقی است. غول آمریکایی اما در مراسم خود اشاره دقیقی به جزئیات این طرح نکرد و تنها یک دموی جذاب از آن را به نمایش گذاشت.

این مطالب را هم بخوانید: