معرفی سیزده هوش مصنوعی تولید و پردازش تصویر: خلق از حروف ساده
امروزه و با توسعه هوش مصنوعی ابزار پردازش تصویر بسیاری برای تبدیل متن به تصویر…
۳۰ آبان ۱۴۰۳
۲۵ اردیبهشت ۱۴۰۳
زمان مطالعه : ۳ دقیقه
مراسم Google I/O همانطور که انتظار میرفت با پاسخ گوگل به مهمترین رقیب خود در عصر هوش مصنوعی همراه شد. غول جستجو که برای سلطه بر صنعت AI تلاش میکند در این مراسم از مدل تازهای به نام Veo رونمایی کرد که میتواند ویدیوهای با کیفیت 1080p براساس پرامپت متنی ایجاد کند و مولد تصویر Imagen 3 نیز کیفیت تبدیل متن به تصویر را افزایش میدهد.
به گزارش پیوست، شرکت اوپنایآی که شب گذشته مراسم توسعه دهندگان خود را با عرضه مدل جدید هوش مصنوعی GPT-4o به پایان برد پیش از این با رونمایی از سورا (Sora)، ابزاری برای تولید ویدیوهای خیرهکننده، عاشقان فناوری را مجذوب خود کرده بود و حالا گوگل پاسخی به نام Veo را برای این مدل رونمایی کرد.
گوگل مدعی است که Veo «درک پیشرفتهای از زبان طبیعی و معناشناسی بصری» دارد تا بتوانید هر ویدیویی که در ذهن خود دارید را با آن تولید کنید. ویدیوهای ساخته این هوش مصنوعی میتوانند فراتر از «یک دقیقه» باشند، محدودیتی که اوپنایآی برای سورا در نظر گرفته است. مولد ویدیو گوگل همچنین میتواند تکنیکهای بصری و سینمایی مثل تایملپس را نیز بفهمند.
با این حال گوگل برای اینکه نشان دهد Veo قرار نیست شغل هنرمندان را به سرقت ببرد با استودیو خلاقی برای نمایش توانمندیهای این مدل همکاری میکند. هنوز تصاویری از ماحصل این همکاری به نمایش گذاشته نشده است.
گوگل میگوید Veo میتواند بهتر از مدلهای پیشین فیزیک جهان واقعی را شبیه سازی کند و همچنین عملکرد بهتری در رندر تصاویر با کیفیت دارد.
مدل مولد ویدیو گوگل از طریق ابزار VideoFX این شرکت از همین امروز در اختیار برخی از تولیدکنندگان محتوا قرار میگیرد و به گفته شرکت به زودی به بخش ویدیوهای کوتاه یوتیوب و دیگر محصولات نیز اضافه خواهد شد.
با اینکه توجه اصلی مخاطبان و گوگل به ابزار مولد ویدیو است اما مولد تصویر Imagen 3 امروز با وعدههای امیدوارکننده (و شاید تکراری) این شرکت از تولید تصاویر با «بالاترین کیفیت» براساس پرامپت متنی و «سطح خیرهکنندهای از جزئیات» برای «تصاویر واقعگرایانه و شبیه جهان واقعی» و کاهش مصنوعات معرفی شد.
البته که در این عرصه نیز رقابت مستقیم گوگل و اوپنایآی بسیار واضح است و باید دید این مدل میتواند عملکردی مشابه یا حتی بهتر از Dall-E 3، مدل مولد تصویر اوپنایآی، را به ثبت برساند. گوگل میگوید Imagen 3 بهتر از قبل متن را درک میکند و همچنین در توجه به جزئیات ارائه شده در پرامپتهای طولانی نیز عملکرد بهتری دارد.
گوگل همچنین در حال همکاری با چندین هنرمند برای آزمایش Music AI Sandbox یا بسته ابزارهای این شرکت در حوزه موسیقی است. غول آمریکایی اما در مراسم خود اشاره دقیقی به جزئیات این طرح نکرد و تنها یک دموی جذاب از آن را به نمایش گذاشت.