معرفی سیزده هوش مصنوعی تولید و پردازش تصویر: خلق از حروف ساده
امروزه و با توسعه هوش مصنوعی ابزار پردازش تصویر بسیاری برای تبدیل متن به تصویر…
۳۰ آبان ۱۴۰۳
۲۷ بهمن ۱۴۰۲
زمان مطالعه : ۴ دقیقه
با اینکه تنها دو ماه از عرضه هوش مصنوعی جمینی میگذرد، گوگل حالا این ابزار را با یک نسخه جدید بروزرسانی میکند. جمینی ۱.۵ روز گذشته در اختیار توسعه دهندگان و کاربران تجاری قرار گرفت و به زودی عرضه عمومی خواهد شد.
به گزارش پیوست، طبق گفتههای گوگل جمینی ۱.۵ پیشرفتهای چشمگیری نسبت به نسل قبلی خود دارد و مدل جمینی ۱.۵ پرو، یک مدل فراگیر و به نظر ارتقایی از جمینی اولترا است. این مدل از تکنیک رایجی به نام «ترکیب متخصصان» (Mixture of Experts) یا MoE استفاده میکند که وقتی پرسشی ارائه میکنید تنها بخشی از تمام مدل فعال میشود و همیشه تمام مدل در حال پردازش نیست. این رویکرد سرعت و بهرهوری مدل هوش مصنوعی گوگل را بهبود میبخشد.
اما یکی از قابلیتهای جمینی ۱.۵ حتی مدیرعامل گوگل سوندار پیچای را نیز هیجان زده کرده است: جمینی پنجره مفاد گستردهای دارد و یعنی میتواند پرسشهای بسیار بزرگی را پاسخ داده و در آن واحد به اطلاعات بسیار بیشتری نگاه کند. این پنجره یک میلیون توکن را شامل میشود و این در حالی است که تعداد توکنها در دیگر مدلهای پیشتاز بسیار کمتر از این است و مثلا GPT-4 از اوپنایآی توان اداره ۱۲۸ هزار توکن و جمینی پرو فعلی هم تنها ۳۲ هزار توکن را دارند. توکنها معیار خاصی برای اندازهگیری این پنجره هستند و پیچای به زبان ساده این رقم را برابر با « ۱۰ یا ۱۱ ساعت ویدیو، دهها هزار خط کد» تعریف میکند و پنجره به این معنا است که شما میتوانید در یک لحظه درمورد تمام بخشهای محتوایی به طول یک میلیون توکن از هوش مصنوعی سوال کنید.
پیچای همچنین گفته که محققان گوگل در حال آزمایش یک پنجره مضمون ۱۰ میلیون توکنی هستند که یعنی هوش مصنوعی میتواند تمام سریال بازی تاج و تخت را به یک باره ببلعد و درمورد آن به سوالاتی پاسخ دهد.
گوگل دیپمایند در یک دمو جمینی پرو ۱.۵ را در حال تجزیهتحلیل یک پیدیاف ۴۰۲ صفحهای از متن ارتباطات آپولو ۱۱ نشان میدهد و سپس از آن میخواهد بخشهای خندهدارش را پیدا کرده و چند لحظه مثل وقتی که فضانوردان گفتند تاخیر در ارتباطات به خاطر خوردن ساندویچ بود را ارائه کند. در مثال دیگری این مدل به سوالاتی درمورد یک فیلم کامل پاسخ میدهد. نسخه قبلی نمیتوانست در مورد چنین محتوای طولانی (ویدیو یا متن) به سوالات پاسخ دهد.
پیچای معتقد است که پنجره محتوایی بزرگتر به ویژه برای کسبوکارها مفید است. او میگوید:«این توانایی موارد استفادهای را ممکن میکند که شما میتوانید مقدار زیادی از مفاد شخصی و اطلاعات را در لحظهی پرسش در اختیار هوش مصنوعی بگذارید.»
او میگوید که مثلا فیلمسازها میتوانند فیلمشان را به صروت کامل در اختیار هوش مصنوعی بگذارند و از جمینی بپرسند به نظرت منتقدان چه خواهند گفت. پیچای همچنین یکی دیگر از کاربردهای جمینی در شرکتها را برای مستندات عظیم مالی میداند.
فعلا جمینی ۱.۵ تنها از طریق Vertex AI و AI Studio در اختیار کاربران تجاری و توسعه دهندگان قرار میگیرد اما در نهایت گوگل جمینی ۱.۰ را با نسخه استاندارد و جمینی ۱.۵ و جمینی پرو را نیز با جمینی ۱.۵ پرو جایگزین میکند. البته برای دسترسی به پنجره مفاد یک میلیون توکنی باید هزینه اضافه بپردازید. گوگل در حال حاضر در حال بررسی موضوعات امنیتی و مرزبندیهای اخلاقی، به ویژه با توجه به گستردهتر شدن پنجره مفاد این مدل هوش مصنوعی است.
غول جستجو که مالک یکی از آزمایشگاههای پیشتاز هوش مصنوعی در جهان است رقابت تنگاتنگ و سختی را با اوپنایآی و مایکروسافت در پیش گرفته است. شرکت اوپنایآی نیز شب گذشته از مدل هوش مصنوعی جدیدی به نام سورا (Sora) رونمایی کرد که با استفاده از پرامپتهای ساده میتواند محتوای ویدیوی تولید کند. کیفیت ویدیوها که طول حداکثر ۶۰ ثانیه میرسند بسیاری را شگفتزده کرده است.