مهدی جعفری مترجم

پیوست » فناوری » هوش مصنوعی » گوگل مدل جدید Gemini 2.5 Computer Use را برای تعامل با اپلیکیشن و وب معرفی کرد

گوگل مدل جدید Gemini 2.5 Computer Use را برای تعامل با اپلیکیشن و وب معرفی کرد

مهدی جعفری مترجم

۱۶ مهر ۱۴۰۴

زمان مطالعه : ۵ دقیقه

گوگل در ادامه‌ی توسعه‌ مدل‌های چندوجهی خود، از مدل جدید Gemini 2.5 Computer Use رونمایی کرده است که به طور ویژه برای کنترل و تعامل مستقیم با رابط‌های کاربری طراحی شده است. این مدل که بر پایه‌ی قابلیت‌های درک تصویری و استدلالی نسخه‌ Gemini 2.5 Pro ساخته شده، می‌توانند همانند انسان‌ها با صفحات وب و اپلیکیشن‌های موبایل کار کند و از کلیک‌کردن و تایپ گرفته تا پرکردن فرم‌ها و مدیریت فیلدهای تعاملی را برعهده گیرد.

به گزارش پیوست، گوگل در پست وبلاگی خود می‌گوید این مدل جدید اکنون از طریق Gemini API در Google AI Studio و Vertex AI در دسترس توسعه‌دهندگان قرار گرفته و به گفته‌ی گوگل، در بنچمارک‌های کنترل وب و موبایل عملکردی فراتر از رقبای اصلی خود دارد و تاخیر یا لتنسی را نیز کاهش داده است.

جهش بزرگ در ساخت عامل‌های تعاملی هوش مصنوعی

برخلاف مدل‌های زبانی که برای انجام وظایف نرم‌افزاری به APIهای ساختاریافته متکی‌ هستند، بسیاری از وظایف جهان دیجیتال همچنان نیازمند تعامل مستقیم با محیط‌های گرافیکی است. از این رو مدل Gemini 2.5 Computer Use با هدف پرکردن همین خلا از سوی گوگل معرفی شده تا اجرای کارهایی که انسان‌ها از طریق مرورگر یا اپلیکیشن انجام می‌دهند (از جمله موارد زیر)، را برعهده گیرد:

پر کردن و ارسال فرم‌ها،
جابجایی میان تب‌ها و صفحات،
کلیک و انتخاب از منوهای کشویی،
ورود به سیستم‌ها(login) و انجام عملیات در محیط‌های محافظت‌شده.

گوگل این قابلیت را «گام بعدی در ساخت عامل‌های همه‌کاره» (general-purpose agents) توصیف کرده است، عامل‌هایی که می‌توانند وظایف پیچیده‌ی واقعی را بدون نیاز به مداخله‌ی انسانی برعهده گیرند.

نحوه‌ی عملکرد مدل

این مدل از طریق ابزار جدیدی به نام computer_use در رابطه برنامه‌نویسی جمنای (Gemini API) فعالیت می‌کند. ورودی‌های اصلی آن شامل سه بخش می‌شوند:

ارائه پرامپت از سوی کاربر (user request)،
تصویر برداری لحظه‌ای از محیط (screenshot)،
تاریخچه‌ی اقدامات اخیر (action history)

مدل پس از تحلیل این ورودی‌ها، یک خروجی تولید می‌کند که معمولا به شکل تابعی فراخوان (function call) خواهد بود و مثلا برای کلیک، تایپ یا انتخاب یک گزینه ارائه می‌شود. با این حال یک سری از اقدامات حساس همچون خرید یا ارسال اطلاعات حساس باید با تایید کاربر انجام گیرند.

پس از اجرای هر عمل، یک تصویر جدید از محیط گرفته شده و مجددا به مدل ارسال می‌شود تا حلقه‌ی تعامل ادامه یابد تا زمانی که کار کامل شود یا خطا یا دستور توقف صادر شود.

گرچه تمرکز اصلی مدل روی مرورگرهای وب است، اما این مدل عملکرد خوبی را در کنترل رابط‌های کاربری موبایل نیز به ثبت رسانده است. گوگل می‌گوید این مدل هنوز برای کنترل سیستم‌عامل‌های دسکتاپ بهینه‌سازی نشده است.

گوگل برای نمایش توانایی‌های مدل چند دموی کاربردی منتشر کرده است. در یکی از آن‌ها مدل وظیفه دارد تا از سایتی به آدرس tinyurl.com/pet-care-signup اطلاعات مربوط به حیوانات خانگی ساکن کالیفرنیا را استخراج کرده و در سیستم CRM یک اسپای مجازی ثبت کند، سپس وقت ملاقات جدیدی برای آن‌ها با متخصصی خاص رزرو نماید.
در دموی دیگر، مدل به سامان‌دهی یادداشت‌های مجازی در وب‌اپلیکیشن sticky-note-jam.web.app می‌پردازد؛ یادداشت‌هایی که باید به شکل صحصح دسته‌بندی‌ شوند.

گوگل مدعی است که Gemini 2.5 Computer Use در چندین بنچمارک استاندارد وب و موبایل (از جمله آزمون‌های Browserbase) عملکردی بالاتر از رقبا را به ثبت رسانده است. جزئیات کامل این ارزیابی‌ها در مستندات مدل و وبلاگ Browserbase منتشر شده است.

ایمنی و جلوگیری از سواستفاده

گوگل معترف است که توسعه‌ عامل‌هایی که می‌توانند سیستم‌ها را مستقیما کنترل کنند، خطرات جدیدی از جمله سواستفاده عمدی، رفتار غیرمنتظره‌ مدل، و حملات مبتنی بر فریب و تزریق پرامپت (prompt injection) را در محیط‌های وب به دنبال دارند. از این رو، مالک کروم این مدل را با مجموعه‌ای از محافظ‌های ایمنی چندلایه طراحی کرده است:

خدمت ایمنی مرحله‌ای (per-step safety service): هر اقدام پیشنهادی مدل پیش از اجرا توسط یک سرویس مستقل ارزیابی می‌شود.
دستورالعمل‌های سیستمی: توسعه‌دهندگان می‌توانند تعیین کنند مدل پیش از انجام اقدامات پرخطر، از کاربر تایید بگیرد یا کاملا از انجام آن خودداری کند.
آموزش ایمنی درون‌مدلی: سیستم در سطح مدل، برای شناسایی و جلوگیری از اقداماتی که می‌تواند به امنیت، یکپارچگی یا دستگاه‌های حساس آسیب بزند آموزش دیده است.

گوگل همچنین از توسعه‌دهندگان خواسته پیش از عرضه‌ی عمومی محصولاتی که براساس این مدل طراحی می‌شوند، سیستم‌ها را به‌طور کامل آزمایش کنند.

طبق اعلام گوگل، تیم‌های داخلی این شرکت پیش از انتشار مدل از آن برای موارد مختلفی استفاده کرده‌اند. طبق پست وبلاگی این شرکت، تیم‌های داخلی برای تست رابط کاربری در پروژه‌هایی مانند Project Mariner و Firebase Testing Agent از این مدل استفاده کرده‌اند.

این مدل همچنین در پیش از ۶۰ درصد موارد توانسته تا بن‌بست تست‌های خودکار UI را به صورت خودگردان پشت سر بگذارد و گره از کار بگشاید.

علاوه بر این گوگل می‌گوید شرکت‌هایی همچون Poke.com و Autotab از این مدل برای عامل‌های خودکار خود استفاده کرده‌اند و طبق گزارش آنها، سرعت و دقت عامل‌های این دو شرکت بیش از ۵۰ درصد نسبت به رقبا افزایش یافته است.

نحوه‌ی دسترسی و آغاز به کار

مدل Gemini 2.5 Computer Use اکنون در مرحله‌ی پیش‌نمایش عمومی قرار دارد و توسعه‌دهندگان می‌توانند به صورت دموی آنلاین و در محیطی که توسط Browserbas میزبانی می‌شود به بررسی آن بپردازند و نمونه‌های آزمایشی را مستقیما اجرا کنند.

مستندات فنی و کدهای این مدل نیز در Google AI Studio و Vertex AI برای ساخت حلقه‌ی عامل هوشمند به‌صورت محلی یا ابری در دسترس قرار گرفته است. علاوه بر این انجمن توسعه دهندگان گوگل نیز برای ارائه بازخورد و پیشنهادات به این مدل دسترسی دارند.

گوگل با Gemini 2.5 Computer Use، علاوه بر تحقق یک گام مهم در مسیر توسعه عامل‌های هوش مصنوعی خودگردان، در تلاش برای حفظ توان رقابتی خود با دیگر شرکت‌هایی است که هرکدام با توسعه عامل‌ها برای اقتصاد عامل‌‌محور آینده آماده می‌شوند. شرکت اوپن‌ای‌آی نیز به تازگی از ابزار Agentkit برای توسعه عامل‌های هوش مصنوعی شخصی‌سازی شده رونمایی کرده است و احتمالا با عرضه مدل جدید گوگل شاهد رقابت بیشتری در این عرصه میان دو شرکت خواهیم بود.

این مطالب را هم بخوانید: