بزرگترین اشتباه شرکتها در مسیر هوش مصنوعی: تمرکز بر سود بهجای تغییر روش کار
مدیران بسیاری هنوز هوش مصنوعی را صرفاً ابزاری برای سودآوری سریع میبینند، اما کارشناسان هشدار…
۱۶ مهر ۱۴۰۴
۱۶ مهر ۱۴۰۴
زمان مطالعه : ۵ دقیقه
گوگل در ادامهی توسعه مدلهای چندوجهی خود، از مدل جدید Gemini 2.5 Computer Use رونمایی کرده است که به طور ویژه برای کنترل و تعامل مستقیم با رابطهای کاربری طراحی شده است. این مدل که بر پایهی قابلیتهای درک تصویری و استدلالی نسخه Gemini 2.5 Pro ساخته شده، میتوانند همانند انسانها با صفحات وب و اپلیکیشنهای موبایل کار کند و از کلیککردن و تایپ گرفته تا پرکردن فرمها و مدیریت فیلدهای تعاملی را برعهده گیرد.
به گزارش پیوست، گوگل در پست وبلاگی خود میگوید این مدل جدید اکنون از طریق Gemini API در Google AI Studio و Vertex AI در دسترس توسعهدهندگان قرار گرفته و به گفتهی گوگل، در بنچمارکهای کنترل وب و موبایل عملکردی فراتر از رقبای اصلی خود دارد و تاخیر یا لتنسی را نیز کاهش داده است.
برخلاف مدلهای زبانی که برای انجام وظایف نرمافزاری به APIهای ساختاریافته متکی هستند، بسیاری از وظایف جهان دیجیتال همچنان نیازمند تعامل مستقیم با محیطهای گرافیکی است. از این رو مدل Gemini 2.5 Computer Use با هدف پرکردن همین خلا از سوی گوگل معرفی شده تا اجرای کارهایی که انسانها از طریق مرورگر یا اپلیکیشن انجام میدهند (از جمله موارد زیر)، را برعهده گیرد:
گوگل این قابلیت را «گام بعدی در ساخت عاملهای همهکاره» (general-purpose agents) توصیف کرده است، عاملهایی که میتوانند وظایف پیچیدهی واقعی را بدون نیاز به مداخلهی انسانی برعهده گیرند.
این مدل از طریق ابزار جدیدی به نام computer_use در رابطه برنامهنویسی جمنای (Gemini API) فعالیت میکند. ورودیهای اصلی آن شامل سه بخش میشوند:
مدل پس از تحلیل این ورودیها، یک خروجی تولید میکند که معمولا به شکل تابعی فراخوان (function call) خواهد بود و مثلا برای کلیک، تایپ یا انتخاب یک گزینه ارائه میشود. با این حال یک سری از اقدامات حساس همچون خرید یا ارسال اطلاعات حساس باید با تایید کاربر انجام گیرند.
پس از اجرای هر عمل، یک تصویر جدید از محیط گرفته شده و مجددا به مدل ارسال میشود تا حلقهی تعامل ادامه یابد تا زمانی که کار کامل شود یا خطا یا دستور توقف صادر شود.
گرچه تمرکز اصلی مدل روی مرورگرهای وب است، اما این مدل عملکرد خوبی را در کنترل رابطهای کاربری موبایل نیز به ثبت رسانده است. گوگل میگوید این مدل هنوز برای کنترل سیستمعاملهای دسکتاپ بهینهسازی نشده است.
گوگل برای نمایش تواناییهای مدل چند دموی کاربردی منتشر کرده است. در یکی از آنها مدل وظیفه دارد تا از سایتی به آدرس tinyurl.com/pet-care-signup اطلاعات مربوط به حیوانات خانگی ساکن کالیفرنیا را استخراج کرده و در سیستم CRM یک اسپای مجازی ثبت کند، سپس وقت ملاقات جدیدی برای آنها با متخصصی خاص رزرو نماید.
در دموی دیگر، مدل به ساماندهی یادداشتهای مجازی در وباپلیکیشن sticky-note-jam.web.app میپردازد؛ یادداشتهایی که باید به شکل صحصح دستهبندی شوند.
گوگل مدعی است که Gemini 2.5 Computer Use در چندین بنچمارک استاندارد وب و موبایل (از جمله آزمونهای Browserbase) عملکردی بالاتر از رقبا را به ثبت رسانده است. جزئیات کامل این ارزیابیها در مستندات مدل و وبلاگ Browserbase منتشر شده است.
گوگل معترف است که توسعه عاملهایی که میتوانند سیستمها را مستقیما کنترل کنند، خطرات جدیدی از جمله سواستفاده عمدی، رفتار غیرمنتظره مدل، و حملات مبتنی بر فریب و تزریق پرامپت (prompt injection) را در محیطهای وب به دنبال دارند. از این رو، مالک کروم این مدل را با مجموعهای از محافظهای ایمنی چندلایه طراحی کرده است:
گوگل همچنین از توسعهدهندگان خواسته پیش از عرضهی عمومی محصولاتی که براساس این مدل طراحی میشوند، سیستمها را بهطور کامل آزمایش کنند.
طبق اعلام گوگل، تیمهای داخلی این شرکت پیش از انتشار مدل از آن برای موارد مختلفی استفاده کردهاند. طبق پست وبلاگی این شرکت، تیمهای داخلی برای تست رابط کاربری در پروژههایی مانند Project Mariner و Firebase Testing Agent از این مدل استفاده کردهاند.
این مدل همچنین در پیش از ۶۰ درصد موارد توانسته تا بنبست تستهای خودکار UI را به صورت خودگردان پشت سر بگذارد و گره از کار بگشاید.
علاوه بر این گوگل میگوید شرکتهایی همچون Poke.com و Autotab از این مدل برای عاملهای خودکار خود استفاده کردهاند و طبق گزارش آنها، سرعت و دقت عاملهای این دو شرکت بیش از ۵۰ درصد نسبت به رقبا افزایش یافته است.
مدل Gemini 2.5 Computer Use اکنون در مرحلهی پیشنمایش عمومی قرار دارد و توسعهدهندگان میتوانند به صورت دموی آنلاین و در محیطی که توسط Browserbas میزبانی میشود به بررسی آن بپردازند و نمونههای آزمایشی را مستقیما اجرا کنند.
مستندات فنی و کدهای این مدل نیز در Google AI Studio و Vertex AI برای ساخت حلقهی عامل هوشمند بهصورت محلی یا ابری در دسترس قرار گرفته است. علاوه بر این انجمن توسعه دهندگان گوگل نیز برای ارائه بازخورد و پیشنهادات به این مدل دسترسی دارند.
گوگل با Gemini 2.5 Computer Use، علاوه بر تحقق یک گام مهم در مسیر توسعه عاملهای هوش مصنوعی خودگردان، در تلاش برای حفظ توان رقابتی خود با دیگر شرکتهایی است که هرکدام با توسعه عاملها برای اقتصاد عاملمحور آینده آماده میشوند. شرکت اوپنایآی نیز به تازگی از ابزار Agentkit برای توسعه عاملهای هوش مصنوعی شخصیسازی شده رونمایی کرده است و احتمالا با عرضه مدل جدید گوگل شاهد رقابت بیشتری در این عرصه میان دو شرکت خواهیم بود.