گوگل از مدل Gemini 2.5 Computer Use برای کنترل مرورگر رونمایی کرد
در بحبوحه رقابت تنگاتنگ در دنیای هوش مصنوعی، گوگل تنها یک روز پس از رویداد بزرگ OpenAI، با معرفی مدل Gemini 2.5 Computer Use، پاسخی قدرتمند به رقبای خود داد. این مدل تخصصی به گونهای طراحی شده که بتواند مانند یک کاربر انسانی با وبسایتها و نرمافزارها تعامل کند و وظایف پیچیده را از طریق اقداماتی مانند کلیک، تایپ و اسکرول بهصورت خودکار به انجام برساند.
ویژگی منحصربهفرد این مدل، توانایی آن در درک مستقیم رابط کاربری گرافیکی (GUI) بدون نیاز به API است. این هوش مصنوعی با تحلیل بصری اسکرینشاتها، المانهای قابل تعامل مانند دکمهها و فیلدها را شناسایی کرده و بهترین اقدام بعدی را برای رسیدن به هدف تعیین میکند. این فرآیند بهصورت یک حلقه تکرارشونده ادامه مییابد تا زمانی که وظیفه محولشده به طور کامل انجام شود. این مدل در حال حاضر از 13 عمل اصلی از جمله باز کردن مرورگر، کلیک، تایپ و حتی کشیدن و رها کردن پشتیبانی میکند.
این فناوری که پیش از این در پروژه تحقیقاتی Project Mariner گوگل به کار گرفته شده بود، پتانسیل بالایی در خودکارسازی فرآیندهای کاری تکراری دارد. گوگل در دموهای خود نشان داد که چگونه این مدل میتواند اطلاعات را بین دو وبسایت مختلف جابهجا کرده و حتی یک قرار ملاقات در سیستم CRM تنظیم کند یا یک تخته یادداشت دیجیتال را مرتبسازی کند. این قابلیتها، Gemini 2.5 Computer Use را به ابزاری ایدهآل برای کسبوکارها و کاربران حرفهای تبدیل میکند.

معرفی این مدل، پاسخ مستقیم گوگل به قابلیتهای ایجنتمحور رقبایی چون OpenAI (ChatGPT Agent) و Anthropic (Claude’s Computer Use) است. بنچمارکهای منتشرشده توسط گوگل نشان میدهد که این مدل در کنترل وب و موبایل عملکرد بهتری نسبت به رقبا دارد، اما یک محدودیت مهم نیز وجود دارد: در حال حاضر، عملکرد آن به محیط مرورگر محدود شده و برخلاف برخی رقبا، توانایی کنترل کامل سیستمعامل دسکتاپ را ندارد. Gemini 2.5 Computer Use از امروز از طریق Gemini API در پلتفرمهای Google AI Studio و Vertex AI به صورت پیشنمایش در اختیار توسعهدهندگان قرار گرفته است تا نسل جدیدی از اپلیکیشنهای خودکار را خلق کنند.
منبع: Google
