گوگل از مدل Gemini 2.5 Computer Use برای کنترل مرورگر رونمایی کرد

یوسف اسفندیاری

۱۶ مهر ۱۴۰۴ | ۰۸:۰۰ زمان مورد نیاز برای مطالعه: ۱ دقیقه

در بحبوحه رقابت تنگاتنگ در دنیای هوش مصنوعی، گوگل تنها یک روز پس از رویداد بزرگ OpenAI، با معرفی مدل Gemini 2.5 Computer Use، پاسخی قدرتمند به رقبای خود داد. این مدل تخصصی به گونه‌ای طراحی شده که بتواند مانند یک کاربر انسانی با وب‌سایت‌ها و نرم‌افزارها تعامل کند و وظایف پیچیده را از طریق اقداماتی مانند کلیک، تایپ و اسکرول به‌صورت خودکار به انجام برساند.

ویژگی منحصربه‌فرد این مدل، توانایی آن در درک مستقیم رابط کاربری گرافیکی (GUI) بدون نیاز به API است. این هوش مصنوعی با تحلیل بصری اسکرین‌شات‌ها، المان‌های قابل تعامل مانند دکمه‌ها و فیلدها را شناسایی کرده و بهترین اقدام بعدی را برای رسیدن به هدف تعیین می‌کند. این فرآیند به‌صورت یک حلقه تکرارشونده ادامه می‌یابد تا زمانی که وظیفه محول‌شده به طور کامل انجام شود. این مدل در حال حاضر از 13 عمل اصلی از جمله باز کردن مرورگر، کلیک، تایپ و حتی کشیدن و رها کردن پشتیبانی می‌کند.

این فناوری که پیش از این در پروژه تحقیقاتی Project Mariner گوگل به کار گرفته شده بود، پتانسیل بالایی در خودکارسازی فرآیندهای کاری تکراری دارد. گوگل در دموهای خود نشان داد که چگونه این مدل می‌تواند اطلاعات را بین دو وب‌سایت مختلف جابه‌جا کرده و حتی یک قرار ملاقات در سیستم CRM تنظیم کند یا یک تخته یادداشت دیجیتال را مرتب‌سازی کند. این قابلیت‌ها، Gemini 2.5 Computer Use را به ابزاری ایده‌آل برای کسب‌وکارها و کاربران حرفه‌ای تبدیل می‌کند.

معرفی این مدل، پاسخ مستقیم گوگل به قابلیت‌های ایجنت‌محور رقبایی چون OpenAI (ChatGPT Agent) و Anthropic (Claude’s Computer Use) است. بنچمارک‌های منتشرشده توسط گوگل نشان می‌دهد که این مدل در کنترل وب و موبایل عملکرد بهتری نسبت به رقبا دارد، اما یک محدودیت مهم نیز وجود دارد: در حال حاضر، عملکرد آن به محیط مرورگر محدود شده و برخلاف برخی رقبا، توانایی کنترل کامل سیستم‌عامل دسکتاپ را ندارد. Gemini 2.5 Computer Use از امروز از طریق Gemini API در پلتفرم‌های Google AI Studio و Vertex AI به صورت پیش‌نمایش در اختیار توسعه‌دهندگان قرار گرفته است تا نسل جدیدی از اپلیکیشن‌های خودکار را خلق کنند.