Esta IA hará todo por usted: Google lanza Gemini 2.5 Computer Use, que funciona con interfaces web

Por: Anton Kratiuk | hoy dia, 13:51

Google DeepMind presentó un nuevo modelo de IA especializado: Gemini 2.5 Computer Use, diseñado para crear agentes de IA capaces de interactuar con interfaces gráficas como lo hace un humano.

Qué puede hacer Gemini 2.5 Computer Use

  • Navegación por interfaces: La IA puede hacer clic, ingresar texto, desplazarse por páginas, completar formularios, trabajar con listas desplegables e incluso realizar acciones detrás de un inicio de sesión.
  • Ciclo de interfaz: La interacción ocurre según el principio “solicitud → acción → captura de pantalla → análisis → siguiente acción”, hasta que la tarea se complete.
  • Soporte para interfaces web y móviles: el modelo está optimizado para navegadores, pero muestra buenos resultados también en interfaces móviles. El soporte para sistemas operativos de escritorio aún está limitado.

Cómo funciona

El modelo recibe una solicitud del usuario, toma una captura de pantalla de la interfaz actual y analiza el historial de acciones anteriores. Basándose en estos datos, realiza una acción, como “presionar un botón” o “ingresar texto”. Algunas acciones requieren la confirmación del usuario, especialmente si se trata de compras u operaciones sensibles.


Principio de funcionamiento de Gemini 2.5 Computer Use

Gemini 2.5 Computer Use demuestra:

  • alta precisión en los benchmarks Browserbase y Online-Mind2Web,
  • baja latencia en comparación con sus similares,
  • hasta un 50% más rápido en comparación (según pruebas preliminares).

Para garantizar la seguridad de los datos personales de los usuarios, Google ha integrado una protección en el modelo contra acciones maliciosas, comportamiento inesperado y ataques a través de interfaces web (por ejemplo, inyección de mensajes).

Para los desarrolladores, hay un conjunto de herramientas, que incluye la evaluación de cada acción antes de su realización, e instrucciones del sistema que prohíben o requieren confirmación para operaciones riesgosas.

El modelo ya se está utilizando en pruebas de UI (incluido Project Mariner y Firebase Testing Agent), automatización de flujos de trabajo y creación de asistentes personales.

El modelo ya está disponible en una versión pública previa a través de la API Gemini en Google AI Studio y Vertex AI.

Fuente: Blog de Google