Gemini 3.5 Flash ya puede controlar tu pantalla de forma nativa

Google integra la función computer use de forma nativa en Gemini 3.5 Flash para automatizar tareas en pantalla.

Por Humberto Toledo el 24 de junio del 2026 a las 5:07 pm PDT

Resume con:

✨︎ Resumen (TL;DR):

Google integró la función computer use directamente en Gemini 3.5 Flash, eliminando la necesidad de recurrir a modelos externos para manipular interfaces digitales.

El sistema ya se encuentra disponible en fase de pruebas desde el 24 de junio de 2026 a través de la Gemini API.

Esta actualización optimiza los costos operativos al llevar la automatización avanzada a su modelo más económico y de gran escala.

Google integró de forma nativa la función de control de pantalla en Gemini 3.5 Flash, su modelo de lenguaje rápido para tareas de agentes. Con este cambio, los desarrolladores pueden diseñar herramientas que interactúan directamente con aplicaciones móviles, navegadores y entornos de escritorio usando un solo modelo accesible y veloz.

Computer use es una herramienta de software que permite a un modelo de inteligencia artificial analizar imágenes de una interfaz para realizar acciones lógicas como hacer clics, arrastrar elementos o escribir texto.

Te podría interesar:
Google abre preventa de su primera bocina inteligente en seis años

Fotos de stock gratuitas de abstracto, arquitectura, Arte — Foto: Brett Sayles / Pexels

Un flujo unificado y mucho más accesible para empresas

La gran novedad de esta actualización radica en la simplificación del desarrollo de agentes. Anteriormente, las empresas dependían de un modelo especializado e independiente llamado Gemini 2.5 Computer Use para procesar estas tareas. Ahora, esta capacidad se ejecuta directamente dentro de Flash al lado de funciones estándar como la búsqueda web o la ejecución de código.

El sistema opera bajo un ciclo continuo en el que el modelo recibe capturas de la pantalla, determina la siguiente acción a realizar (un clic o escribir un texto) y envía la instrucción de regreso a la aplicación del desarrollador para que se ejecute.

Al integrarse en Gemini 3.5 Flash, esta tecnología aprovecha una ventana de contexto masiva de un millón de tokens de entrada y hasta 65,000 tokens de salida, lo que facilita flujos de trabajo prolongados. Además, se beneficia de los costos reducidos de la Gemini Enterprise Agent Platform (anteriormente conocida como Vertex AI), facilitando la creación de agentes a escala empresarial.

Casos de uso prácticos en el entorno laboral

Google diseñó esta función para ir más allá de las tareas convencionales de un chatbot de asistencia. Las principales áreas de aplicación de esta herramienta incluyen:

Pruebas de software continuas: Agentes automatizados que navegan por aplicaciones para auditar problemas de diseño, accesibilidad o errores de programación.
Tareas de oficina con múltiples pasos: Extracción de datos de tableros informativos complejos y llenado automático de formularios en sistemas internos.
Investigación multiplataforma: Navegación en segundo plano por múltiples portales web para recopilar y organizar información relevante en un solo lugar.

Seguridad opcional frente a ataques digitales

La capacidad de controlar pantallas mediante inteligencia artificial viene acompañada de nuevos desafíos de seguridad. El principal riesgo son los ataques de inyección de instrucciones indirectas, en los que un hacker introduce comandos invisibles en una web para manipular la conducta de la IA.

Para contrarrestar esta vulnerabilidad, Google incluyó entrenamiento adversarial directo y desarrolló dos medidas opcionales de seguridad que los desarrolladores deben activar manualmente:

Verificación humana obligatoria: Una pausa en el sistema que requiere confirmación de una persona real antes de realizar acciones irreversibles como compras o borrado de datos.
Bloqueo automático de ejecución: Un cortafuegos que detiene inmediatamente al agente si el sistema detecta que alguien intenta alterar las instrucciones originales de la tarea.

La herramienta de Google compite en el mercado contra el desarrollo de Anthropic con Claude, que destaca por su versatilidad para interactuar con archivos del sistema, y los avances recientes de OpenAI. Aunque el sistema de Google ya está disponible para pruebas, los desarrolladores deben considerar que aún enfrenta dificultades clásicas de la automatización, como la aparición de ventanas emergentes imprevistas, controles de seguridad tipo CAPTCHA o cambios repentinos en el diseño de las páginas web.

Fuentes: 1, 2, 3, 4