Gemini 3.5 Flash ya puede controlar el ordenador y realizar tareas de forma autónoma

  • Google integra de forma nativa la función Computer Use en su modelo Gemini 3.5 Flash.
  • La IA ahora puede ver la pantalla, mover el cursor y ejecutar acciones en aplicaciones y navegadores.
  • Se han implementado capas de seguridad específicas para evitar ataques de inyección de comandos.
  • La herramienta está enfocada a desarrolladores y empresas para automatizar procesos mecánicos complejos.

Logo de Gemini 3.5 de Google

El ecosistema de la inteligencia artificial acaba de dar un giro de tuerca bastante importante con la última actualización de Google. Lo que hasta hace nada era una herramienta experimental, ahora se ha convertido en una capacidad integrada que permite a Gemini 3.5 Flash manejar un ordenador de la misma manera que lo haría cualquier usuario de carne y hueso. Ya no se trata solo de que la máquina nos responda a una duda o nos escriba un correo, sino de que sea capaz de tomar las riendas de la interfaz para completar un encargo de principio a fin.

Esta evolución supone que el modelo puede observar lo que ocurre en el monitor, razonar sobre los elementos visuales que tiene delante y ejecutar acciones concretas como hacer clic, desplazarse por una web o rellenar formularios de manera independiente. Google ha decidido que esta tecnología, conocida técnicamente como agentes autónomos, deje de ser un módulo externo para pasar a formar parte del ADN de su modelo más ágil, facilitando mucho la vida a quienes desarrollan aplicaciones basadas en esta IA.

qué es StepFun AI Step-Audio 2 Mini
Artículo relacionado:
Qué es StepFun AI Step-Audio 2 Mini: guía completa

De responder preguntas a realizar recados digitales

Interfaz de Gemini 3.5 Flash

La gran diferencia respecto a lo que conocíamos hasta hoy es que la IA ya no se limita a darnos un tutorial paso a paso sobre cómo hacer algo. Si le pides que busque el billete de avión más barato para tus próximas vacaciones, el sistema entra directamente en los portales de reservas, compara los precios en tiempo real y te presenta el trabajo ya terminado. Es un cambio de paradigma donde el asistente deja de ser un sabelotodo para convertirse en un empleado digital que se conoce todos los rincones de tu sistema operativo.

Para demostrar de qué es capaz, se han realizado pruebas donde el modelo navega de forma fluida por entornos de escritorio y móviles. En estos entornos, es capaz de encadenar una serie de pasos complejos sin que nadie tenga que ir guiándole la mano en cada clic. Por ejemplo, puede auditar una aplicación entera para ver si cumple con las normas de accesibilidad o incluso echarse una partida a juegos clásicos demostrando que entiende perfectamente lo que está viendo en pantalla en cada momento.

Seguridad blindada para evitar problemas mayores

Seguridad en la inteligencia artificial

Está claro que soltarle los mandos de un equipo a un programa informático puede dar un poco de vértigo, especialmente en entornos profesionales donde hay datos sensibles de por medio. Por eso, los ingenieros han puesto mucho énfasis en añadir salvaguardas contra la inyección de prompts, que no es otra cosa que el intento de engañar a la IA mediante órdenes ocultas en una página web. Si el sistema detecta algo sospechoso o una instrucción que parece maliciosa, se detiene automáticamente para evitar sustos innecesarios.

Además, para las tareas que son un poco más delicadas, como realizar un pago o borrar archivos importantes, Google ha incluido un sistema de confirmación explícita por parte del usuario. De esta forma, siempre habrá un ojo humano vigilando antes de que la máquina haga algo irreversible. La recomendación para las empresas es que utilicen estos agentes en entornos controlados y con permisos bien definidos, ya que, aunque la tecnología es potente, todavía requiere ese punto de supervisión para que no acabe metiendo la pata en el momento menos oportuno.

Disponibilidad y aplicaciones en el sector profesional

Gráfico de rendimiento de Gemini 3.5

La llegada de esta función de forma nativa a Gemini 3.5 Flash simplifica enormemente el trabajo a las compañías que buscan automatizar flujos de trabajo pesados. Al estar disponible a través de la API y de plataformas corporativas, cualquier desarrollador puede empezar a trastear con estas capacidades para crear herramientas que se encarguen de las tareas más mecánicas del día a día, como las pruebas continuas de software o la gestión de documentación masiva en aplicaciones profesionales.

Lo que antes requería utilizar varios modelos distintos y hacer malabares con el código, ahora se puede gestionar desde una única pieza tecnológica mucho más eficiente. Este movimiento coloca a la gran G en una posición muy competitiva, ofreciendo un modelo pensado para ir rápido y consumir pocos recursos, algo fundamental cuando hablamos de procesos que se tienen que repetir miles de veces en una jornada laboral. Ya no es el futuro, es lo que hay ahora mismo sobre la mesa para quien quiera darle un empujón a la productividad de su negocio.

La integración de estas capacidades de control autónomo supone que la inteligencia artificial empieza a salir de su caja de texto para interactuar con el mundo digital de forma real. Aunque todavía se recomienda un enfoque de defensa en profundidad y cautela en su despliegue, el hecho de que el uso del ordenador sea nativo marca un antes y un después en la autonomía de los agentes digitales. A partir de ahora, la relación con nuestros equipos podría cambiar drásticamente al delegar los procesos más tediosos en un asistente que ya sabe moverse por sí solo entre menús y aplicaciones sin despeinarse.