Ya tenemos el agente de IA de OpenAI. Se llama Operator, y es un sistema capaz de ver nuestra pantalla y realizar acciones de forma autónoma en el navegador a partir de nuestras peticiones. Es algo que ya habíamos visto con 'Computer Use' de Anthropic o Mariner de DeepMind, pero aquí la empresa liderada por Sam Altman tiene su propio ingrediente especial.

Computer-Using Agent (CUA). Operator usa un modelo llamado Computer-Using Agent (CUA) que está basado en GPT-4o. CUA interpreta capturas de pantalla e interactúa con sitios web a través de los controles típicos del navegador, como un cursor o un ratón.

Cómo funciona CUA. Como explican en la documentación de OpenAI, este sistema procesa esos "píxeles en crudo" de las capturas que va realizando y usa un ratón y un teclado virtual para completar sus acciones. Una vez tiene la captura de pantalla, "razona" y sigue una línea de "pensamiento" en la que tiene en cuenta las acciones pasadas para adaptarse.

Un rendimiento prometedor. Hay varios benchmarks ya que permiten evaluar la capacidad de estos modelos agénticos. Según las pruebas realizadas internamente en OpenAI, CUA logra un 38,1% de rendimiento en OSWorld (uso de un ordenador en general) frente a plataformas como la de Anthropic, que logra un 22%. Los humanos, eso sí, logran un 72,4% de media, lo que deja claro que estos sistemas aún tienen mucho margen de mejora. En el uso del navegador, los benchmarks WebArena y WebVoyager también permiten que Operator puntúe muy alto: un 58,1% y un 87% respectivamente, frente al 36,2% y el 56% de sus competidores.

Qué pasa con esas capturas que recolecta Operator. Operator realiza continuamente capturas de pantalla para "ver" la interfaz del navegador con la que interactúa. Ese navegador no se ejecuta en nuestro PC, sino en un navegador remoto en los servidores de OpenAI. Los datos del usuario, incluidas esas capturas, se usan de acuerdo a la política de privacidad de OpenAI. Esto es: pueden usarse para detectar actividades fraudulentas y para mejorar el servicio. Eso implica que nuestros datos se pueden usar para entrenar y mejorar el modelo, aunque podemos desactivar esa opción en los ajustes de Operator. El usuario, eso sí, tiene la capacidad de cuánto tiempo se almacenan esos datos en Operator. Por defecto esos datos se guardan hasta que el usuario decida borrarlos.

Un agente que pide ayuda (y confirmación) cuando las necesita. Como hemos visto en otros agentes como 'Computer Use' de Anthropic, Operator es un agente que no actúa a lo loco. Si se encuentra con un obstáculo –como un código CAPTCHA o la petición de introducir usuario y contraseña en un sitio web– pedirá que el usuario tome el control, y también pedirá confirmación final del usuario si por ejemplo tenemos que validar una reserva o la compra de un producto que nos ha buscado Operator. El usuario de Operator puede además tomar el control en cada momento.

Así funciona CUA. Fuente: OpenAI

No sueltes las manos del volante. Esto nos recuerda los sistemas de conducción asistida como el FSD de Tesla. Es cierto que es capaz de llevarnos de un sitio a otro una vez introducimos la dirección de destino, pero es importante seguir prestando atención y tener las manos en el volante por si ocurren imprevistos. Con Operator y el resto de agentes de este tipo ocurre algo parecido.

Hay cosas que no puede hacer. De momento Operator no puede completar tareas especializadas como la de gestionar sistemas de calendario complejos o interactuar con sitios web muy personalizados o no estándares. También se negará a hacer algunas tareas con riesgo elevado de provocar perjuicios. Por ejemplo, enviar correos electrónicos, realizar transacciones electrónicas o borrar eventos del calendario. Sus prestaciones y capacidades irán aumentando, sin duda, pero lo harán gradualmente y siempre garantizando que la posibilidad de error es la menor posible.

Imagen | OpenAI

