La IA ya sabía crear imágenes. OpenAI dice haber dado con la pieza que faltaba con el nuevo ChatGPT Images 2.0

  • OpenAI dice haber mejorado justo donde más fallan estos modelos, precisión, texto y coherencia visual

  • Su nuevo sistema de imágenes quiere ir más allá del impacto estético y convertirse en una herramienta útil dentro de ChatGPT

Javier Marquez

Editor - Tech

Durante los últimos años hemos visto cómo los generadores de imágenes se volvían cada vez más espectaculares, más rápidos y también más populares. El problema es que una imagen llamativa no siempre sirve para trabajar con ella. Una cosa es pedir un gato astronauta y otra muy distinta obtener un cartel usable para marketing, una viñeta coherente o una gráfica que respete lo que le hemos pedido. Ahí es donde OpenAI quiere mover ahora la conversación con su nuevo modelo: no tanto hacia la imagen bonita, sino hacia la imagen útil.

La respuesta. Lo que plantea OpenAI va en esa dirección. La empresa liderada por Sam Altman sostiene que su nuevo modelo no nace solo para generar imágenes atractivas, sino para resolver encargos visuales con más intención y menos ensayo y error. En la presentación ha llegado a afirmar que “las imágenes son un lenguaje, no decoración”, una forma bastante clara de resumir hacia dónde quiere llevar el producto en un presente con bastante competencia. La tesis es esa: que pedir una imagen en ChatGPT se parezca menos a lanzar un prompt creativo y más a encargar una pieza que podamos utilizar de verdad.

La pieza que faltaba. Si la firma quiere que hablemos de algo más que de imágenes vistosas, tenía que mejorar justo los puntos donde estos modelos suelen fallar. Aquí prometen cambios importantes en tres frentes muy concretos: seguir instrucciones complejas con más precisión, organizar mejor los elementos dentro de la imagen y reproducir texto denso con mayor fiabilidad. Dicho de otro modo, no se busca solo resultados más bonitos, sino menos ambiguos y más controlables.

Pensar antes de dibujar. Una de las novedades que OpenAI intenta destacar con más fuerza es que este es su primer modelo de imagen con capacidades de razonamiento. Traducido al terreno práctico, la compañía sostiene que, cuando se elige un modelo con “thinking” dentro de ChatGPT, el sistema puede tomarse más tiempo, estructurar mejor la tarea, apoyarse en la web para buscar información actualizada y revisar sus propios resultados antes de entregar la imagen. Y lo hemos probado, pidiéndole la imagen de dos personas caminando por la Gran Vía, en Madrid, a la altura de Cines Callao, y unos apuntes sobre actividades para realizar en España durante mayo. Se trata de las imágenes que podemos ver en la imagen de portada.

Además, hicimos estas otras pruebas: 

Genera una comparativa visual entre tres ciudades españolas para teletrabajar: Valencia, Málaga y Bilbao. Divide la imagen en tres columnas, con iconos, clima, coste de vida orientativo, ambiente, conexión internacional y calidad de vida. 
Creamos esta imagen íntegramente con ChatGPT Imágenes 2.0. Datos no comprobados, solo a modo de muestra
Crea un storyboard de seis viñetas sobre una mañana de lluvia en Gràcia, Barcelona. Debe mostrar continuidad del mismo protagonista, un vecino del barrio que sale de casa, entra en una cafetería, mira el ambiente por la ventana, recibe una llamada importante y sale con prisa.
Creamos esta imagen íntegramente con ChatGPT Imágenes 2.0. Datos no comprobados, solo a modo de muestra

Las claves. OpenAI habla de prototipado de juegos, storyboards, creatividades de marketing, cómics, gráficos sociales y otros materiales donde importan tanto el contenido como la forma. Para sostener esa ambición, la compañía dice haber mejorado en dos frentes delicados: el manejo de texto no latino, con avances especialmente en japonés, coreano, chino, hindi y bengalí, y la reproducción más fiel de estilos visuales muy marcados. También amplía los formatos posibles, con proporciones de hasta 3:1 y 1:3, resolución de hasta 2K y, en ciertos modos, la posibilidad de generar hasta diez imágenes dentro de una misma petición con continuidad entre personajes y objetos.

El contexto competitivo. Este anuncio tampoco puede leerse como si OpenAI hubiese descubierto de repente un mercado nuevo. Midjourney ya se ha convertido en una referencia clara para trabajos con una fuerte carga artística, Nano Banana ha llamado la atención por su capacidad de edición conversacional y FLUX 2 se ha hecho fuerte en el fotorrealismo. Con ese tablero delante, la compañía parece buscar otro ángulo. Más que disputar cada terreno por separado, intenta presentar ChatGPT como un entorno donde la imagen no se genera de forma aislada, sino como parte de un flujo más amplio, algo que sobre el papel puede resultar atractivo si realmente cumple lo que promete.

Ya empieza a desplegarse. Una de las claves del anuncio es que OpenAI asegura que el modelo no se queda en fase de escaparate, sino que empieza a llegar ya a producto. Ya es posible utilizarlo tanto en cuentas gratuitas como en cuentas de pago Go, Plus y Pro. Además, la compañía ha decidido llevarlo a la API y a Codex, señal de que no quiere limitarlo al uso casual dentro del chat. 

Imágenes | Xataka con ChatGPT Images 2.0 | OpenAI

En Xataka | Amazon quiere salir ganador de la carrera IA a cualquier precio. Por eso ha invertido a la vez en Anthropic y OpenAI

Ver todos los comentarios en https://www.xataka.com

VER 1 Comentario