Poner a la foto de tu husky el hocico de un bulldog y el gesto de tu gato ya es posible (y fácil) gracias a la IA

Avances recientes en el campo de los modelos generativos han hecho posible que las IAs puedan reconocer información semántica latente en imágenes (como gestos o posturas), y aplicarla a labores de edición de imágenes como la transfiguración de objetos (cambiar cierto elemento de una imagen por otro de otra imagen).

Pero la mayoría de los algoritmos usados para ello son poco eficientes a la hora de delimitar la parte de la imagen en la que se aplican los cambios (CycleGAN, por ejemplo, puede cambiar el color de fondo de una imagen cuando se les indica que convierta un animal en otro).

Veamos el siguiente ejemplo, atentos a la hierba del campo donde pastan los caballos / cebras:

Esto ocurre porque CycleGAN (y otros algoritmos similares) están diseñados de tal modo que es la red neuronal la que determina por su cuenta el área de imagen afectada. Sin embargo hoy en día, en plena era del Adobe Photoshop y herramientas similares, los usuarios buscan un modo de controlar más directamente el resultado de dicha transformación.

Eso, y poder tener la opción de realizar tareas que a día de hoy son fáciles de describir con palabras pero difíciles de formular en ecuaciones. Por ejemplo: "Cambiar el hocico de este pastor alemán por el de este bulldog".

Por ello, un grupo de investigadores de la Univ. de Tokyo ha publicado en GitHub el código de un software de edición de imágenes mediante redes neuronales convolucionales llamado Neural-Collage.

Como los propios investigadores cuentan, con este método "el usuario puede transformar una parte de la imagen elegida por él, de un modo similar al copia y pega, al mismo tiempo que preserva la consistencia semántica". Neural-Collage ofrece, además, dos herramientas diferenciadas:

1. Traslación de objetos

Permite al usuario insertar de manera intuitiva y con resultados realistas una determinada parte del cuerpo del sujeto A en el sujeto B (como en el ejemplo de antes del bulldog y el pastor alemán), o bien cambiar un sujeto completo por otro.

El usuario también puede especificar el nivel de transformación en una escala del 0 al 100.

2. Transformación semántica

"Con nuestro trasplante semántico, el usuario puede trasplantar una característica semántica del objeto seleccionado en la imagen de referencia a un objeto en la imagen de destino que se va a transformar".

De tal modo, podemos aplicar el gesto o la postura de un animal al otro, sin cambiar su aspecto.

Pero, ¿cómo de complicado puede ser usar esta clase de herramientas? ¿Estará al alcance de un usuario medio? Sin duda, eso es lo que parece:

via GIPHY

Ver todos los comentarios en https://www.xataka.com

VER 7 Comentarios

Portada de Xataka