NVIDIA es una empresa que, además de desarrollar tarjetas gráficas, está apostando por la inteligencia artificial. Prueba de ello es GauGAN, una herramienta desarrollada por el fabricante capaz de crear paisajes falsos a partir de un solo boceto, o las Redes de Confrontación Generativa (GAN) que dieron vida a StyleGAN (la red capaz de crear fotos de gente que no existe).
Ahora la empresa ha presentado DIB-R, un marco de renderizado que usa machine learning para crear modelos en tres dimensiones a partir de una imagen en dos dimensiones, es decir, de una foto. DIB-R funciona de forma muy similar a como lo hacen nuestros ojos, que combinan las imágenes captadas por nuestras dos retinas para generar profundidad y tridimensionalidad. NVIDIA lo hace mediante interpolación diferencial.
De una foto a un modelo en tres dimensiones
De acuerdo a NVIDIA, "en los gráficos tradicionales por ordenador, un pipeline renderiza un modelo 3D a una pantalla 2D. Pero hay información que se puede obtener haciendo lo contrario - un modelo que podría inferir un objeto 3D a partir de una imagen 2D sería capaz de realizar un mejor seguimiento del objeto, por ejemplo". Es un poco abstracto, pero con un ejemplo se entiende mejor.
Imaginemos que tenemos un robot autónomo que debe interactuar con su entorno. Según la empresa, este "debe ser capaz de sentir y entender sus alrededores" para hacerlo de forma "segura y eficiente". "DIB-R podría potencialmente mejorar esas capacidades de percepción de profundidad". Podría ser útil para un robot que debe coger y mover objetos de diferentes tamaños rápidamente, por ejemplo.
DIB-R usa una arquitectura de codificador-decodificador, una red neuronal que transforma los inputs (una foto) en un mapa de características o un vector que permite predecir la forma, el color, la textura y hasta la iluminación de una imagen. La IA ha sido entrenada con varios conjuntos de datos, aunque el más llamativo es el de imágenes de pájaros. Tras ser entrenada y ver muchas fotos de aves, DIB-R puede usar una foto de cualquier pájaro y hacer una representación en 3D con la misma forma y textura.
Según la empresa, DIB-R se ha entrenado en solo dos días usando una GPU NVIDIA V100 y el resultado es que DIB-R puede, de acuerdo a NVIDIA, producir un objeto en tres dimensiones a partir de una imagen en "menos de 100 milisegundos". Explica NVIDIA que lo hace "alterando una esfera poligonal" para que "coincida con la forma del objeto real retratado en las imágenes 2D".
No solo funciona con pájaros, sino que también puede emplearse para crear modelos tridimensionales de animales extintos. Desde la empresa ponen el ejemplo de un Tyrannosaurus Rex o un pájaro Dodo, pero las posibilidades son virtualmente ilimitadas. Cabe destacar que DIB-R está basado en PyTorch y que se incluye como parte de Kaolin, la librería de aprendizaje profundo en tres dimensiones. El paper con la investigación al completo está disponible en GitHub, aunque los resultados se presentarán esta semana en la conferencia NeurIPS de Vancouver.
Vía | The Next Web
Ver 5 comentarios