NeRF: esta red neuronal recrea monumentos en gráficos 3D a partir de imágenes publicadas en internet por turistas y usuarios

"Si pudiera cambiar el ángulo de esta foto un poco más...". Es una idea muy generalizada. Tener una imagen y desear a posteriori haberla realizado desde otra posición o con otro ángulo. Una solución nos la ofrece un equipo de investigación de Google Brain, en Berlín. Se trata de NeRF ('Neural Radiance Fields'), una tecnología que crea composiciones en 3D a partir de imágenes fijas encontradas en la red.

El último uso de esta tecnología ha sido publicado en ArXiv y se nos presenta como un método basado en 'machine learning' para recrear de forma compleja una escena al aire libre basándose en fotos aleatorias. Es decir, a partir de fotos normales poder recrear en tres dimensiones ese mismo edificio o monumento.

'NeRF in the Wild': las redes neuronales mejoran sus resultados a gran velocidad

El primer ejemplo lo vemos con la famosa Puerta de Brandenburgo en Berlín o la Fontana di Trevi en Roma. El equipo selecciona imágenes de internet de los monumentos desde diferentes ángulos y distancias y logra crear una imagen completa en 3D para verse desde diferentes ángulos.

Según muestra el equipo de Google en su 'NeRF in the Wild', pueden crear pequeños vídeos en 3D de famosos monumentos partiendo de fotos aleatorias buscadas en internet sobre ellos, tengan filtros, turistas por en medio o una iluminación complicada.

Our paper, “NeRF in the Wild”, is out! NeRF-W is a method for reconstructing 3D scenes from internet photography. We apply it to the kinds of photos you might take on vacation: tourists, poor lighting, filters, and all. https://t.co/lawLB4eEup (1/n) pic.twitter.com/UuvUm4eVzm
— Daniel Duckworth (@duck) August 6, 2020

Habitualmente las imágenes para estas creaciones se obtienen de repositorios como Flickr. Sin embargo, el hecho de que son tomadas con ángulos muy diferentes, en horarios distintos y con luces distintas hace que sea difícil combinarlas en una misma base de datos para su uso.

El caso es que estas fotos de internet también están a distancias diferentes, hay personas por en medio y muchas veces ni siquiera están centradas en el monumento. Cuando se recogen imágenes aleatorias, es normal que el resultado varíe enormemente.

Con el sistema desarrollado por el equipo de Google Brain el objetivo inicial es identificar cuál es el centro de la imagen, cuál será la imagen estática que deberá repetirse en el resto de imágenes.

El segundo paso es identificar qué elementos cambian y eclipsan el monumento principal y qué partes son diferentes debido a la luz. Una vez identificadas estas dos partes, el algoritmo intenta reconstruir la imagen. Pero la idea que subyace es que estas partes "temporales" ayudan a recrear la escena, ya que permite al algoritmo entender cómo cambia el "núcleo" desde cada punto de vista.

NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections
pdf: https://t.co/KHINkovxPi
abs: https://t.co/XWSUJZeqMA
project page: https://t.co/7S682vbr18 pic.twitter.com/c3uH73XBJQ
— AK (@ak92501) August 6, 2020

En una versión inicial de NeRF, el uso de las sombras estaba menos logrado. Con esta nueva versión, la imagen en 3D resultante es mucho más acertada. Pero no queda ahí, ya que la recreación permite incluso modificar la hora o el tiempo para ver el monumento durante la noche o a plena luz del día.

Según describen los investigadores, con un centenar de imágenes es suficiente para generar un modelo 3D con bastante detalle.

Los creadores son conscientes que la recreación de monumentos en el exterior todavía tiene margen de mejora, principalmente en las áreas y ángulos que no suelen ser fotografiados. Aún así creen que con NeRF se ha dado un importante salto en el modelado 3D de monumentos a partir de imágenes de los usuarios.