Hemos probado NVIDIA Maxine: por fin puedes mirar a los ojos al hacer videoconferencias (sin hacerlo realmente)

Captura De Pantalla 2022 05 19 A Las 12 07 27
13 comentarios Facebook Twitter Flipboard E-mail

Hace años un amigo me dijo "no me fío de la gente que no me mira a los ojos cuando hablo". Con las videoconferencias este chico tendría un problema, porque nadie mira a los ojos, o, más bien, a la webcam: siempre parece que estamos mirando a otro lado porque, efectivamente, miramos a la pantalla.

Ahora la plataforma NVIDIA Maxine tiene solución para ello: propone mejoras en el ámbito de las videoconferencias, pero nosotros hemos podido probar una especialmente llamativa: la llamada 'eye contact' que permite que aunque estés mirando a otra parte, tus ojos parezcan estar siempre mirando directamente a la webcam, una opción que lleva algún tiempo disponible en FaceTime en iOS. Es como si mirases a tu interlocutor, y la característica funciona, desde luego.

Mírame cuando te hablo

Te conectas a una videoconferencia y siempre pasa lo mismo: quien habla contigo no te está mirando a los ojos, algo que hace que la conversación no sea tan directa. Tendríamos que mirar todo el rato a la webcam, pero normalmente está situada encima del monitor.

La comunicación es así algo más irreal e indirecta, pero NVIDIA Maxine plantea el uso de la inteligencia artificial para arreglarlo. La compañía lleva tiempo sorprendiéndonos con diversos experimentos que nos pintan fotos mientras hablamos o que generan caras imposibles de distinguir de las reales.

En Xataka pudimos disfrutar de una demo exclusiva de la tecnología: para ello usamos una pequeña aplicación interna ejecutada en un portátil con una webcam integrada —se puede utilizar una webcam externa sin problemas—.

La aplicación muestra una pantalla dividida que en el lado izquierdo registra en todo momento nuestra cara, cómo la movemos y, sobre todo, donde miramos. A partir de ahí la inteligencia artificial hace el trabajo de "crear" por realidad aumentada unos ojos que siempre miran a la cámara.

El efecto es sorprendente. No es perfecto, desde luego, y en ocasiones parece claro que los ojos no acaban de encajar en la imagen de forma precisa, pero en muchos momentos el resultado es convincente.

La tecnología de NVIDIA es capaz de emular pestañeos y de "recolocar" los ojos y la mirada cuando vamos mirando a otras zonas e incluso cuando giramos un poco la cara. Los ojos no acaban de ser del todo "reales" y el efecto de la generación por ordenador es apreciable, pero sí consiguen el efecto buscado.

En una de nuestras pruebas forzamos un poco la máquina y de hecho miramos fuera de la pantalla para ver cómo se comportaba el sistema, que la mayoría del tiempo se adaptaba sin problemas aunque en algún momento podía haber algún pequeño conflicto.

El funcionamiento general era no osbtante bueno, sobre todo porque en una videoconferencia lo que hacemos constantemente es mirar a la pantalla, no a la webcam.

Si hacíamos eso en nuestras pruebas, nuestros ojos no aparecían mirando un poco hacia arriba o hacia abajo (que es lo que ocurriría en un escenario sin esta tecnología), sino que aparecían mirando siempre al frente, como si miráramos directamente a los ojos de nuestro interlocutor.

Pudimos probar además una de las pequeñas aplicaciones que se usan de forma conjunta con este desarrollo y que permitía crear la malla de nuestra cara, creando una máscara en la parte derecha que imitaba los gestos y movimientos de nuestra cara.

El seguimiento era también notable, y desde luego demostraba que este tipo de tecnología puede ayudar a hacer que las videoconferencias que cada vez están más presentes en nuestra vida sean más "inmersivas".

Maxine y el futuro de las videoconferencias

Esta demo técnica dejó claro que el funcionamiento de este tipo de tecnología —hablamos de ella en octubre de 2020— es realmente prometedora y plantea ventajas en el futuro de la videoconferencia.

Con esta plataforma se plantean varias mejoras para el futuro de la videoconferencia en forma de SDKs. No hay una aplicación específica de NVIDIA que ofrezca esas opciones, sino que la empresa plantea tres SDKs con efectos distintos para que los desarrolladores puedan aprovecharlos. Son los siguientes:

  • Efectos de audio: estos algoritmos de inteligencia artificial están diseñados para mejorar la calidad del audio y por ejemplo eliminan ruido o el eco de la habitación.
  • Efectos de vídeo: basándose en la entrada de la webcam, se usa aprendizaje profundo para mejorar la resolución del vídeo (Super resolution) o para crear fondos virtuales de calidad.
  • Efectos de realidad aumentada: aquí es donde entra en juego el seguimiento facial o de gestos y poses, y gracias a ello se pueden reconocer los movimientos que hacemos con la boca o los ojos. Entre las características ofrecidas está la creación de una precisa malla para nuestra cara y también la característica de contacto visual ("Eye contact") que hemos podido probar.

La pregunta, claro, es cuándo veremos este tipo de mejoras en nuestro día a día. Tras la demo técnica pudimos disfrutar de una sesión de preguntas y respuestas con Alex Qi, una de las responsables del grupo de Software de Inteligencia Artificial en NVIDIA.

Como nos explicaba Qi, los SDKs están ya preparados para poder ser utilizados por empresas y desarrolladores. Queda por ver por tanto si plataformas como Zoom, Teams o Skype la integran en sus servicios, lo que sería el primer elemento clave para poder disfrutar de esta opción.

El otro requisito —aparte de la webcam convencional, claro— es contar con una gráfica RTX de NVIDIA que permita procesar esos algoritmos de inteligencia artificial, pero en realidad incluso esa parte no sería estrictamente necesaria: el trabajo se puede delegar en centros de datos que serían los encargados de procesar la señal de vídeo para que pudiéramos usar la característica "Eye contact" y el resto en cualquier equipo por modesto que fuese.

Qi nos explicaba cómo en cualquier caso siguen trabajando en mejorar la característica de contacto visual, que desde luego plantea retos: el color de los ojos o el hecho de que el pelo pueda taparnos parte del rostro y los ojos suponen un desafío en algunos escenarios, como también son las condiciones de luz.

Aún así, el software es capaz de trabajar en todas esas condiciones y simplemente hay aquí un trabajo de perfeccionamiento de los algoritmos, que por ejemplo funcionan sin problemas si el usuario usa gafas aunque los reflejos en los cristales de esas gafas —si existen— pueden suponer otro reto para estos algoritmos.

Lo cierto es que el estado de esta tecnología nos hace desear que esté disponible lo antes posible, pero no hay fechas estimadas. Aquel amigo mío, por cierto, estaría contento.

Comentarios cerrados
Inicio