Publicidad

El backstage de una app para Google Home: cómo adaptar 800 recetas de cocina al asistente de voz

El backstage de una app para Google Home: cómo adaptar 800 recetas de cocina al asistente de voz
1 comentario

Publicidad

Publicidad

En octubre de 2018 Directo al Paladar, de la mano con Nestlé, diseñaron una skill para Alexa. Unos meses después lanzaban juntos una action para el Asistente de Google, esta última funciona sin necesidad de descarga o un altavoz específico: cualquier usuario de Android con el Asistente de Google en el móvil puede invocar “Ok Google, hablar con Directo Al Paladar” y empezar a escuchar recetas. Pero, ¿cómo funciona esta tecnología? ¿Cómo son sus tripas? ¿Cómo se ha diseñado?

Hablamos entre bambalinas con responsables del proyecto para aprender sobre nuevo modo de comunicarnos vía voice-app. Ramón Ruiz, responsable de comunicación digital de Nestlé España, Aida Méndez, responsable de Innovación en Webedia; Helen Creeger, diseñadora experta en UX y conversaciones; e Itziar López-Cerón, responsable de producto; y. Cada una nos aporta algo de luz sobre su campo.

¿Cuántos sentidos tengo ocupados? ¿Cuántos libres?

El esquema de abajo, obtenido de una presentación que Helen Creeger dio en UXperience 8.0 sobre buenas prácticas de VUX (Voice User eXperience), nos ayuda a comprender que “no hay un único mejor input o output”. Es decir, la voz no siempre es mejor que el texto, o viceversa. En algunos casos, como puede ser cocinando o conduciendo, tenemos el canal auditivo libre; pero en otros, como en la biblioteca o en la discoteca, este está inhabilitado.

Place Ona

Este concepto lo desarrolló hace tiempo Bill Buxton, de Microsoft Research, y se usa hoy día a la hora de diseñar diferentes aplicaciones para distintos entornos. Cocinando, por ejemplo, tenemos las manos ocupadas pero la vista, el oído y la voz libres. Muchos libros de cocina físicos usaron una única cara para sus recetas usando el concepto de vista libre pero manos ocupadas.

“Este lanzamiento supone para nosotros [Nestlé] un paso más en nuestra apuesta por ser punteros en el desarrollo tecnológico por y para el consumidor”. Ahora la tecnología permite ofrecer servicios “en cualquier lugar y como las personas lo necesitan”. En este caso, de forma auditiva.

Cuando Directo al Paladar y Nestlé Cocina se propusieron ayudar al usuario en la cocina, tuvieron que tener presente que no es fácil manejar el móvil y hacer scroll sobre su pantalla con las manos llenas de harina, por ejemplo. Es decir, que se hacía necesario un elemento sonoro para recibir la información y un manejo por voz.

¿Por dónde se empieza a diseñar una app-voice?

Itziar abre el silencio y confirma que “el número de búsquedas por voz está aumentando, y es un campo en el que pocas marcas y medios han trabajado hasta el momento”. Es un mercado poco explorado en el que “todos estamos aprendiendo”, como puntualiza Helen, “tanto los usuarios como los desarrolladores”. Además, “era un reto que nos ilusionaba mucho”, complementa Ramón.

Uno podría cometer el error de ponerse a escribir posibles diálogos y flujos conversacionales nada más aprobarse el proyecto. Sin embargo, es importante definir antes otros parámetros. Entre ellos, cuál será el objetivo de la app-voice, qué funciones principales y secundarias tendrá, si será únicamente aural o tendrá apoyo visual, etc.

Flujos Conversacionales Google Voice Action

Aida remarca la importancia de “ayudar a conceptualizar la aplicación”. En el proyecto han participado muchas personas, pero el trabajo de picar código, teclear palabras y correr pruebas viene mucho después de tener muy claro qué límites tendrá la aplicación. En el caso de la app-voice de Directo al Paladar, el objetivo era trasladar las instrucciones de una guía de cocina a un formato voz para ayudar al usuario en la cocina.

La importancia de tener claros los límites tecnológicos

Todos los responsables con los que hablamos señalan un punto importante común: la app-voice ha de estar acotada en varios frentes. Hay que matizar muy bien qué puede hacer y qué no puede hacer. Cuáles son sus límites. Por ejemplo, en este proyecto algunos de ellos han aparecido en el proceso de elegir las recetas. Helen Creeger nos explica el complejo proceso a la hora de desmenuzar cada una de las instrucciones:

“En DAP fuimos ‘rompiendo’ cada receta. Si teníamos una receta original en Directo al Paladar con cinco pasos, y el primero era cortar cinco verduras, en la versión para voz lo dividimos en cinco pasos, uno con cada ingrediente”

¿Por qué? Porque el formato voz no es igual que el visual. Al mirar un libro de cocina podemos ver todos los ingredientes de golpe. Escuchándolos, tenemos que esperar a que aparezca cada uno, y podemos olvidar el primero una vez que el último ha sido mencionado. Por este mismo olvido “es importante mencionar la cantidad de cada ingrediente en cada paso del proceso”.

Cocinar Con Asistente Google Home Action

De modo que este proceso de selección con cariño de las recetas excluía algunas excesivamente complejas. Si una receta publicada en Nestlé Cocina o Directo al Paladar resultaba larga en formato texto, en audio podría necesitar demasiadas instrucciones y tiempo. Por eso, las 800 recetas fueron desgranadas una a una y luego, como explicamos abajo, “traducidas” para formato aural.

Otra limitación que el equipo de desarrollo menciona es el dejar para el futuro alguna funcionalidad deseada para centrarse en la que se tiene entre manos. Priorizar. Aida Méndez nos dice que “esperamos poder incluir en el futuro un temporizador con los tiempos necesarios de cocinado, o poder preguntar por la información nutricional de un determinado plato”.

¿Más redactores de contenido que diseñadores de software?

Tanto la skill para Alexa como la action para el Asistente de Google son elementos de software. El primero se descarga en dispositivos Echo, y el segundo funciona en los Google Home y en asistentes virtuales como el Asistente de Google. Sin embargo, el volumen de horas en diseño o de programación no es más amplio que el dedicado a la redacción de contenido. Algo que parece chocante.

En el proyecto trabajaron quince personas encargadas de “traducir” las recetas y guionizar con éxito cada posible ruta al estilo Bandersnatch. Elegir con cuidado las palabras y revisar una y otra vez las líneas de texto ha sido clave para el éxito del proyecto.

Esto no hubiese sido posible sin “desarrolladores, diseñadores VUI, redactores expertos en recetas y gastronomía, project managers o responsables de comunicación”, como nos dice Aida, entre otros roles y profesiones. Aunque tendemos a enlazar software con programación, un gran abanico de profesionales se han hecho cargo del proyecto.

De la misma opinión es Ramón quien, además, se remonta atrás en el tiempo porque incluye “toda la experiencia acumulada de una web que, desde hace más de diez años, ha apostado por acercar a los consumidores el mundo offline de las recetas”.

Oiga, que yo quiero hablar con una persona

asistente de voz hablar con persona

Una de las mayores dificultades a la hora de diseñar flujos de interacción con el usuario es que la conversación se desarrolle de la forma más natural posible. Quizá por eso las “aplicaciones” se llaman skills o actions en lugar de apps, que da más sensación de objeto. Al otro lado hay una voz sintetizada, más o menos humana, con la que empatizar.

Por eso es clave, nos cuenta Itziar López-Cerón, “estudiar los distintos casos de uso de los usuarios” e “intentar que el usuario se vaya con la sensación de que habla con una persona, no con un asistente de voz”. Leer en voz alta una y otra vez las conversaciones escritas es importante para “entender si el lenguaje que usas es el correcto”.

También analizar si la estructura de la conversación tiene sentido. Algo que puede ser coherente en forma de texto quizá suene extraño al ser leído. Además, a la hora de trabajar la experiencia de usuario es importante iterar, un concepto ingenieril que implica realizar pequeñas variaciones para dar con el resultado óptimo.

Para ello resulta imprescindible entender con datos cómo ha sido la experiencia de los usuarios hasta ahora. Aida Méndez nos confirma que han “notado un incremento notable de usuarios” y, como dice Helen, “muchas veces piden al asistente algo en lo que no habíamos pensado, como que repita más despacio”. En futuras iteraciones tanto de la action como de la skill será necesario escuchar a estos usuarios a la hora de diseñar la nueva hoja de ruta.

Llegar incluso a quien antes era incapaz

Aida continúa explicándonos qué significa para Directo al Paladar y Webedia este lanzamiento. Es “un paso más en nuestra filosofía de publicación distribuida”. La comunidad DAP se ha centrado en la web durante los últimos años, pero donde opera en todo su esplendor es en la cocina. Qué menos que acompañarles en este lugar casi de culto y, de paso, “estar en la vanguardia de las novedades tecnológicas que van apareciendo y que pueden ser de valor para nuestros lectores”.

Cocinar Asistente De Voz

Pero aprovechemos este espacio para hablar de gente que a menudo no forma parte del target de las marcas. Helen Creeger hace un ejercicio de reflexión y nos trae a primer plano que este tipo de actions “también pueden ayudar a un público extremo, como las personas con ceguera”.

Las comunicaciones de voz vía voice-app llenan un hueco que Directo al Paladar antes no tenía. Ayudan a sus lectores a cocinar de una forma más próxima al modo en que nos comunicamos las personas. Pero también llegan a quien no era lector habitual del blog. De hecho, a cualquier usuario que cuente con un móvil Android en el que correr el Asistente de Google, así como usuarios de Echo y Google Home.

Entre ellos están las personas con visibilidad reducida o ceguera, a quienes este universo de dispositivos están ayudando a integrarse. Helen continúa diciendo que “con la action de DAP alguien ciego puede acceder a recetas, mientras que antes tendría que haber pedido a un amigo que se las leyese”.

Ramón Ruiz de Nestlé asiente y lo tiene claro. Este proyecto está “alineado con el compromiso de Nestlé de mejorar la calidad de vida y a contribuir a un futuro más saludable” para todos. Ese es el verdadero potencial de una tecnología en expansión: llegar incluso a quien antes era incapaz de acceder al contenido original. Ir un poco más allá.

Imágenes | iStock/CoinUp, iStock/lucadp, iStock/KatarzynaBialasiewicz, iStock/bensib, iStock/KucherAV

Publicidad

Comentarios cerrados

Publicidad

Publicidad

Inicio
Compartir