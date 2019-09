Llevamos años escuchando cómo nos hablan las máquinas. Por teléfono nos daban a elegir entre pedir una nueva cita o cambiar la fecha del médico; en el coche nos indicaban que saliéramos por la tercera salida de la rotonda. Hoy siguen haciendo algo parecido, pero hemos cambiado la forma de interactuar con ellas. De indicar nuestras preferencias con un teclado hemos pasado a decírselas directamente al asistente del móvil o al altavoz inteligente. Un paso que ahora parece que sólo sirve para cambiar de canción desde el sofá o para poner alarmas, pero que encierra alguna cosa más. Por lo menos, alguna pista sobre cómo será nuestra relación con la tecnología en un futuro probablemente no muy lejano.

Qué duda cabe de que la gran plataforma actual para comunicarnos con la tecnología sigue siendo el móvil. No nos permite hacer todo lo que podemos hacer con un ordenador, pero exceptuando funciones especializadas normalmente relacionadas con el ámbito laboral (dibujo, programación, contabilidad, redacción de artículos…), con un teléfono móvil suele ser suficiente para todo lo demás: compras, geolocalización, búsqueda de información, dudas relacionadas con el clima… Si quieres hacer algo, es imposible que no haya una app para ello.

Pero no siempre fue el móvil la plataforma estándar para comunicarnos con la tecnología. No nos olvidemos de los chatbots. En 2016 prometían ser la nueva gran plataforma, y hasta las bigtech se sumaron a este entusiasmo por chatear con las máquinas: Microsoft lo apostó todo con Cortana y Facebook hizo lo propio con un Messenger donde al otro lado no estaban tus amigos, sino una IA. El resultado no fue el esperado y este fallo hizo que las tecnológicas cambiaran sus estrategias hacia las plataformas conversacionales: no lo escribas, cuéntaselo.

¿Por qué hablamos hoy tanto de estas plataformas?

Las interfaces conversacionales no son nuevas. Hay una razón puramente tecnológica que explica por qué hoy hablamos tanto de ellas: se ha alcanzado suficiente precisión como para que una persona pueda darle órdenes a una máquina y esta las reconozca con un enorme grado de acierto. “En los últimos cinco años ha aumentado muchísimo la capacidad de reconocer la voz y de convertirla en texto”, explica Lluís Padró, profesor de ciencia computacional en la Universidad Politécnica de Cataluña. “La culpa de esta mejora está en las redes neuronales”.

¿Qué son las redes neuronales artificiales? A nosotros debería bastarnos por ahora con saber que son modelos computacionales muy habituales en la IA, que pueden aprender a partir de los datos que se les suministra y que su rendimiento mejora con la práctica. Es decir, aprenden memorizando y poniendo en práctica lo memorizado, algo que recuerda mucho a cómo aprendemos idiomas los seres humanos. (La explicación en detalle de qué es una red neuronal está justo debajo)

Pero la explosión reciente de las redes neuronales (aupada por el acceso a ingentes cantidades de datos y por la mejora en el cálculo computacional) no es la única razón de que hablemos tanto de la voz últimamente. Amazon y Google tienen mucho que ver. Si estas compañías no estuvieran apostando por convertir estos gadgets con aspecto de humidificadores en el regalo de las navidades, probablemente no existirían artículos como este que estás leyendo. Pero esto tampoco nos tiene que llevar a infravalorar estos productos. Aunque según los principales estudios se usen sobre todo para escuchar música, preguntar por el tiempo que hace fuera y lanzar preguntas generales, estos aparatos son la puerta de entrada a las interfaces conversacionales para el gran público.

Un altavoz inteligente de Google, en silencio. Fuente: Google.

La vía de entrada al mercado de la voz

Los altavoces inteligentes llegaron a España en primavera de 2018, y no hay muchos datos sobre cuántos hay exactamente. Según el EGM publicado en abril de 2019, hay 488.000 hogares con estos dispositivos, lo que supone una penetración del 2,6%. El Estudio Anual de Audio Online 2019 de IAB va más alla: recoge que la penetración de estos aparatos es del 9,3%, por delante del coche conectado (6,9%) y por detrás de los smartwatches (12,2%). En Estados Unidos es del 21%, según The Smart Audio Report, de Edison Research y la NPR.

Comparaciones aparte, ¿qué significa las cifras españolas? ¿Es mucho o es poco? Según los expertos, los altavoces inteligentes acaban de llegar, así que sobre todo es pronto. “Lo primero es que los altavoces lleguen a las casas, que la gente los compre”, explica Córdoba Ruiz, presidenta de la comisión de audio de IAB, quien reconoce que le sorprende, para bien, la penetración de estos dispositivos. “Hay más altavoces inteligentes que coches conectados, que llevan más tiempo”.

En cuanto a ventas mundiales, las cifras de envíos globales que recoge Strategy Analytics no dejan lugar a dudas de que se están vendiendo altavoces. En la primera mitad de 2019 se vendieron 56,3 millones de dispositivos, que es más del doble de lo que se vendió en el mismo periodo en 2018. Estados Unidos y China fueron los principales compradores.

Por marcas, la cuota de mercado de las nuevas ventas se reparte entre Amazon (21,7%), Google (18,3%), Alibaba (14,9%), Baidu (14,9%), Xiaomi (12,1%), Apple (4,4%) y otros (13,7%).

En resumen: Amazon triunfa en Estados Unidos, Google empieza recortar distancias en Europa y el sudeste asiático es para las marcas chinas.

Alexa nos entiende mejor, pero Google nos conoce más

“En Occidente, hay una batalla interesante entre Google y Amazon porque cada una ofrece una cosa”, explica Aída Méndez, jefa de innovación de Webedia (compañía a la que pertenece Xataka). "Google tiene todo su universo de aplicaciones y servicios, y también todo lo que sabe de nosotros; puede ofrecernos información personalizada y contextualizada. Amazon tiene una oferta más limitada, lo que le permite controlar la calidad de la experiencia”. Alexa nos entiende mejor, pero Google nos conoce más.

En una división inferior están Samsung, que está orientada a la comunicación con sus dispositivos de domótica, y Apple, “que no es que no esté en el tema de la voz, pero creo que todavía no ha dado el golpe definitivo en la mesa y eso que fue la primera al meter a Siri en sus teléfonos. Apple son los únicos que no han abierto el ecosistema a desarrolladores externos”, subraya Méndez.

Para Méndez, una pista para saber quién dominará el mercado de las interfaces conversacionales en los próximos años, si es que hay un solo dominador, puede ser el mimo con el que los fabricantes traten a sus desarrolladores. Algo parecido a lo que ocurrió hace unos años con los sistemas operativos para móviles. “En la guerra entre BlackBerry, Android y iPhone fueron decisivas las apps, porque muchas de las más chulas estaban hechas por desarrolladores externos y las marcas querían que estas corrieran en sus sistemas”, explica.

En la competición por la voz, Amazon lleva una ventaja importante. Ofrece a los desarrolladores programas de formación, premios para las skills más populares y ayudas económicas, además de fórmulas para monetizar los contenidos a través de Alexa. Como resultado de todo ello, en enero Amazon contaba con unas 57.000 skills para Estados Unidos frente a las 4.200 actions de Google. Hoy se calcula que Amazon ha superado ya las 80.000 en todo el mundo.

Por cada action de Google hay aproximadamente 13 skills de Amazon

Sin embargo, la jefa de innovación de Webedia destaca que, a diferencia de lo que sucedió con los móviles, donde importaba qué sistemas operativos tenían tus amigos para poder usar las mismas apps (la extinta BlackBerry Messenger fue la clave de su dominio en el sector corporativo, por ejemplo), con los altavoces inteligentes no existe esta dimensión social que pueda influir en la compra. “Al final, tu asistente de voz es como tu mayordomo, y poco importa el altavoz que tengan tus amigos. Por eso es posible que el mercado continúe fragmentado y que puedan convivir todos los competidores sin que ninguno se imponga sobre los otros”, subraya Méndez.

Medios, fabricantes de dispositivos domóticos y coches

Quienes poco a poco están adentrándose en el terreno de la voz a través de estos dispositivos son las marcas. Destacan los medios de comunicación, que ofrecen boletines nativos además de los podcasts de sus programas. “Entran por posicionamiento, por innovación o por probar qué se puede hacer ahí”, explica Méndez, “pero tienen el problema de la monetización”.

La compatibilidad con altavoces inteligentes de los dispositivos domóticos es un valor añadido que ya ofrecen los fabricantes

Dos sectores que están apostando por la voz especialmente son la domótica y el automóvil. El primero no resulta nada sorprendente, pues los fabricantes de bombillas, termostatos o puertas de garaje, entre otros útiles, pueden vender su compatibilidad con los altavoces como un valor añadido. En cuanto al sector del automóvil, las compañías están llevando muchas de las funciones que ya se podían hacer antes con el móvil (como encender el aire acondicionado o calcular la ruta) al altavoz inteligente.

Algunos fabricantes de equipos de sonido también han visto la oportunidad. Si los altavoces inteligentes se usan sobre todo para escuchar música, ¿por qué no aliarse con los fabricantes de estos dispositivos y ofrecer los asistentes en los propios equipos de sonido?

Los riesgos siguen siendo los mismos: seguridad y privacidad

No es lo mismo mandarle a tu coche que encienda el aire acondicionado que hacer una transferencia. La razón por la que los bancos no están apostando por los altavoces inteligentes para enviar dinero es la misma por la que miramos cuatro veces si los asientos de cine que estamos comprando son de verdad los que queremos. “Es como si fuera un miedo irracional”, dice Aida Méndez. “Creo que los fabricantes al final lo conseguirán pero tendrán que esforzarse en convencer a los usuarios de que estos dispositivos son seguros, sobre todo a los usuarios menos tecnológicos, no a los que les gusta probar y tener cacharros.”

Si la seguridad es un problema, la incertidumbre sobre la privacidad es directamente un inconveniente para acercarse a las interfaces conversacionales. Amazon, Google y Apple graban nuestras conversaciones, nadie puede dudar de ello. La excusa habitual es que es para la mejora del servicio, pero sea cierto o no (y que existan dudas es ya un motivo de incertidumbre), lo preocupante es que sólo nos enteramos de que nos graban cuando se pilla a estas compañías haciéndolo. Cuando pasa esto, las compañías reculan, cambian sus condiciones de uso (la inmensa mayoría de los usuarios las acepta) y hasta la próxima pillada. Una parte importante del negocio de compañías como Google o Amazon depende de nuestros datos, así que es complicado pensar que vayan a renunciar a ellos.

El futuro podría parecerse mucho a lo que vimos en Her. Fuente: Warner Bros.

De momento, sus altavoces inteligentes ya están en los salones, cocinas y dormitorios de sus usuarios. ¿Seguiremos hablando de estos aparatos dentro de cinco años? “Probablemente no, porque estaremos mucho más allá de los altavoces inteligentes”, explica el profesor de inteligencia artificial y procesamiento de lenguaje natural de la Politécnica de Cataluña Lluís Padró. “Las interfaces conversacionales estarán incorporadas en casa, en el coche y en la oficina, y podremos hablar directamente con las máquinas. Será una comunicación multimodal, no sólo compuesta de voz sino de ratón y teclado, e incluso de gestos (aunque nos queda mucho por recorrer aquí). La comunicación con las máquinas será menos física, más ubicua… O no. Todo esto es muy difícil de predecir porque depende de lo que decidan las compañías, que son las únicas que pueden investigar todas estas tecnologías. Si deciden que les sale a cuenta, lo veremos y la voz será sólo una de tantas formas para comunicarnos con la tecnología."