Las bocinas inteligentes fueron uno de los grandes desarrollos tecnológicos de la década anterior. Una de las marcas pioneras fue Amazon, que en 2013 lanzó Alexa, una de las primeras bocinas inteligentes del mercado, en medio de un entorno de mucho entusiasmo por el desarrollo de esta tecnología. Inspirada en la computadora con voz de la nave espacial Enterprise de la icónica serie de televisión Viaje a las Estrellas, Alexa cautivó al público de inmediato, al punto que en menos de seis años Amazon celebró más de 100 millones de ventas del gadget.
En este espíritu de innovación y emprendimiento, TagWizz, la empresa mexicana de servicios para videojuegos número uno en México, desarrolló una de las aplicaciones más ambiciosas para la bocina inteligente de Amazon: Alexa Music Mash, un videojuego que reta a los usuarios de Alexa a identificar la versión correcta de una canción o pieza de música. En este artículo queremos contar la historia de cómo este juego tan ambicioso desde un punto de vista técnico pudo ser desarrollado por un equipo mexicano.
El director de TagWizz y líder del proyecto, Adrián Gimate-Welsh, nos habló a detalle sobre el desarrollo de Alexa Music Mash.
¿Cómo se te ocurrió hacer un videojuego para la plataforma de Alexa?
La idea empezó a partir del tradicional Juego de las Diferencias, donde comparas dos imágenes y descubres las diferencias que hay entre ambas. Es un juego muy popular entre niños de edad en la que empiezan a desarrollar sus habilidades cognitivas visuales, y me pregunté cómo sería este juego con música en lugar de con imágenes. Fue cuando vi el potencial que tenía dentro de la tecnología de las bocinas inteligentes. Por ejemplo, al reproducir una canción en su versión correcta, y luego la volvemos a reproducir pero la batería está tocando a un ritmo diferente, o la guitarra que está sonando en un acorde distinto. ¿Podrían los jugadores reconocer la versión correcta de la modificada? De esta idea nació el proyecto.
A mi me gusta desarrollar este tipo de juegos innovadores basado en mi experiencia en la industria. Por ejemplo, cuando salió el iPod touch, pocos creían en el éxito de Apple. Yo entonces trabajaba en Gameloft, y le dimos la oportunidad a ese dispositivo, mientras que muchas otras empresas no mostraron interés. El futuro dictó que las empresas que no le habían apostado a esa tecnología tuvieron dificultades para alcanzar a los pioneros de la tecnología. Cuando salieron las bocinas inteligentes pensé de manera similar, en entrar en el mercado como pionero porque creo en esa tecnología. El objetivo no era forzosamente Alexa Music Mash, sino ser parte de los pioneros de esa tecnología, y estoy convencido de que eso nos va a servir en el futuro.
¿Qué fue lo que más te gustó de este proyecto?
Este juego es increíble porque el ser humano puede detectar, de manera intuitiva, cuando algo suena mal, y diferenciarlo de cómo debería sonar, incluso cuando desconoce la canción. Esa es una capacidad nata de los seres humanos, aunque quizás pueda ser cultural. En todo caso, cuando es muy evidente que algo suena mal, cualquier persona lo puede reconocer, independientemente de su contexto.
Lo que Alexa hace es tocar mal una canción, y lo hace a grados, de tal forma que a veces es muy evidente, y otras veces la diferencia es mínima, lo que establece los diferentes niveles de dificultad. De las muchas pruebas que hicimos con canciones son variaciones muy pequeñas de destiempo, reportamos algo que no debería sorprendernos: los músicos de carrera fueron capaces de percibir con mucha mayor sutileza los errores en la construcción de las canciones. Por ponerte un ejemplo fuera del juego: la canción “Despacito” tiene un destiempo en su construcción musical que generó mucho debate en internet, pero solo los músicos se daban cuenta.
Pero no todo es el profesionalismo musical. Otro resultado que detectamos fue que existen diferencias en la capacidad física del oído de diferentes personas. Es igual que con la vista. Hay personas que escuchan bien y personas que no tienen un oído tan agudo. Nos dimos cuenta que mientras mejor oído tienes, más detectas las diferencias entre las versiones. Hay usuarios que tienen más precisión en los tonos agudos y otras en los graves. También está el factor de que la edad va deteriorando la capacidad auditiva.
Otro público con el que me pareció interesante probar el juego fue con personas invidentes. En muchos casos, estos usuarios tienen el oído más desarrollado. El primer resultado fue que les encantó el juego. Y no nos debería extrañar, ya que la vasta mayoría de la industria no desarrolla juegos para los invidentes, así que vieron en Alexa Music Mash una propuesta que finalmente los incluía. El único aspecto que les dificultó jugar con plena confianza es una señal visual que las bocinas inteligentes utilizan para organizar los turnos, un foco que cambia de color para indicar el turno del jugador para hablar. Si los invidentes son acompañados por una persona que ve, esta persona puede indicarles su turno, y el juego fluye mucho mejor que solo entre invidentes. En todo caso, el resultado es que les encantó Alexa Music Mash, un logro que para mí en lo personal fue muy satisfactorio.
Finalmente, me gustó la colaboración que tuvimos de parte de muchos músicos indie, que prestaron su música para este juego, y lo utilizan como método de promoción de su arte en una industria que muchas veces no les abre las puertas por preferir opciones mucho más comerciales de música. En esta línea, ofrecimos el juego de manera interactiva en el Musikmesse de Alemania en 2018, abril, un evento para músicos y entusiastas de la música, uno de los más importantes del mundo en venta de equipos musicales.
¿Cómo fue el proceso de desarrollo de Alexa Music Mash?
Al principio, pensé que iba a ser fácil hacer un juego como Alexa Music Mash. Fue por ello que asigné a un solo programador. Yo estimé que en alrededor de seis meses lo terminaríamos, porque ya teníamos todo el contenido musical, y creí que una vez teniendo el contenido, iba a resultar sencillo programarlo. Sin embargo, conforme pasaban los meses, fue comprendiendo que este proyecto resultaba mucho más retador de lo que había pensado. De algo que en teoría parecía fácil, nos tomó alrededor de un año, desde 2016 a 2017. La primera señal fue el programador, que al no lograr avanzar, se frustró tanto que desafortunadamente abandonó el equipo. El segundo programador que asigné tampoco avanzaba en el desarrollo. Entonces el reto no podía estar en el programador, sino en la naturaleza misma del proyecto.
Para entender mejor lo que ocurría, me integré activamente en la programación del juego. Lo primero que descubrimos como equipo es que la tecnología no respondía a las predicciones que hacíamos. Por ejemplo, cada vez que se hacían cambios de diseño en interfaz o experiencia de usuario, la programación se rompía y dejaba de funcionar. Esto nos obligaba a estar constantemente corrigiendo y reprogramando, muchas veces desde cero, lo cual representaba un reto serio para la continuidad del proyecto.
¿Cómo enfrentaron estos retos de programación?
Primero tuvimos que reconocer que programar un videojuego para bocina inteligente no era nada sencillo. Fuimos de los primeros en incursionar en un proyecto como este, por lo que no existían metodologías definidas para resolver todos estos asuntos. Extendí el equipo de programadores hasta ser cuatro en total, y uno de ellos se enfocó solamente en las bocinas inteligentes con pantalla táctil.
Hubo varias dificultades de programación. Por ejemplo, en una bocina inteligente todo ocurre en base a eventos; cuando el usuario dice la palabra “dos”, por ejemplo, Alexa manda el evento de que el usuario dijo “dos”. Alexa tiene que entender a qué corresponde ese “dos”, y si es la respuesta a la canción que el jugador está escuchando. Pero si el jugador dice la palabra “sí”, esta puede ser la respuesta a una multitud de preguntas, y si el juego no está bien estructurado, el programa se confunde; puede creer que significa salirse del juego, o reiniciar la partida, o demás posibilidades. El juego tiene que estar extremadamente bien estructurado en términos de programación, o la aplicación se confunde con las respuestas de los usuarios.
Por otro lado, la interfaz de usuario representó un reto muy diferente. Durante el desarrollo de cualquier videojuego, es normal que se desarrollen diferentes interfaces de usuario y se pongan a prueba hasta alcanzar la más amigable. Pero en el caso de Alexa, y seguramente debido a que era la primera vez que hacíamos un juego de voz, no teníamos una arquitectura de juego con la flexibilidad para adaptarse a los cambios en la interfaz de usuario.
Finalmente, la tecnología de bocinas inteligentes requiere de un usuario que utilice un lenguaje muy apropiado y claro al hablar. Como la lengua hablada está llena de sutilezas e innuendos, nos topamos con fallos de comunicación entre el usuario y Alexa. Por ejemplo, las bocinas inteligentes no entienden bien los acentos, no diferencia a la perfección la voz del usario del ambiente, no logra separar las voces de múltiples usuarios que intervengan al mismo tiempo, no captura bien una voz que le hable desde lejos, o no registra una intervención del usuario cuando habla demasiado pronto o demasiado tarde en su turno.
Alexa está programada para pedirle amablemente al usuario que repita una respuesta que no logró entender, lo cual puede llevar al usuario a frustrarse y a responder de manera emocional, añadiendo palabras innecesarias tipo “te dije que…” o “por favor”, y Alexa no entiende en ese contexto, y le vuelve a pedir que repita. Esto nos obligó a generar una interfaz que educara a los jugadores a ser rigurosos, pero a los jugadores no les gusta ser rigurosos sino espontáneos. Si son varios jugadores, platican libremente entre ellos y Alexa ya no entiende. Esto demanda prestar atención todo el tiempo, con demasiada seriedad, como si el jugador estuviera en un exámen, y eso no lo hace tan divertido, contrario al objetivo que nosotros buscamos de entretener de manera inteligente e innovadora.
¿Qué otros retos les representó el proyecto?
Fueron principalmente de tres tipos. Hubo retos financieros, de marketing o discovery, y de experiencia de usuario.
A pesar de que la tecnología de bocinas inteligentes fue un éxito la década pasada, y Alexa vendió 100 millones de ejemplares en seis años, Alexa Music Mash no resultó rentable para nosotros, principalmente porque Amazon ofrece sus aplicaciones para Alexa de manera gratuita, y no permitían que incluyeran publicidad. En consecuencia, no tuvimos manera de ganar dinero para pagar el desarrollo. Nuestras ganancias provinieron únicamente de Estados Unidos gracias a las compras dentro de la app en forma de subscripciones, y en Reino Unido porque Alexa Music Mash fue jugado por muchísimos usuarios, especialmente en 2020, y Amazon nos dio una compensación económica como recompensa. El problema es que como gran parte del contenido de Alexa es gratuito, no representa un incentivo para desarrollar más ni mejor contenido. Por eso no seguimos haciendo juegos de este tipo, a pesar de que nos interesaba mucho incursionar en esta tecnología.
En términos de marketing, especialmente la capacidad de los usuarios para descubrir Alexa Music Mash, Alexa no muestra todas las opciones que se pueden utilizar. Estamos muy acostumbrados a mostrar listas visuales que los usuarios revisan hasta encontrar lo que buscan, pero debido a la característica auditiva de Alexa, esto implicaría que ella recitara un catálogo inmenso. ¿Cómo se entera el usuario de una app como Alexa Music Mash? Se necesitan campañas de publicidad en espectaculares, en la radio, en las computadoras de los usuarios. Pero Alexa no publicita sus aplicaciones. Hay un enorme problema a la hora de que los usuarios se enteren de las aplicaciones que tienen disponibles. Amazon publicita sus apps a través de un correo electrónico, pero como todos sabemos, no todo el mundo revisa todos sus correos, especialmente los que contienen contenido publicitario. En Reino Unido ocurrió algo diferente, el juego se hizo muy popular el año pasado, pero no estamos seguros de por qué, ni qué hizo Amazon UK en particular para darlo a conocer.
Finalmente, en lo que se refiere a la experiencia de usuario, también conocido como UX, el mercado ha acostumbrado a los usuarios a través de la vista, ya que hemos creado muchísimo contenido para ser visualizado en pantallas. Pero en Alexa, como ya comenté, solo se puede utilizar su voz, en especial para las bocinas inteligentes sin pantallas táctiles. Esto fue todo un reto porque no podíamos mostrarle al usuario la misma cantidad de opciones que podemos hacer de manera visual. Por ello tuvimos que simplificar mucho la cantidad de opciones al jugador, y proponer todo de manera muy contextual, de tal forma que Alexa solo decía las opciones de acuerdo con lo que el jugador va haciendo, y esto requirió de mucho ensayo y error.
¿Qué hicieron bien?
Logramos hacer algo funcional y muy innovador en el momento en el que la tecnología estaba naciendo. Logramos que sea un juego tanto singleplayer como multiplayer en una plataforma tan especial como las bocinas inteligentes. Nos permitió adquirir muchísima experiencia en la tecnología de bocinas inteligentes, que algún día la vamos a aprovechar. Logramos motivar a muchos artistas, con los que estamos verdaderamente agradecidos por habernos ayudado en el contenido de este videojuego. Sin ellos, no lo hubiéramos podido lograr.
¿Qué hicieron mal?
Tal vez no se adaptó al mercado como esperábamos. El mercado no estaba suficientemente maduro para este tipo de contenido, tanto en términos de “discovery” (mercadológicos) como de ingresos. Había suficiente mercado, porque estaban vendiéndose muchísimas bocinas inteligentes, pero todavía no está bien pensado cómo esta tecnología debe generar ingresos para los desarrolladores. La tecnología, su modelo de negocios, y el aspecto de promoción de apps, está todo poco trabajado, no existe mucha claridad sobre cómo hacer dinero.
Lo que me hubiera gustado es que Alexa Music Mash fuera una experiencia muchísimo más corta y más cotidiana, de dos o tres minutos máximo, en lugar de haber hecho una experiencia de 10-15 minutos. El hecho de hacerlo cotidiano generaría más retención, con retos diarios puntuales. Hacer interacciones más breves, para ofrecerle al usuario jugar un instante, por ejemplo, todas las mañanas.
Conclusión
La tecnología de las bocinas inteligentes fue un éxito indiscutible. Esto abre un enorme campo para la innovación en la industria de los videojuegos, siempre y cuando los desarrolladores quieran pensar fuera de la caja. Eso fue lo que hicimos en TagWizz con Alexa Music Mash. Nadie en México ha desarrollado la experiencia que nosotros hemos adquirido gracias al proyecto de Alexa Music Mash, y esto no pone a la vanguardia de la innovación de la industria de los videojuegos en nuestro país.
¿Cómo podemos encontrar este juego?
El juego está disponible en México, Estados Unidos, España, Reino Unido y Francia. El usuario tiene que decirle el comando a Alexa de la siguiente manera: “Alexa, abre music mash” o “Alexa, juega music mash”, en su defecto con los comandos en inglés: “Alexa, open music mash” o “Alexa, play music mash”.
Alexa Music Mash se puede jugar tanto en single player como en multiplayer. En singleplayer el usuario intenta alcanzar la mayor puntuación posible, y conforme va atinando, el juego se hace más difícil, como en Tetris. En su versión multiplayer, cada usuario compite contra otros jugadores de manera presencial (es decir, local, no en línea) y gana quien alcance una puntuación mayor.
De este juego tenemos también una versión para móvil.