SODP logo

    Cinco cosas que Neue Zürcher Zeitung aprendió construyendo un servicio de texto a voz

    Novedades: En marzo de 2019, el Neue Zürcher Zeitung (NZZ) lanzó al público un nuevo servicio de conversión de texto a voz, una versión mejorada de su reproductor de audio beta, lanzado en octubre del año pasado. El…
    Actualizado el: 1 de diciembre de 2025
    Shelley Seale

    Creado por

    Shelley Seale

    Vahe Arabian

    Hecho verificado por

    Vahe Arabian

    Vahe Arabian

    Editado por

    Vahe Arabian

    Lo que está sucediendo:

    En marzo de 2019, Neue Zürcher Zeitung (NZZ) lanzó al público un nuevo servicio de conversión de texto a voz, una versión mejorada de su reproductor de audio beta, lanzado el pasado octubre. La compañía compartió algunas de las lecciones clave aprendidas durante el proceso.

    Cavar más profundo:

    Google Wavenet no es suficiente para el idioma alemán suizo

    NZZ utilizó Google Wavenet para generar sus archivos de audio y, si bien la tecnología tiene talento para los idiomas (actualmente habla nueve con un sonido de calidad natural), no era lo suficientemente sólida para las complejidades del alemán suizo. Para resolver el problema, NZZ equipó un middleware con un léxico para hacer fluir las palabras antes de convertirlas en audio.

    La arquitectura debe ser fácil de combinar y combinar

    En una industria cambiante con herramientas, necesidades y productos cambiantes, NZZ necesitaba crear un servicio que pudiera adaptarse fácilmente a circunstancias cambiantes. Al crear una arquitectura de combinación, pudieron trasladar el servicio de Amazon Polly a Google Wavenet en poco tiempo, mejorando drásticamente.

    El audio no es para todos

    A algunas personas les encanta el audio, pero a otras simplemente no. NZZ pidió a ambos tipos de usuarios que evaluaran diferentes motores de conversión de texto a voz junto con el texto leído por un humano real. Ambos grupos (como era de esperar) calificaron la voz humana natural como la más alta. Sin embargo, esa idea no era realmente relevante aparte del hecho de que a los usuarios les gustaba el audio o no, y la voz humana o la falta de ella no parecía tener una influencia importante en el uso.

    Técnicas para convertir una pieza escrita en un buen audio

    Es importante que el contenido de audio sea agradable de escuchar, y NZZ tuvo que utilizar un diseño diferente para transformar sus artículos en formato MP3 de calidad. Esto implicó observar de cerca cómo les gustaría a los usuarios que se les leyera un artículo, que informara sus plantillas de audio.

    Las diferentes experiencias de los jugadores presentan un desafío

    NZZ quería presentar su audio en todos los productos y en todas las plataformas (escritorio, tabletas y aplicaciones). Esto significó diseñar y desarrollar muchas variantes diferentes de reproductores para adaptarse a las consideraciones tecnológicas de los diferentes reproductores.

    La línea de fondo:

    Son muchas las variables que intervienen en la creación de un buen servicio de audio de texto a voz y se deben considerar plenamente durante la creación, las pruebas y la versión beta para poder lanzar con éxito un producto de contenido de audio de calidad.