SODP logo

    Cinco cosas que aprendió Neue Zürcher Zeitung al crear un servicio de texto a voz

    Novedades: En marzo de 2019, el Neue Zürcher Zeitung (NZZ) lanzó al público un nuevo servicio de conversión de texto a voz, una versión mejorada de su reproductor de audio beta, lanzado en octubre del año pasado. El…
    Actualizado el: 1 de diciembre de 2025
    Shelley Seale

    Creado por

    Shelley Seale

    Vahe Arabian

    Hecho verificado por

    Vahe Arabian

    Vahe Arabian

    Editado por

    Vahe Arabian

    Lo que está sucediendo:

    En marzo de 2019, Neue Zürcher Zeitung (NZZ) lanzó al público un nuevo servicio de conversión de texto a voz, una versión mejorada de su reproductor de audio beta, lanzado el pasado octubre. La compañía compartió algunas de las lecciones clave aprendidas durante el proceso.

    Profundizando:

    Google Wavenet no es suficiente para el idioma suizo alemán

    NZZ utilizó Google Wavenet para generar sus archivos de audio, y si bien la tecnología es competente en idiomas (actualmente habla nueve con un sonido natural), no era lo suficientemente robusta para las complejidades del alemán suizo. Para solucionar el problema, NZZ equipó un middleware con un léxico para que las palabras fluyeran antes de ser convertidas en audio.

    La arquitectura debe ser combinable

    En una industria en constante evolución, con herramientas, necesidades y productos cambiantes, NZZ necesitaba crear un servicio que se adaptara fácilmente a las circunstancias cambiantes. Mediante una arquitectura versátil, pudieron migrar el servicio de Amazon Polly a Google Wavenet con poca antelación, lo que mejoró notablemente.

    El audio no es para todos

    A algunas personas les encanta el audio, pero a otras simplemente no. NZZ pidió a ambos tipos de usuarios que evaluaran diferentes motores de texto a voz junto con texto leído por una persona real. Ambos grupos (como era de esperar) obtuvieron la mejor calificación para la voz humana natural. Sin embargo, esta información no era realmente relevante, considerando que a los usuarios les gustaba o no el audio, y la voz humana, o la ausencia de ella, no parecía tener una influencia significativa en el uso.

    Técnicas para convertir una pieza escrita en un buen audio

    Es importante que el contenido de audio sea agradable de escuchar, y NZZ tuvo que usar un diseño diferente para convertir sus artículos a formato MP3 de calidad. Esto implicó analizar detenidamente cómo les gustaría a los usuarios que se les leyera un artículo, lo cual inspiró sus plantillas de audio.

    Las diferentes experiencias de los jugadores presentan un desafío

    NZZ quería ofrecer su audio en todos sus productos y plataformas (ordenador, tabletas y aplicaciones). Esto implicó el diseño y desarrollo de diversas variantes de reproductores para adaptarlas a las necesidades tecnológicas de cada uno.

    En resumen:

    Hay muchas variables que intervienen en la creación de un buen servicio de audio de texto a voz y que deben tenerse en cuenta en su totalidad durante la creación, las pruebas y la versión beta para poder lanzar con éxito un producto de contenido de audio de calidad.