SODP logo

    Cinco lições que o Neue Zürcher Zeitung aprendeu ao criar um serviço de conversão de texto em fala

    O que está acontecendo: Em março de 2019, o jornal Neue Zürcher Zeitung (NZZ) lançou um novo serviço de conversão de texto em fala para o público, como uma versão aprimorada de seu reprodutor de áudio beta lançado em outubro do ano anterior. O…
    Atualizado em: 1 de dezembro de 2025
    Shelley Seale

    Criado por

    Shelley Seale

    Vahe Arabian

    Verificado por

    Vahe Arabian

    Vahe Arabian

    Editado por

    Vahe Arabian

    O que está acontecendo:

    Em março de 2019, Neue Zürcher Zeitung A NZZ lançou um novo serviço de conversão de texto em fala para o público, como uma versão aprimorada de seu reprodutor de áudio beta lançado em outubro passado. A empresa compartilhou algumas das principais lições aprendidas durante o processo.

    Indo mais fundo:

    O Google Wavenet não é suficiente para a língua alemã suíça

    A NZZ utilizou o Google Wavenet para gerar seus arquivos de áudio e, embora a tecnologia seja eficiente no processamento de idiomas (atualmente, consegue reproduzir nove idiomas com som de qualidade natural), ela não era robusta o suficiente para as complexidades do alemão suíço. Para solucionar o problema, a NZZ implementou um middleware com um léxico para processar as palavras antes de convertê-las em áudio.

    A arquitetura deve permitir combinações variadas

    Em um setor em constante transformação, com ferramentas, necessidades e produtos em constante mudança, a NZZ precisava criar um serviço que pudesse ser facilmente adaptado às novas circunstâncias. Ao desenvolver uma arquitetura flexível, eles conseguiram migrar o serviço do Amazon Polly para o Google Wavenet em pouco tempo, obtendo melhorias significativas.

    Áudio não é para todos

    Algumas pessoas adoram áudio, mas outras simplesmente não. A NZZ pediu a ambos os tipos de usuários que avaliassem diferentes mecanismos de conversão de texto em fala, juntamente com textos lidos por uma pessoa real. Ambos os grupos (sem surpresa) classificaram a voz humana natural como a melhor. No entanto, essa constatação não foi realmente relevante, considerando que os usuários ou gostavam de áudio ou não, e a presença ou ausência da voz humana não pareceu ter uma influência significativa no uso.

    Técnicas para transformar um texto escrito em um bom áudio

    É importante que o conteúdo de áudio seja agradável de ouvir, e a NZZ precisou usar um layout diferente para transformar seus artigos em um formato MP3 de qualidade. Isso envolveu analisar cuidadosamente como os usuários gostariam de ouvir um artigo, o que influenciou a criação de seus modelos de áudio.

    Diferentes experiências de jogadores representam um desafio

    A NZZ queria introduzir seu áudio em todos os produtos e em todas as plataformas (desktops, tablets e aplicativos). Isso significava projetar e desenvolver muitas variantes diferentes de reprodutores para atender às considerações tecnológicas de cada um.

    Conclusão:

    Muitas variáveis ​​influenciam a criação de um bom serviço de áudio de conversão de texto em fala e devem ser totalmente consideradas durante a construção, os testes e a fase beta para que se possa lançar com sucesso um produto de conteúdo de áudio de qualidade.