O que está acontecendo:
Em março de 2019, Neue Zürcher Zeitung A NZZ lançou um novo serviço de conversão de texto em fala para o público, como uma versão aprimorada de seu reprodutor de áudio beta lançado em outubro passado. A empresa compartilhou algumas das principais lições aprendidas durante o processo.Indo mais fundo:
O Google Wavenet não é suficiente para a língua alemã suíça
A NZZ utilizou o Google Wavenet para gerar seus arquivos de áudio e, embora a tecnologia seja eficiente no processamento de idiomas (atualmente, consegue reproduzir nove idiomas com som de qualidade natural), ela não era robusta o suficiente para as complexidades do alemão suíço. Para solucionar o problema, a NZZ implementou um middleware com um léxico para processar as palavras antes de convertê-las em áudio.A arquitetura deve permitir combinações variadas
Em um setor em constante transformação, com ferramentas, necessidades e produtos em constante mudança, a NZZ precisava criar um serviço que pudesse ser facilmente adaptado às novas circunstâncias. Ao desenvolver uma arquitetura flexível, eles conseguiram migrar o serviço do Amazon Polly para o Google Wavenet em pouco tempo, obtendo melhorias significativas.Áudio não é para todos
Algumas pessoas adoram áudio, mas outras simplesmente não. A NZZ pediu a ambos os tipos de usuários que avaliassem diferentes mecanismos de conversão de texto em fala, juntamente com textos lidos por uma pessoa real. Ambos os grupos (sem surpresa) classificaram a voz humana natural como a melhor. No entanto, essa constatação não foi realmente relevante, considerando que os usuários ou gostavam de áudio ou não, e a presença ou ausência da voz humana não pareceu ter uma influência significativa no uso.Técnicas para transformar um texto escrito em um bom áudio
É importante que o conteúdo de áudio seja agradável de ouvir, e a NZZ precisou usar um layout diferente para transformar seus artigos em um formato MP3 de qualidade. Isso envolveu analisar cuidadosamente como os usuários gostariam de ouvir um artigo, o que influenciou a criação de seus modelos de áudio.Diferentes experiências de jogadores representam um desafio
A NZZ queria introduzir seu áudio em todos os produtos e em todas as plataformas (desktops, tablets e aplicativos). Isso significava projetar e desenvolver muitas variantes diferentes de reprodutores para atender às considerações tecnológicas de cada um.Conclusão:
Muitas variáveis influenciam a criação de um bom serviço de áudio de conversão de texto em fala e devem ser totalmente consideradas durante a construção, os testes e a fase beta para que se possa lançar com sucesso um produto de conteúdo de áudio de qualidade.Conteúdo de nossos parceiros








