Abonnieren Sie KI-Einblicke
- Aktuelle Pubtech-Ressourcen
- Überblick über Pubtech- und Adtech-Tools
- Wertvolle Pubtech-Strategien
Was passiert:
Im März 2019 Neue Zürcher Zeitung Die NZZ hat einen neuen Text-to-Speech-Dienst für die Öffentlichkeit eingeführt, eine verbesserte Version ihres im Oktober letzten Jahres veröffentlichten Beta-Audioplayers. Das Unternehmen teilte einige der wichtigsten Erkenntnisse mit, die es dabei gewonnen hat.
Weiter graben:
Google Wavenet reicht für die schweizerdeutsche Sprache nicht aus
Die NZZ nutzte Google Wavenet zur Erstellung ihrer Audiodateien. Obwohl die Technologie für Sprachen gut geeignet ist (derzeit werden neun Sprachen in natürlicher Klangqualität wiedergegeben), war sie für die Komplexität des Schweizerdeutschen nicht robust genug. Um dieses Problem zu lösen, integrierte die NZZ eine Middleware mit einem Lexikon, durch das die Wörter vor der Umwandlung in Audio geleitet wurden.
Die Architektur muss kombinierbar sein
In einer sich wandelnden Branche mit sich ständig ändernden Tools, Bedürfnissen und Produkten musste NZZ einen Service entwickeln, der sich flexibel an veränderte Gegebenheiten anpassen lässt. Durch den Aufbau einer flexiblen Architektur gelang es ihnen, den Service kurzfristig von Amazon Polly auf Google Wavenet umzustellen und so eine deutliche Verbesserung zu erzielen.
Audio ist nicht für jeden geeignet
Manche Menschen lieben Audioinhalte, andere hingegen nicht. NZZ bat beide Nutzergruppen, verschiedene Text-to-Speech-Systeme sowie von einem Menschen vorgelesenen Text zu bewerten. Beide Gruppen bewerteten (wenig überraschend) die natürliche menschliche Stimme am besten. Diese Erkenntnis war jedoch nicht wirklich relevant, da die Nutzer Audioinhalte entweder mochten oder nicht und die menschliche Stimme – oder deren Fehlen – keinen wesentlichen Einfluss auf die Nutzung zu haben schien.
Techniken zur Umwandlung eines schriftlichen Textes in gutes Audiomaterial
Es ist wichtig, dass Audioinhalte angenehm anzuhören sind, und NZZ musste daher ein anderes Layout verwenden, um seine Artikel in ein hochwertiges MP3-Format umzuwandeln. Dazu wurde genau analysiert, wie sich die Nutzer einen Artikel vorlesen lassen möchten, was die Grundlage für die Audiovorlagen bildete.
Unterschiedliche Spielerlebnisse stellen eine Herausforderung dar
NZZ wollte seine Audioinhalte in allen Produkten und auf allen Plattformen (Desktop, Tablets und Apps) einführen. Dies erforderte die Entwicklung zahlreicher verschiedener Player-Varianten, um den technischen Anforderungen der unterschiedlichen Abspielgeräte gerecht zu werden.
Fazit:
Bei der Entwicklung eines guten Text-zu-Sprache-Audiodienstes spielen viele Faktoren eine Rolle, die während der Entwicklungs-, Test- und Betaphase umfassend berücksichtigt werden müssen, um ein qualitativ hochwertiges Audioprodukt erfolgreich auf den Markt zu bringen.