SODP logo

    Fünf Dinge, die die Neue Zürcher Zeitung beim Aufbau eines Text-to-Speech-Dienstes gelernt hat

    Was ist passiert: Im März 2019 startete die Neue Zürcher Zeitung (NZZ) einen neuen Text-to-Speech-Dienst für die Öffentlichkeit – eine verbesserte Version ihres im Oktober zuvor veröffentlichten Beta-Audioplayers. Der…
    Aktualisiert am: 1. Dezember 2025
    Shelley Seale

    Erstellt von

    Shelley Seale

    Vahe Arabian

    Faktencheck durch

    Vahe Arabian

    Vahe Arabian

    Herausgegeben von

    Vahe Arabian

    Was passiert:

    Im März 2019 Neue Zürcher Zeitung Die NZZ hat einen neuen Text-to-Speech-Dienst für die Öffentlichkeit eingeführt, eine verbesserte Version ihres im Oktober letzten Jahres veröffentlichten Beta-Audioplayers. Das Unternehmen teilte einige der wichtigsten Erkenntnisse mit, die es dabei gewonnen hat.

    Weiter graben:

    Google Wavenet reicht für die schweizerdeutsche Sprache nicht aus

    Die NZZ nutzte Google Wavenet zur Erstellung ihrer Audiodateien. Obwohl die Technologie für Sprachen gut geeignet ist (derzeit werden neun Sprachen in natürlicher Klangqualität wiedergegeben), war sie für die Komplexität des Schweizerdeutschen nicht robust genug. Um dieses Problem zu lösen, integrierte die NZZ eine Middleware mit einem Lexikon, durch das die Wörter vor der Umwandlung in Audio geleitet wurden.

    Die Architektur muss kombinierbar sein

    In einer sich wandelnden Branche mit sich ständig ändernden Tools, Bedürfnissen und Produkten musste NZZ einen Service entwickeln, der sich flexibel an veränderte Gegebenheiten anpassen lässt. Durch den Aufbau einer flexiblen Architektur gelang es ihnen, den Service kurzfristig von Amazon Polly auf Google Wavenet umzustellen und so eine deutliche Verbesserung zu erzielen.

    Audio ist nicht für jeden geeignet

    Manche Menschen lieben Audioinhalte, andere hingegen nicht. NZZ bat beide Nutzergruppen, verschiedene Text-to-Speech-Systeme sowie von einem Menschen vorgelesenen Text zu bewerten. Beide Gruppen bewerteten (wenig überraschend) die natürliche menschliche Stimme am besten. Diese Erkenntnis war jedoch nicht wirklich relevant, da die Nutzer Audioinhalte entweder mochten oder nicht und die menschliche Stimme – oder deren Fehlen – keinen wesentlichen Einfluss auf die Nutzung zu haben schien.

    Techniken zur Umwandlung eines schriftlichen Textes in gutes Audiomaterial

    Es ist wichtig, dass Audioinhalte angenehm anzuhören sind, und NZZ musste daher ein anderes Layout verwenden, um seine Artikel in ein hochwertiges MP3-Format umzuwandeln. Dazu wurde genau analysiert, wie sich die Nutzer einen Artikel vorlesen lassen möchten, was die Grundlage für die Audiovorlagen bildete.

    Unterschiedliche Spielerlebnisse stellen eine Herausforderung dar

    NZZ wollte seine Audioinhalte in allen Produkten und auf allen Plattformen (Desktop, Tablets und Apps) einführen. Dies erforderte die Entwicklung zahlreicher verschiedener Player-Varianten, um den technischen Anforderungen der unterschiedlichen Abspielgeräte gerecht zu werden.

    Fazit:

    Bei der Entwicklung eines guten Text-zu-Sprache-Audiodienstes spielen viele Faktoren eine Rolle, die während der Entwicklungs-, Test- und Betaphase umfassend berücksichtigt werden müssen, um ein qualitativ hochwertiges Audioprodukt erfolgreich auf den Markt zu bringen.