Hva skjer:
I mars 2019, Neue Zürcher Zeitung (NZZ) lanserte en ny tekst-til-tale-tjeneste for publikum, som en forbedret versjon av betaversjonen av lydspilleren som ble utgitt i oktober i fjor. Selskapet delte noen av de viktigste lærdommene de har lært underveis.Grave dypere:
Google Wavenet er ikke nok for det sveitsiske tyske språket
NZZ brukte Google Wavenet til å generere lydfilene sine, og selv om teknologien er dyktig på språk (for tiden snakker den ni språk med naturlig lydkvalitet), var den ikke robust nok for kompleksiteten i sveitsertysk. For å løse problemet utstyrte NZZ en mellomvare med et leksikon for å få ordene til å flyte gjennom før de konverteres til lyd.Arkitektur må være mikse-og-match-vennlig
I en bransje i endring med skiftende verktøy, behov og produkter, trengte NZZ å bygge en tjeneste som enkelt kunne tilpasses skiftende omstendigheter. Ved å bygge en mikset-og-match-arkitektur kunne de flytte tjenesten fra Amazon Polly til Google Wavenet på kort varsel, noe som forbedret seg dramatisk.Lyd er ikke for alle
Noen elsker lyd, men andre gjør det rett og slett ikke. NZZ ba begge brukertypene om å evaluere ulike tekst-til-tale-motorer sammen med tekst lest av et faktisk menneske. Begge gruppene (ikke overraskende) vurderte den naturlige menneskestemmen høyest. Denne innsikten var imidlertid ikke egentlig relevant bortsett fra det faktum at brukerne enten likte lyd eller ikke, og den menneskelige stemmen, eller mangelen på sådan, så ikke ut til å ha noen viktig innflytelse på bruken.Teknikker for å gjøre et skriftlig stykke om til god lyd
Det er viktig at lydinnhold er behagelig å lytte til, og NZZ måtte bruke et annet oppsett for å transformere artiklene sine til MP3-format av høy kvalitet. Dette innebar å se nøye på hvordan brukerne ønsker å få en artikkel lest opp for dem, noe som påvirket lydmalene deres.Ulike spilleropplevelser byr på en utfordring
NZZ ønsket å introdusere lyden sin på tvers av alle produkter og på alle plattformer (desktop, nettbrett og apper). Dette betydde å designe og utvikle mange forskjellige spillervarianter for å imøtekomme teknologihensynene i forskjellige spillere.Bunnlinjen:
Mange variabler spiller inn når man skal lage en god tekst-til-tale-lydtjeneste, og disse må tas i betraktning under bygging, testing og betaversjon for å kunne lansere et lydinnholdsprodukt av høy kvalitet.Innhold fra våre partnere








