Hoved Innovere Googles nye AI-tekst-til-tale-AI er så bra at vi vedder på at du ikke kan fortelle det fra et ekte menneske

Googles nye AI-tekst-til-tale-AI er så bra at vi vedder på at du ikke kan fortelle det fra et ekte menneske

Horoskopet Ditt For I Morgen

Kan du se forskjellen mellom AI-generert datatale og et ekte, levende menneske? Kanskje du alltid har trodd at du kunne. Kanskje du er glad i Alexa og Siri, men tror du aldri vil forveksle noen av dem med en faktisk kvinne.

Ting er i ferd med å bli mye mer interessante. Googles ingeniører har jobbet hardt med å lage et kalt tekst-til-tale-system Tacotron 2 . I følge en papir de publiserte denne måneden, oppretter systemet først et spektrogram av teksten, en visuell fremstilling av hvordan talen skal høres ut. Dette bildet blir satt gjennom Googles eksisterende WaveNet-algoritme, som bruker bildet til å produsere ekstremt naturlig menneskelig tale.

michaela conlin giftet seg med tj thyne

Ved å bruke denne metoden rapporterer forskerne: 'Vår modell oppnår en gjennomsnittlig meningspoeng (MOS) på 4,53, sammenlignbar med en MOS på 4,58 for profesjonelt innspilt tale.' (En gjennomsnittlig meningspoeng er et telekommunikasjonsuttrykk som måler hvor sant noe livet høres ut.)

Som Googles lydprøver demonstrerer, kan Tacotron 2 fra sammenheng oppdage forskjellen mellom substantivet 'ørken' og verbet 'ørken', så vel som substantivet 'til stede' og verbet 'til stede', og endre uttalen tilsvarende. Det kan legge vekt på store bokstaver og bruke riktig bøyning når du stiller et spørsmål i stedet for å uttale seg.

Og det kan generere tekst som høres så ut som menneskelig tale at det er vanskelig eller umulig å vite forskjellen. Hvis du vil se hvor vanskelig det er, gå til Googles lydeksempler side , og bla ned til det siste settet med prøver, med tittelen 'Tacotron 2 eller Human?' Der finner du Tacotron 2 og en ekte person som hver sier setninger som: 'Den jenta gjorde en video om Star Wars leppestift.'

SPOILER ALERT: For å teste deg selv, hør på prøvene og gjett hva som er før du leser resten av denne kolonnen.

Så hvilke eksempler er tekst til tale og hvilke er en ekte menneskelig stemme? Googles ingeniører sier ikke, men de har lagt igjen en veldig stor anelse. Hver av .wav-fileksemplene har et filnavn som inneholder enten begrepet 'gen' eller 'gt.' Basert på papiret er det svært sannsynlig at 'gen' indikerer tale generert av Tacotron 2, og 'gt' er ekte menneskelig tale. ('GT' står sannsynligvis for 'bakkesannhet', et maskinlæringsuttrykk som i utgangspunktet betyr 'den virkelige avtalen'.)

Forutsatt at dette er riktig, er det svarene på testen:

lee min ho dating suzy

'Den jenta gjorde en video om Star Wars leppestift.'

Eksempel 1: Virkelig menneske

Prøve 2: Tacotron 2

'Hun har doktorgrad i sosiologi fra Columbia University.'

Prøve 1: Tacotron 2

Eksempel 2: Virkelig menneske

'George Washington var den første presidenten i USA.'

Prøve 1: Tacotron 2

Eksempel 2: Virkelig menneske

ace frehley nettoverdi 2016

'Jeg er for opptatt for romantikk.'

Eksempel 1: Virkelig menneske

Prøve 2: Tacotron 2

Hvor mange fikk du rett? Og kunne du virkelig se forskjellen, eller måtte du bare gjette?