Microsofts AI kan imitera en röst efter endast tre sekunder

Från sajten:
image

Microsoft har presenterat en ny text-till-tal AI-modell som kallas VALL-E, som kan simulerar en persons röst när den får en tre sekunders ljudinspelning.

När den neurala codec-språkmodellen,VALL-E, som bygger på en teknik som kallas EnCodec har lärt känna en specifik röst, kan den syntetisera ljud av en person som säger något – och gör det på ett sätt som försöker bevara den känslomässiga tonen hos den som talar. EnCodec är Metas teknik och VALL-E har övat i hela 60 000 timmar med LibriLight som är ett röstbibliotek fullt med röster från 7 000 engelsktalande personer, även det framtaget av Meta.

Vall-E

Bild från VALL-E

Skaparna spekulerar i att VALL-E kan användas för högkvalitativa text-till-tal-applikationer, ljudredigering där en inspelning av en person kan redigeras och ändras från en texttranskription och skapande av ljudinnehåll när den kombineras med andra generativa AI-modeller som GPT. Det är dock värt att komma ihåg att VALL-E fortfarande inte kan utföra simuleringen perfekt och ännu inte är redo för praktisk användning.

Via: ArsTechnica

Källa: VALL-E