Voicebox: il nuovo strumento di sintesi vocale marchiato Meta

Voicebox il nuovo strumento di sintesi vocale marchiato MetaVoicebox il nuovo strumento di sintesi vocale marchiato Meta

Meta ha sviluppato Voicebox, un modello di apprendimento automatico che può generare una sintesi vocale a partire dal testo. Ciò che rende Voicebox unico, rispetto alla concorrenza, è la sua capacità di eseguire vari compiti per i quali non è stato specificamente programmato, come l'editing, la rimozione del rumore e il trasferimento dello stile. Nonostante Meta abbia deciso di non rilasciare pubblicamente Voicebox, i risultati iniziali sembrano essere promettenti.

Il modello è stato addestrato con un metodo speciale chiamato "Flow Matching", sviluppato dai ricercatori di questa società. Questa tecnica permette a Voicebox di apprendere da dati vocali provenienti da diverse fonti. Lo strumento è stato addestrato su 50.000 ore di parlato e trascrizioni di audiolibri, in modo tale da sviluppare la capacità di distinguere fra suono principale e audio di sottofondo o ambientale e di trascrivere il testo del parlato.

Voicebox è in grado di sintetizzare il parlato in sei lingue diverse e può essere applicato a molti compiti senza richiedere troppa personalizzazione. Ad esempio, può generare il parlato di un nuovo testo utilizzando un breve campione vocale come riferimento. Può inoltre eseguire il trasferimento dello stile vocale da un campione audio a un altro, consentendo alle persone di comunicare in modo naturale anche se parlano lingue diverse.

Il modello riesce anche ad eseguire operazioni di editing, come ad esempio la rimozione del rumore di sottofondo da un'incisione vocale o la correzione di errori di pronuncia nel parlato.

Nonostante le enormi potenzialità, Voicebox presenta alcuni limiti. Non riesce ad adattarsi bene a una conversazione colloquiale che comprenda anche suoni onomatopeici e che non segue pedissequamente le regole grammaticali, poiché è stato addestrato principalmente su audiolibri e su scritti di natura formale o letteraria. Inoltre, non riesce a riprodurre tutti quegli elementi che sono importanti nella lingua parlata, come lo stile, il tono, l'emozione e la condizione acustica.

In conclusione, Voicebox di Meta Platforms si distingue dagli altri strumenti di sintesi vocale per la capacità di eseguire vari compiti per cui non è stato specificatamente programmato ed è per questo motivo che le sue applicazioni future sono, a detta della società che l’ha sviluppato, molto interessanti.