La Inteligencia Artificial es una de las principales áreas de investigación de Meta y muestra de ello es Voicebox, un modelo que representa un avance significativo en el uso de esta tecnología para la generación de voz.
“Es el primer modelo de voz de Inteligencia Artificial generativa que puede realizar tareas para las que no fue entrenado específicamente”, explicó el CEO de Meta, Mark Zuckerberg.
En un blog, detalló que este modelo puede crear audios, usualmente de texto a voz, en una gran variedad de estilos, así como modificar una muestra que se le proporcione en una alta calidad.
Por ejemplo, Voicebox puede editar audio pregrabado, como eliminar bocinas de un coche o el ladrido de un perro, conservando el contenido y el estilo del audio.
A lo que se añade que este modelo es multilingüe, ya que puede sintetizar el habla hasta en seis idiomas.
Lo anterior es posible gracias a un nuevo método llamado Flow Matching, que es el último avance de Meta en modelos generativos no autorregresivos que puede aprender a hacer un mapeo altamente no determinista entre texto y voz.
Esto último permite que Voicebox aprenda de datos de voz variados sin que esas variaciones tengan que etiquetarse cuidadosamente, lo que le ayuda a superar a los modelos actuales porque es hasta 20 veces más rápido.
Meta entrenó a Voicebox con más de 50 mil horas de voz grabada y transcripciones de audiolibros en inglés, francés, español, alemán, polaco y portugués.
“Está entrenado para predecir un segmento de voz cuando se le da el habla circundante”, dijo Meta.
Por: Aura Hernández
kpa