Microsoft presenta Vall-E, una inteligencia artificial generadora de audio capaz de emular la voz humana

  • La herramienta simula la voz de una persona a partir de una muestra de audio de tres segundos
  • Puede emular tanto el timbre de la voz del hablante, como el tono emocional del discurso
Microsoft presenta Vall-E, una inteligencia artificial generadora de audio capaz de emular la voz humana

La inteligencia artificial ha protagonizado grandes progresos en su desarrollo durante 2022, de la mano de Dall-E 2 en la generación de imágenes a partir de indicaciones de texto y del modelo de lenguaje natural ChatGPT, ambos desarrollados por la empresa OpenAI. Y ahora Microsoft está aplicando la tecnología al terreno del audio con Vall-E, un modelo para la generación de voz mediante instrucciones de texto (TTS, text-to-speech) y capaz de emular la voz humana a partir de una muestra de audio de tres segundos.

El modelo se apoya en la tecnología EnCodec, de Meta

La firma de Redmond define Vall-E como un "modelo de lenguaje de códec neuronal", basado en la tecnología EnCodec, anunciada por Meta el pasado mes de octubre y que permite generar audios a través de una breve descripción de texto y muestras breves de audio. Esto permite que la herramienta, a diferencia de otros métodos de texto a voz, genere códigos de códec de audio discretos a partir de mensajes de texto y sonidos. 

Es decir, es capaz de analizar cómo suena una persona, divide esa información en componentes discretos (llamados "tokens") y usa los datos de entrenamiento -basado en 60.000 horas de habla inglesa de más de 7.000 hablantes en la biblioteca de audio LibriLight de Meta- para comparar lo que "sabe" sobre cómo sonaría esa voz si pronunciara otras frases más allá de la muestra de tres segundos. 

Es más, según explica la compañía en la página habilitada para compartir su investigación, Vall-E puede imitar tanto el timbre de la voz del hablante, como el tono emocional del discurso, e incluso, la acústica de una habitación. Por ejemplo, si la muestra proviene de una llamada telefónica, la salida de audio simulará las propiedades acústicas y de frecuencia de una llamada telefónica. 

Microsoft ha proporcionado varias decenas de ejemplos en los que se puede escuchar el “speaker prompt” -la muestra de voz de tres segundos-, el “ground truth” -la voz pronunciando la frase concreta a imitar- el “baseline” -ejemplo de síntesis proporcionada por un método convencional de síntesis de texto a voz-y finalmente la muestra "Vall-E". 

Algunos de los resultados de la herramienta suenan notablemente artificiales y generados por un ordenador, pero otros podrían confundirse potencialmente con el habla de un ser humano. Los investigadores señalan que Vall-E podría usarse para aplicaciones de texto a voz de alta calidad (como asistentes virtuales), para la edición de voz en grabaciones en las que el discurso podría cambiarse por una transcripción de texto (haciéndola decir algo que originalmente no dijo), o en la creación de contenido de audio cuando se combina con otros modelos generativos de inteligencia artificial como GPT-3.

Vall-E abre todo un abanicos de posibilidades de aplicación, pero al igual que otros de los sistemas que han acaparado la conversación social en los últimos meses, conlleva riesgos de uso indebido. Es quizá por ello que Microsoft no ha proporcionado el código del modelo, consciente del potencial daño que podría traer esta tecnología en la suplantación de identidades, por ejemplo. 

Dado que Vall-E podría sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como falsificar la identificación de voz o hacerse pasar por un hablante específico”, comentan desde la compañía en el artículo de investigación. "Para mitigar tales riesgos, es posible construir un modelo de detección para discriminar si un clip de audio fue sintetizado por Vall-E. También pondremos en práctica los Principios de IA de Microsoft cuando desarrollemos más los modelos".

Vall-E se encuentra todavía en fase de desarrollo. Para optimizar el modelo, Microsoft planea ampliar sus datos de entrenamiento con la intención de mejorar el rendimiento en las perspectivas de prosodia, estilo de habla y similitud del hablante. Además, asegura que está explorando formas de reducir las palabras que no quedan claras o que se pierden en el audio.

El desarrollo de Vall-E es una muestra de la apuesta rotunda de Microsoft por la inteligencia artificial, un camino que la compañía lleva recorriendo desde hace años. Más allá de invertir mil millones de dólares en 2019 en OpenAI -inversión que parece dispuesta a reforzar con 10.000 millones más- y de trabajar en la integración de ChatGPT en su buscador Bing, la firma liderada por Satya Nadella está impulsando también sus propios desarrollos. 

Noticias Relacionadas

Mint Mobile, la operadora móvil de Ryan Reynolds, crea un anuncio con ChatGPT

Character.ia

Como muestra de la proliferación de modelos de inteligencia artificial y sus diferentes y variadas aplicaciones, Character.ia es otra de las plataformas que está despertando el interés de los usuarios. Se trata de un chatbot desarrollado por ex investigadores de Google -Noam Shazeer y Daniel De Freitas- que propone un espacio para conversar y chatear con aproximaciones a personajes y figuras famosas generadas por inteligencia artificial. 

En este sentido, la herramienta es básicamente capaz de imitar a personas, ya sean existentes, históricas o personajes ficticios de obras narrativas. Además, cualquier usuario tiene posibilidad de crear su propio personaje. En la plataforma actualmente es posible conversar con Elon Musk, Tony Soprano, Sigmund Freud, o la reina Isabel II. 

El objetivo del portal es esencialmente el entretenimiento, y en todo momento deja claro que los personajes y personalidades en él presente son inventados y que no se trata de sus versiones reales. “¡Los personajes inventan cosas! Entonces, si bien pueden ser entretenidos y útiles de muchas maneras, también pueden recomendar una canción que no existe o proporcionar enlaces a evidencia falsa para respaldar sus afirmaciones”; explican en el apartado de preguntas y respuestas.