X
  1. Vandal Random
  2. Noticias
  3. Esta IA imita nuestra voz con apenas 3 segundos de audio y es alarmante

Esta IA imita nuestra voz con apenas 3 segundos de audio y es alarmante

La nueva herramienta de inteligencia artificial diseñada por Microsoft, VALL-E, es capaz, en apenas tres segundos, de imitar nuestra voz a la perfección. Las implicaciones preocupan a los expertos.

VALL-E, la nueva inteligencia artificial avanzada de Microsoft puede imitar nuestra voz con apenas tres segundos de muestra. La herramienta es tan poderosa, que puede incluso conservar el tono emocional del hablante original y simular su entorno acústico. Las inteligencias artificiales están cada vez más asentadas, siendo GPT3 una de las más potentes y usadas por el público general. Mientras se buscan maneras de monetizarlas, las IA con capacidad de dicción son cada vez más potentes y útiles, con actores como Val Kilmer recurriendo a ellas para digitalizar su voz. VALL-E, la nueva app de Microsoft, promete poner patas arriba el mercado y muchos expertos alertan de su poder.

VALL-E imitará nuestra voz con apenas 3 segundos de muestra y su resultado es increíble

Los deepfake están a la orden del día, pero aún hay un elemento que parece no funcionar del todo cuando se trata de imitar a un ser humano: la voz. Si bien captar un rostro es cuestión de fotografías, vídeos o imágenes de muestra que se procesan durante horas o minutos para lograr un resultado realista y creíble -como ya hemos visto con Tom Cruise o Paris Hilton-, la voz es otro cantar. Microsoft y su legión de investigadores han conseguido simular la voz de alguien usando solo una muestra de tres segundos de ellos hablando. Sí, como estáis leyendo. Así funciona VALL-E, una herramienta que usa un modelo de lenguaje de códec neuronal, utilizando tecnología de Meta en forma de la avanzada comprensión de audio EnCodec.

Este códec, usa la IA para comprimir audio con una calidad mejor que la de un CD a velocidades de datos 10 veces más pequeñas que incluso la vista en los archivos mp3, sin pérdida apreciable de calidad, superando a otros compresores como los de Apple o Sony. Esta tecnología, en principio, se diseñó para mejorar la calidad de las llamadas telefónicas en lugares con mala cobertura, así como de reducir el ancho de banda en servicios de streaming. Pero Microsoft le ha dado una vuelta, generando que cualquier síntesis de texto a voz por parte de una máquina o bot suene de una forma contundente y realista basándose siempre en una muestra de fuente muy limitada.

Aunque los sistemas de texto a voz se escuchan cada vez mejor y los asistentes como Alexa o Siri están a la orden del día, necesitan mucho tiempo de grabación en estudios profesionales, datos de entretenimiento o inputs durante largas jornadas. Básicamente, hay que entrenarlos o enseñarles cómo pronunciar bien o incluso ajustar sus respuestas para que no suenen robóticas o carentes de emoción. La aproximación de Microsoft, como podéis leer en su informe, es distinta. La empresa de Redmond ha trabajado con el conjunto de datos Libri-light de Meta, compañía de Mark Zuckerberg, que contiene más 60.000 horas de audios y locuciones en inglés grabados de más de 7000 hablantes únicos, todo ellos de dominio público. Podéis escuchar sus resultados en la web oficial del proyecto, y aunque muchos son de calidad dispar, hay imitaciones de voces humanas muy conseguidas.

La mayoría de respuestas de VALL-E son cálidas, creíbles y respetan la entonación

Pese a que no termina de captar bien los acentos o la entonación de la muestra original en algunos casos, casi todos los resultados obtenidos por VALL-E suenan naturales, muy cálidos, y son muy similares a las voces humanas de referencia. Microsoft cree que es una herramienta que puede ayudar a crear asistentes de voz personales más creíbles o parecidos a los seres humanos, menos robóticos y fríos, así como venderse a la industria de la música o los audiolibros para lograr voces cómodas con las que escuchar canciones o disfrutar de novelas en formato audio. Incluso como locuciones para museos, navegadores GPS o personas con capacidades reducidas o nulas en su habla. Pero no son pocos los expertos que creen que, si esto va a más, se pueden generar riesgos en términos de falsificaciones o suplantaciones de identidad. Microsoft está al tanto de ello.

"Dado que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como falsificar la identificación de voz o hacerse pasar por un hablante específico. Para mitigar tales riesgos, es posible construir un modelo de detección para discriminar si un clip de audio fue sintetizado por VALL-E. También pondremos en práctica los Principios de IA de Microsoft cuando sigamos desarrollando los modelos", explican. Es decir, en Redmond saben que su herramienta puede ser tan útil como peligrosa si se usa de malas formas.