Esta IA imita nuestra voz con apenas 3 segundos de audio y es alarmante

VALL-E, la nueva inteligencia artificial avanzada de Microsoft puede imitar nuestra voz con apenas tres segundos de muestra. La herramienta es tan poderosa, que puede incluso conservar el tono emocional del hablante original y simular su entorno ac�stico. Las inteligencias artificiales est�n cada vez m�s asentadas, siendo GPT3 una de las m�s potentes y usadas por el p�blico general. Mientras se buscan maneras de monetizarlas, las IA con capacidad de dicci�n son cada vez m�s potentes y �tiles, con actores como Val Kilmer recurriendo a ellas para digitalizar su voz. VALL-E, la nueva app de Microsoft, promete poner patas arriba el mercado y muchos expertos alertan de su poder.

VALL-E imitar� nuestra voz con apenas 3 segundos de muestra y su resultado es incre�ble

Los deepfake est�n a la orden del d�a, pero a�n hay un elemento que parece no funcionar del todo cuando se trata de imitar a un ser humano: la voz. Si bien captar un rostro es cuesti�n de fotograf�as, v�deos o im�genes de muestra que se procesan durante horas o minutos para lograr un resultado realista y cre�ble -como ya hemos visto con Tom Cruise o Paris Hilton-, la voz es otro cantar. Microsoft y su legi�n de investigadores han conseguido simular la voz de alguien usando solo una muestra de tres segundos de ellos hablando. S�, como est�is leyendo. As� funciona VALL-E, una herramienta que usa un modelo de lenguaje de c�dec neuronal, utilizando tecnolog�a de Meta en forma de la avanzada comprensi�n de audio EnCodec.

Este c�dec, usa la IA para comprimir audio con una calidad mejor que la de un CD a velocidades de datos 10 veces m�s peque�as que incluso la vista en los archivos mp3, sin p�rdida apreciable de calidad, superando a otros compresores como los de Apple o Sony.

Esta tecnolog�a, en principio, se dise�� para mejorar la calidad de las llamadas telef�nicas en lugares con mala cobertura, as� como de reducir el ancho de banda en servicios de streaming. Pero Microsoft le ha dado una vuelta, generando que cualquier s�ntesis de texto a voz por parte de una m�quina o bot suene de una forma contundente y realista bas�ndose siempre en una muestra de fuente muy limitada.

Aunque los sistemas de texto a voz se escuchan cada vez mejor y los asistentes como Alexa o Siri est�n a la orden del d�a, necesitan mucho tiempo de grabaci�n en estudios profesionales, datos de entretenimiento o inputs durante largas jornadas. B�sicamente, hay que entrenarlos o ense�arles c�mo pronunciar bien o incluso ajustar sus respuestas para que no suenen rob�ticas o carentes de emoci�n. La aproximaci�n de Microsoft, como pod�is leer en su informe, es distinta. La empresa de Redmond ha trabajado con el conjunto de datos Libri-light de Meta, compa��a de Mark Zuckerberg, que contiene m�s 60.000 horas de audios y locuciones en ingl�s grabados de m�s de 7000 hablantes �nicos, todo ellos de dominio p�blico. Pod�is escuchar sus resultados en la web oficial del proyecto, y aunque muchos son de calidad dispar, hay imitaciones de voces humanas muy conseguidas.

“

La mayor�a de respuestas de VALL-E son c�lidas, cre�bles y respetan la entonaci�n

Pese a que no termina de captar bien los acentos o la entonaci�n de la muestra original en algunos casos, casi todos los resultados obtenidos por VALL-E suenan naturales, muy c�lidos, y son muy similares a las voces humanas de referencia. Microsoft cree que es una herramienta que puede ayudar a crear asistentes de voz personales m�s cre�bles o parecidos a los seres humanos, menos rob�ticos y fr�os, as� como venderse a la industria de la m�sica o los audiolibros para lograr voces c�modas con las que escuchar canciones o disfrutar de novelas en formato audio. Incluso como locuciones para museos, navegadores GPS o personas con capacidades reducidas o nulas en su habla. Pero no son pocos los expertos que creen que, si esto va a m�s, se pueden generar riesgos en t�rminos de falsificaciones o suplantaciones de identidad. Microsoft est� al tanto de ello.

"Dado que VALL-E podr�a sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como falsificar la identificaci�n de voz o hacerse pasar por un hablante espec�fico. Para mitigar tales riesgos, es posible construir un modelo de detecci�n para discriminar si un clip de audio fue sintetizado por VALL-E. Tambi�n pondremos en pr�ctica los Principios de IA de Microsoft cuando sigamos desarrollando los modelos", explican. Es decir, en Redmond saben que su herramienta puede ser tan �til como peligrosa si se usa de malas formas.

Esta IA imita nuestra voz con apenas 3 segundos de audio y es alarmante

VALL-E imitar� nuestra voz con apenas 3 segundos de muestra y su resultado es incre�ble

M�s sobre Tecnolog�a