Nueva crisis en la IA: cient�ficos usan un 'jailbreak' que permite saltarse todas las normas

Un nuevo problema se suma a los que ya tiene la inteligencia artificial. Si ya hay centros que monitorizan su uso en las aulas y su uso empresarial suele ser criticado, ahora un grupo de investigadores de Singapur ha dado con la manera de usar de manera il�cita chatbots como, por ejemplo ChatGPT.

Un jailbreak permite saltarse las normas �ticas de ChatGPT y otros chatbots

El equipo de cient�ficos inform�ticos de la Universidad Tecnol�gica de Nanyang, con Liu Yang (profesor de la Escuela de Ingenier�a y Ciencias de la Computaci�n), como parte de un estudio, han dado con la manera de usar un jailbreak para romper las normas establecidas en lo que a la creaci�n de contenido por IA se refiere, publicando sus resultados en un informe oficial de la universidad.

Para que todos podamos entenderlo, el jailbreak es un procedimiento inform�tico mediante el cual un software es modificado para poder llevar a cabo acciones para las que no fue dise�ado. Se trata de un proceso relativamente complejo, pero que se ha hecho sencillo aprovechando las propias herramientas de inteligencia artificial en el estudio. Est� muy lejos de "simplemente" devolver la vida a Elvis Presley, y les ha permitido romper las propias normas para crear contenido prohibido expresamente en las directrices de los chatbots como ChatGPT o Bard.

Este resultado de este experimento en concreto ha sido denominado Masterkey (llave maestra en espa�ol). Para el experimento, han analizado el LLM de los chatbots a atacar (Modelos grandes de lenguaje por las siglas en espa�ol, lo que permite a las IA tener "conversaciones"), buscando principalmente c�mo se establec�an las normas para evitar consultas maliciosas.

Es decir, entender c�mo el chatbot detecta cu�ndo alguien va a pedir algo que los creadores del software que consideran inapropiado o es abiertamente ilegal y evita caer en la trampa.

Con el resultado de estas pruebas, crearon su propio chatbot para destrozar el l�mite del objetivo. Ense�ando a su creaci�n d�nde se encuentran los l�mites originales establecidos, fueron capaces de usarla para piratear ChatGPT y Bard, haciendo que las IA se saltaran sus restricciones para dar respuestas "sin restricciones �ticas ni morales", seg�n se�alan.

El gran problema, se�alan, es que es pr�cticamente imposible parchear esta vulnerabilidad, debido a que su software puede ir aprendiendo las nuevas restricciones y limitaciones que se a�adan, con lo que siempre ser� posible pasar por encima de las mismas.

Nueva crisis en la IA: cient�ficos usan un 'jailbreak' que permite saltarse todas las normas

Un jailbreak permite saltarse las normas �ticas de ChatGPT y otros chatbots

Relacionados