X
  1. Vandal Random
  2. Noticias
  3. Nueva crisis en la IA: científicos usan un 'jailbreak' que permite saltarse todas las normas

Nueva crisis en la IA: científicos usan un 'jailbreak' que permite saltarse todas las normas

Un experimento ha permitido usar las propias herramientas de los chatbots para piratearlos y evitar las restricciones éticas y morales de los mismos.

Un nuevo problema se suma a los que ya tiene la inteligencia artificial. Si ya hay centros que monitorizan su uso en las aulas y su uso empresarial suele ser criticado, ahora un grupo de investigadores de Singapur ha dado con la manera de usar de manera ilícita chatbots como, por ejemplo ChatGPT.

Un jailbreak permite saltarse las normas éticas de ChatGPT y otros chatbots

El equipo de científicos informáticos de la Universidad Tecnológica de Nanyang, con Liu Yang (profesor de la Escuela de Ingeniería y Ciencias de la Computación), como parte de un estudio, han dado con la manera de usar un jailbreak para romper las normas establecidas en lo que a la creación de contenido por IA se refiere, publicando sus resultados en un informe oficial de la universidad.

Para que todos podamos entenderlo, el jailbreak es un procedimiento informático mediante el cual un software es modificado para poder llevar a cabo acciones para las que no fue diseñado. Se trata de un proceso relativamente complejo, pero que se ha hecho sencillo aprovechando las propias herramientas de inteligencia artificial en el estudio. Está muy lejos de "simplemente" devolver la vida a Elvis Presley, y les ha permitido romper las propias normas para crear contenido prohibido expresamente en las directrices de los chatbots como ChatGPT o Bard.

Este resultado de este experimento en concreto ha sido denominado Masterkey (llave maestra en español). Para el experimento, han analizado el LLM de los chatbots a atacar (Modelos grandes de lenguaje por las siglas en español, lo que permite a las IA tener "conversaciones"), buscando principalmente cómo se establecían las normas para evitar consultas maliciosas.

Es decir, entender cómo el chatbot detecta cuándo alguien va a pedir algo que los creadores del software que consideran inapropiado o es abiertamente ilegal y evita caer en la trampa.

Con el resultado de estas pruebas, crearon su propio chatbot para destrozar el límite del objetivo. Enseñando a su creación dónde se encuentran los límites originales establecidos, fueron capaces de usarla para piratear ChatGPT y Bard, haciendo que las IA se saltaran sus restricciones para dar respuestas "sin restricciones éticas ni morales", según señalan.

El gran problema, señalan, es que es prácticamente imposible parchear esta vulnerabilidad, debido a que su software puede ir aprendiendo las nuevas restricciones y limitaciones que se añadan, con lo que siempre será posible pasar por encima de las mismas.

Redactor de guías