1. Vandal Random
  2. Noticias
  3. Nueva crisis en la IA: científicos usan un 'jailbreak' que permite saltarse todas las normas

Nueva crisis en la IA: científicos usan un 'jailbreak' que permite saltarse todas las normas

Un experimento ha permitido usar las propias herramientas de los chatbots para piratearlos y evitar las restricciones éticas y morales de los mismos.
Nueva crisis en la IA: científicos usan un 'jailbreak' que permite saltarse todas las normas

Un nuevo problema se suma a los que ya tiene la inteligencia artificial. Si ya hay centros que monitorizan su uso en las aulas y su uso empresarial suele ser criticado, ahora un grupo de investigadores de Singapur ha dado con la manera de usar de manera ilícita chatbots como, por ejemplo ChatGPT.

Un jailbreak permite saltarse las normas éticas de ChatGPT y otros chatbots

Composición digital con la representación artística de un pirata informático con el logo de ChatGPT en lugar de rostro

El equipo de científicos informáticos de la Universidad Tecnológica de Nanyang, con Liu Yang (profesor de la Escuela de Ingeniería y Ciencias de la Computación), como parte de un estudio, han dado con la manera de usar un jailbreak para romper las normas establecidas en lo que a la creación de contenido por IA se refiere, publicando sus resultados en un informe oficial de la universidad.

Para que todos podamos entenderlo, el jailbreak es un procedimiento informático mediante el cual un software es modificado para poder llevar a cabo acciones para las que no fue diseñado. Se trata de un proceso relativamente complejo, pero que se ha hecho sencillo aprovechando las propias herramientas de inteligencia artificial en el estudio. Está muy lejos de "simplemente" devolver la vida a Elvis Presley, y les ha permitido romper las propias normas para crear contenido prohibido expresamente en las directrices de los chatbots como ChatGPT o Bard.

Imagen promocional de ChatGPT

Este resultado de este experimento en concreto ha sido denominado Masterkey (llave maestra en español). Para el experimento, han analizado el LLM de los chatbots a atacar (Modelos grandes de lenguaje por las siglas en español, lo que permite a las IA tener "conversaciones"), buscando principalmente cómo se establecían las normas para evitar consultas maliciosas.

PUBLICIDAD

Es decir, entender cómo el chatbot detecta cuándo alguien va a pedir algo que los creadores del software que consideran inapropiado o es abiertamente ilegal y evita caer en la trampa.

Con el resultado de estas pruebas, crearon su propio chatbot para destrozar el límite del objetivo. Enseñando a su creación dónde se encuentran los límites originales establecidos, fueron capaces de usarla para piratear ChatGPT y Bard, haciendo que las IA se saltaran sus restricciones para dar respuestas "sin restricciones éticas ni morales", según señalan.

El gran problema, señalan, es que es prácticamente imposible parchear esta vulnerabilidad, debido a que su software puede ir aprendiendo las nuevas restricciones y limitaciones que se añadan, con lo que siempre será posible pasar por encima de las mismas.

César Rebolledo
Redactor de guías
Comentarios: 0

En forosComentar en nuestros foros

Más sobre Tecnología

RANDOM
Flecha subir