ChatGPT es sin duda la IA más usada en todo el mundo para diversas tareas. Desde mayo es posible descargar una versión gratuita, pero existe una versión para usuarios de pago que, actualmente, es ChatGPT-4. El problema que se están encontrando los usuarios es que, de acuerdo a un estudio de Stanford y UC Berkeley sobre su rendimiento, ChatGPT-4 funciona peor que ChatGPT-3.5. ¿Nos acercamos al apocalipsis por culpa de una IA que algunos vaticinan? Parece que por ahora no, pero la tecnología empieza a presentar problemas.
We evaluated #ChatGPT's behavior over time and found substantial diffs in its responses to the *same questions* between the June version of GPT4 and GPT3.5 and the March versions. The newer versions got worse on some tasks. w/ Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6
— James Zou (@james_y_zou) July 19, 2023
¿En qué está fallando ChatGPT-4?
De acuerdo a los resultados de la investigación (aceptada por arXiv, principal archivo online por el que se pasa antes de publicar oficialmente artículos sobre física y matemáticas. Es decir, si te aceptan aquí, es que tus resultados son, en principio, legítimos), la versión de marzo ofrecía mejores resultados. La actual versión ha llegado al extremo de que, en ciertos tipos de problemas matemáticos, ChatGPT-4 sólo tiene una fiabilidad del 2,4%.
De la misma manera, no son pocos los usuarios de Reddit explican que la IA falla al reestructurar textos, llegando a inventarse totalmente lo que se explica. Sin duda es una buena noticia para los docentes preocupados por los plagios, pero para los que buscan hacer un uso legítimo de la herramienta es un inconveniente bastante notable.
Finalmente, el tercer punto importante donde falla la nueva versión es en la creación de código de programación. Introduciendo respuestas de código de ChatGPT-3.5 (marzo) y ChatGPT-4, los resultados son un 40% menos de código ejecutable (un 50% en marzo, un 10% en la actualidad).
¿Hay cosas que funcionen mejor en ChatGPT-4?
Sí, por supuesto. La IA actualizada ya no responde tanto a preguntas capciosas que buscan obtener una respuesta concreta de manera malintencionada (antes respondía un 21% de las veces, ahora un 5%) y se enfrenta mejor a ataques de jailbreak. Lógicamente habrá otros campos en los que haya mejorado, pero debido al hermetismo de OpenAI, es más fácil ver en qué puntos habituales falla que dónde ha mejorado de manera notable.
¿Por qué está fallando ChatGPT-4?
La repuesta es complicada, principalmente por el secretismo que lógicamente la empresa usa para envolver su tecnología. Ni siquiera el estudio llega a una conclusión sobre los motivos, más allá de que la personalización de respuestas y cambios menores pueden tener mucho efecto en una tecnología que, después de todo, está diseñada para ir aprendiendo cosas por su cuenta y adaptarse a los usuarios.
Hay que recordar que la IA se considera la tecnología más peligrosa jamás creada desde la bomba atómica, afectando a todos los niveles de la sociedad. Incluso el gremio de actores está preocupado por su impacto, como demuestra el hecho de que un uso ético de la misma figura entre las exigencias de las huelgas de actores y guoinistas actualmente activas. Estamos a las puertas de lo que puede ser el mayor avance en la historia de la humanidad... o el fin de la misma.