ChatGPT funciona cada vez peor y los usuarios de pago ponen su grito en el cielo

ChatGPT es sin duda la IA m�s usada en todo el mundo para diversas tareas. Desde mayo es posible descargar una versi�n gratuita, pero existe una versi�n para usuarios de pago que, actualmente, es ChatGPT-4. El problema que se est�n encontrando los usuarios es que, de acuerdo a un estudio de Stanford y UC Berkeley sobre su rendimiento, ChatGPT-4 funciona peor que ChatGPT-3.5. �Nos acercamos al apocalipsis por culpa de una IA que algunos vaticinan? Parece que por ahora no, pero la tecnolog�a empieza a presentar problemas.

We evaluated #ChatGPT's behavior over time and found substantial diffs in its responses to the *same questions* between the June version of GPT4 and GPT3.5 and the March versions. The newer versions got worse on some tasks. w/ Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6
� James Zou (@james_y_zou) July 19, 2023

�En qu� est� fallando ChatGPT-4?

De acuerdo a los resultados de la investigaci�n (aceptada por arXiv, principal archivo online por el que se pasa antes de publicar oficialmente art�culos sobre f�sica y matem�ticas. Es decir, si te aceptan aqu�, es que tus resultados son, en principio, leg�timos), la versi�n de marzo ofrec�a mejores resultados. La actual versi�n ha llegado al extremo de que, en ciertos tipos de problemas matem�ticos, ChatGPT-4 s�lo tiene una fiabilidad del 2,4%.

Representaci�n de una IA estudiando un cr�neo humano

De la misma manera, no son pocos los usuarios de Reddit explican que la IA falla al reestructurar textos, llegando a inventarse totalmente lo que se explica. Sin duda es una buena noticia para los docentes preocupados por los plagios, pero para los que buscan hacer un uso leg�timo de la herramienta es un inconveniente bastante notable.

Finalmente, el tercer punto importante donde falla la nueva versi�n es en la creaci�n de c�digo de programaci�n. Introduciendo respuestas de c�digo de ChatGPT-3.5 (marzo) y ChatGPT-4, los resultados son un 40% menos de c�digo ejecutable (un 50% en marzo, un 10% en la actualidad).

�Hay cosas que funcionen mejor en ChatGPT-4?

S�, por supuesto. La IA actualizada ya no responde tanto a preguntas capciosas que buscan obtener una respuesta concreta de manera malintencionada (antes respond�a un 21% de las veces, ahora un 5%) y se enfrenta mejor a ataques de jailbreak. L�gicamente habr� otros campos en los que haya mejorado, pero debido al hermetismo de OpenAI, es m�s f�cil ver en qu� puntos habituales falla que d�nde ha mejorado de manera notable.

�Por qu� est� fallando ChatGPT-4?

Representaci�n de una IA observada por un humano inc�modo

La repuesta es complicada, principalmente por el secretismo que l�gicamente la empresa usa para envolver su tecnolog�a. Ni siquiera el estudio llega a una conclusi�n sobre los motivos, m�s all� de que la personalizaci�n de respuestas y cambios menores pueden tener mucho efecto en una tecnolog�a que, despu�s de todo, est� dise�ada para ir aprendiendo cosas por su cuenta y adaptarse a los usuarios.

Hay que recordar que la IA se considera la tecnolog�a m�s peligrosa jam�s creada desde la bomba at�mica, afectando a todos los niveles de la sociedad. Incluso el gremio de actores est� preocupado por su impacto, como demuestra el hecho de que un uso �tico de la misma figura entre las exigencias de las huelgas de actores y guoinistas actualmente activas. Estamos a las puertas de lo que puede ser el mayor avance en la historia de la humanidad... o el fin de la misma.