La BBC y la Unión Europea de Radiodifusión acaban de publicar el estudio más grande jamás hecho sobre cómo responden los chatbots de inteligencia artificial cuando la gente les pregunta sobre noticias. Los resultados son tremendos porque Gemini de Google, ChatGPT de OpenAI y Copilot de Microsoft se equivocan o mienten directamente en el 45 por ciento de las respuestas. El trabajo involucró a 22 emisoras públicas de 18 países diferentes que hicieron miles de preguntas a estos sistemas durante varios meses. Lo que descubrieron es que las máquinas inventan citas, confunden fechas y mezclan información real con datos completamente falsos antes de presentarlo todo como si fuera una verdad absoluta.
La investigación funcionó de esta forma porque los periodistas de cada país prepararon listas de noticias verificadas y luego preguntaron a los tres chatbots sobre esos mismos temas. Después compararon las respuestas con las noticias correctas. El equipo descubrió que los chatbots fallan más cuando responden preguntas sobre política, economía o temas sociales complejos. También comprobaron que ninguno de los tres sistemas avisa al usuario cuando no está seguro de una respuesta, sino que simplemente inventan datos y los presentan con la misma confianza que si fueran ciertos.
Las diferencias entre los tres chatbots sorprendieron a los investigadores. ChatGPT inventó fuentes inexistentes en el 52 por ciento de los casos, Gemini mezcló eventos diferentes en el 48 por ciento y Copilot cambió fechas importantes en el 41 por ciento. Los tres sistemas compartieron un problema común al presentar la información falsa con el mismo tono autoritario que usan para datos correctos, lo que hace casi imposible distinguir la verdad de la mentira sin verificar cada respuesta manualmente.
Los chatbots confunden fechas y mezclan titulares reales con información falsa
Un ejemplo concreto del estudio muestra cómo funcionan estos errores. Cuando los periodistas preguntaron sobre elecciones recientes en Europa, ChatGPT citó declaraciones que los políticos nunca hicieron, Gemini mezcló resultados de votaciones de diferentes países y Copilot cambió la fecha de los comicios de mes. En otro caso, las tres máquinas inventaron titulares de periódicos que nunca existieron cuando respondieron preguntas sobre cambios económicos importantes.
La conclusión del estudio es clara y preocupante. Los jefes de las 22 emisoras públicas firmaron un comunicado conjunto explicando que estos chatbots representan un riesgo directo para la democracia cuando millones de personas los usan como fuente principal de información. Los investigadores recomiendan que los usuarios comprueben siempre cualquier información importante consultando fuentes oficiales antes de creer lo que dice un chatbot.














