Lo que comenzó como un experimento académico terminó revelando que la inteligencia artificial no solo puede imitar estilos pasados, sino también reconstruir episodios históricos con sorprendente precisión. El protagonista de esta historia es Hayk Grigorian, estudiante de ciencias computacionales en el Muhlenberg College (Pensilvania), que decidió entrenar su propio modelo de lenguaje con textos británicos del siglo XIX.
La IA predijo el...pasado
Lo que no esperaba era que, al pedirle a la IA que escribiera a partir de la frase "Era el año de nuestro señor 1834", esta respondiera describiendo una protesta real ocurrida en Londres ese mismo año, citando incluso a Lord Palmerston, figura clave de la política británica victoriana, tal y como relata en Reddit.
Grigorian alimentó su sistema con unos 7.000 documentos publicados entre 1800 y 1875, entre ellos periódicos, panfletos y literatura de la época. Además, diseñó un tokenizador personalizado para eliminar cualquier vestigio de lenguaje moderno, con el objetivo de crear un modelo que hablara y razonara como lo haría un escritor victoriano. Para ello utilizó dos instancias de nanoGPT y una de Phi-1.5, una arquitectura desarrollada por Microsoft Research que ha sido destacada por su eficiencia en entornos educativos y experimentales.
La respuesta de la IA fue más allá de lo anecdótico. No solo imitó el tono y las formas del siglo XIX, sino que mencionó una serie de protestas vinculadas a la Ley de Pobres de 1834, una reforma legislativa que endureció las condiciones de acceso a ayudas para los sectores más desfavorecidos de la población británica. Al investigar la veracidad de esa referencia, Grigorian comprobó que, efectivamente, hubo manifestaciones en Londres contra esa ley, y que Palmerston, entonces secretario de Exteriores, desempeñó un papel político relevante en ese contexto.
Este hallazgo ha despertado el interés de la comunidad científica, porque sugiere que incluso modelos relativamente pequeños —el conjunto de datos de Grigorian apenas alcanzaba los 5 o 6 GB— pueden recomponer vínculos históricos reales a partir de patrones lingüísticos si están bien entrenados. En un artículo de seguimiento publicado por Ars Technica, expertos señalaron que este tipo de iniciativas se enmarcan en una nueva categoría de investigación denominada HLLM (Historical Large Language Models), que busca explorar cómo los modelos pueden ser utilizados para estudiar y recrear discursos del pasado.
Entre los ejemplos más conocidos se encuentran MonadGPT, un modelo entrenado con textos filosóficos y teológicos entre 1400 y 1700, y XunziALLM, especializado en poesía clásica china. En ambos casos, el objetivo no es solo imitar el estilo literario, sino preservar estructuras culturales y contextos históricos que a menudo se pierden en modelos generalistas modernos. El experimento de Grigorian añade una dimensión nueva: la posibilidad de que estos modelos, sin proponérselo, actúen como una especie de "arqueólogos digitales" capaces de rescatar acontecimientos olvidados o escasamente documentados.