La idea suena a provocación: ejecutar un modelo de IA en un PC "de museo" y demostrar que, en condiciones muy concretas, 128 MB de RAM pueden bastar. Eso es lo que ha enseñado Universidad de Oxford a través de EXO Labs: un Pentium II a 350 MHz con Windows 98 moviendo un modelo diminuto sin desmoronarse. El vídeo y la explicación técnica apuntan a una tesis clara: la "IA" no es un bloque único; depende muchísimo del tamaño del modelo, de cómo se implementa la inferencia y de qué se le pide que haga.
El truco está en la escala. El experimento no pone a correr un chatbot moderno de miles de millones de parámetros, sino una versión con unos 260.000 parámetros, que en esas condiciones llega a ~39 tokens por segundo. Esa cifra es llamativa en un equipo así, pero también es una pista de lo que realmente se está midiendo: un motor muy optimizado, tareas simples y un modelo que cabe "apretado" en memoria. En textos divulgativos que han seguido el proyecto se menciona incluso que, al subir a decenas de millones de parámetros, la velocidad cae a alrededor de 1 token por segundo, es decir: funciona, pero ya no "vuela".
Lo que mide (y lo que no)
Conviene traducirlo a castellano llano: que algo arranque con 128 MB no significa que esa sea la "RAM para usar IA" en general, sino la RAM suficiente para una IA muy pequeña y con objetivos acotados. En un modelo de lenguaje, la memoria no solo guarda pesos: también hay buffers, vocabulario, contexto (la "memoria" del diálogo), y el propio sistema operativo. Por eso el mérito aquí es doble: por un lado, elegir un modelo minúsculo; por otro, recortar dependencias y escribir un camino de ejecución austero (puro C, sin capas).
Este tipo de demos conectan con una línea de investigación de años: hacer modelos más baratos de almacenar y de ejecutar mediante compresión, poda y cuantización. Un clásico muy citado, Deep Compression, describía cómo combinar poda + cuantización + codificación para recortar el tamaño de redes profundas de forma drástica sin perder precisión en tareas concretas. Y en el mundo de los modelos de lenguaje, los trabajos sobre inferencia con menos bits (por ejemplo 4-bit) discuten justo ese intercambio entre huella de memoria, velocidad y degradación de calidad. El mensaje de fondo: muchas veces el cuello de botella no es "falta de IA", sino cómo empaquetas la IA para el hardware real.
Por qué se ha viralizado
La comparación con el presente ayuda a entender por qué esto se ha viralizado. Mientras Nvidia vende aceleradores como el Blackwell B200 con precios que se han citado en el rango de 30.000–40.000 dólares, el experimento de EXO apunta a otra dirección: IA "suficiente" para determinados usos, cerca del usuario, y sin depender de un centro de datos. Es la misma conversación —a otra escala— que alimenta el auge de la inferencia en el borde (edge), donde el objetivo no es batir récords, sino abaratar y descentralizar.
Para educación, pruebas, jugueteo técnico, o tareas ultracerradas (texto muy guiado, dominios pequeños), estos modelos son interesantes. Para razonamiento complejo, generación larga con coherencia, o tareas multimodales, la realidad sigue siendo la misma: mandan los parámetros, el ancho de banda de memoria y la potencia.