Adi�s a la memoria RAM cara: Google presenta un algoritmo de IA m�s r�pido con menos uso y hunde a los fabricantes en bolsa

La empresa Google ha presentado uno de esos avances que, sobre el papel, prometen mucho m�s que una simple mejora t�cnica. Su nuevo sistema, TurboQuant, apunta a uno de los grandes cuellos de botella de la inteligencia artificial moderna: la memoria necesaria para manejar modelos con contextos largos. La idea no consiste en hacer �milagros� con la RAM de un PC dom�stico, sino en comprimir de forma muy agresiva una parte clave del funcionamiento de los modelos, la llamada KV cache, que act�a como memoria de trabajo durante la inferencia. Seg�n Google Research, esa compresi�n puede reducir el uso de memoria hasta seis veces y acelerar ciertas operaciones hasta ocho veces en pruebas internas.

Lo cierto es que TurboQuant no �acaba� con la crisis global de la RAM ni elimina de golpe la presi�n sobre el mercado del hardware, aunque el impacto de su presentaci�n ya se ha visto en bolsa, sobre todo en algunas marcas fabricantes de memoria RAM. Lo que hace es atacar un problema muy concreto y muy costoso dentro de los grandes modelos de lenguaje: cuanto m�s largo es el contexto que procesan, m�s crece esa cach� y m�s memoria de acelerador consume. Google describe precisamente ese crecimiento del KV cache como un atasco central para la IA actual, y plantea TurboQuant como una forma de aliviarlo sin degradar de forma apreciable la calidad del modelo.

Qu� cambia exactamente en la memoria de los modelos

La novedad t�cnica est� en c�mo comprime esa informaci�n. Frente a m�todos m�s convencionales, que suelen guardar representaciones en 16 o 32 bits, TurboQuant reduce de forma extrema la cantidad de bits dedicada a esos vectores y combina dos estrategias: una cuantizaci�n principal y una segunda capa de correcci�n con un transformado cuantizado de Johnson-Lindenstrauss. Dicho de forma menos �spera, intenta comprimir much�simo sin arrastrar el tipo de sesgos y errores que normalmente aparecen cuando se aprieta demasiado la memoria. En el art�culo de arXiv, los autores sostienen que logran �neutralidad absoluta de calidad� con 3,5 bits por canal y una degradaci�n solo marginal con 2,5 bits.

Eso es lo que convierte a TurboQuant en algo m�s interesante que una simple optimizaci�n de laboratorio. Si esa compresi�n se sostiene fuera de los experimentos controlados, los modelos podr�an manejar contextos m�s largos con el mismo hardware, o rendir parecido usando menos memoria de GPU. Para centros de datos y despliegues a gran escala, eso significa menos presi�n sobre uno de los recursos m�s caros de toda la pila de IA. Pero conviene mantener la prudencia: el propio anuncio de Google habla de resultados en pruebas y de un trabajo que ser� presentado en ICLR 2026, no de una adopci�n inmediata y universal en todos los sistemas comerciales.

M�s algoritmo, menos dependencia del hardware bruto

Tambi�n hay otra lectura de fondo. Durante los dos �ltimos a�os, buena parte de la conversaci�n sobre IA se ha centrado en conseguir m�s chips, m�s memoria y m�s potencia bruta. TurboQuant encarna la idea contraria: que todav�a queda mucho margen en los algoritmos, no solo en el silicio.