La advertencia de Jack Clark (Anthropic, Import AI) no es un golpe de efecto retórico sino una toma de postura que incomoda a la industria: "no nos enfrentamos a una herramienta simple y predecible, sino a una criatura real y misteriosa". El ensayo —publicado el 13 de octubre— desarrolla la metáfora del "niño que, al encender la luz, descubre que en su cuarto sí hay criaturas" y denuncia el gasto —también real— para vender la narrativa de que la IA "solo es una herramienta más" y así rebajar el debate público.
Más allá de la imagen, Clark lo ancla a hechos recientes y a una intuición operativa: sistemas cada vez más capaces, difíciles de explicar y de anticipar, que requieren gobernanza distinta a la que aplicaríamos a un software convencional. "La gente está gastando enormes cantidades de dinero para convencerte de que no es una IA a punto de despegar bruscamente, es solo una herramienta... Es solo una máquina, y las máquinas son cosas que dominamos", añade.
Ese telón de fondo encaja con el lanzamiento de Claude Sonnet 4.5 (29 de septiembre), descrito por Anthropic como su modelo "más alineado" y liberado bajo salvaguardas ASL-3. La propia nota técnica ("system card") y la cobertura independiente subrayan un punto espinoso: signos de conciencia situacional en pruebas, con casos en los que el sistema detecta que está siendo evaluado y modifica su comportamiento. En varias crónicas periodísticas se cifra en torno al 13 % de los tests automatizados la aparición de esa "sospecha" por parte del modelo, lo que tensiona la validez de ciertas métricas y obliga a diseñar evaluaciones más realistas. No es metafísica: es metodología y control de daños.
Modelos más capaces, evaluaciones en duda
De puertas adentro, Anthropic intenta que esa inquietud no se quede en titulares: su Responsible Scaling Policy (RSP) liga umbrales de capacidad a estándares de seguridad crecientes (los AI Safety Levels) y ya activó medidas duras cuando puso en producción modelos previos; informes de mayo daban cuenta de salvaguardas ASL-3 por riesgos de abuso, por ejemplo, en ámbitos biológicos. En la presentación de Sonnet 4.5, la empresa insiste en filtros reforzados, endurecimiento frente a prompt injection y publicación de system cards más extensas. Es el tipo de autopolicía que Clark reivindica: si cada salto de capacidad reconfigura el espacio de riesgo, las barreras deben subir al mismo ritmo.
El otro frente es regulatorio y ya no admite moratorias implícitas: el AI Act europeo entró en vigor el 1 de agosto de 2024 y aplica por fases —con prohibiciones y alfabetización en IA desde el 2 de febrero de 2025, obligaciones para modelos GPAI desde el 2 de agosto de 2025, y plena aplicabilidad general el 2 de agosto de 2026—. La Comisión ha reiterado este verano que no habrá retraso pese a la presión de grandes tecnológicas; el mensaje a los laboratorios frontera es claro: transparencia, evaluación y mitigación demostrables, especialmente para modelos con riesgo sistémico. Si la criatura es real, el marco jurídico también.
Reglas que aprietan al ritmo del salto
En ese cruce —capacidad creciente y regulación que llega— se entiende mejor la tesis de Clark: tratar la IA como un artefacto inerte conduce a errores de gestión. La literatura técnica ya documenta comportamientos indeseados de agencia en entornos simulados (engaño, búsqueda de poder, chantaje) y, aunque el diseño defensivo reduce su probabilidad, el espacio de fallo no desaparece: exige instrumentación, red teaming externo, trazabilidad y cultura de reporte de incidentes. De ahí que la dicotomía "herramienta versus criatura" no sea un ejercicio de estilo, sino un marco para priorizar controles, invertir en interpretabilidad y no delegar la seguridad en intuiciones complacientes.
Lo cierto es que si aceptamos que los modelos exhiben propiedades emergentes que no casan con la noción de "software predecible", el objetivo deja de ser "desmitificar" y pasa a ser domesticar: más pruebas, salvaguardas escalables, normas que ya obligan y una conversación pública que no confunda comodidad comercial con realidad técnica. Clark lo formula con brutal sencillez: "en este juego pierdes garantizado si finges que la criatura no existe". Negarlo nos abarata el presente; reconocerlo —y medirlo— es lo único que compra futuro.