Usuarios sin permiso accedieron a Claude Mythos, el modelo de IA que Anthropic se negó a lanzar al público
Los usuarios lograron superar los controles de seguridad de Anthropic gracias a sus credenciales como contratistas de la compañía
Anthropic informó que se encuentra investigando el acceso no autorizado a su modelo de Inteligencia Artificial Crédito: Patrick Sison | AP
Un grupo de usuarios sin autorización logró acceder a Claude Mythos, el modelo de IA más poderoso de Anthropic que la compañía decidió no lanzar al público por considerarlo demasiado peligroso. La filtración dejó al descubierto serias dudas sobre los controles de seguridad internos de la empresa.
Qué es Claude Mythos y por qué Anthropic lo mantiene en secreto
Claude Mythos no es un modelo de IA cualquiera. Anthropic lo describe como un sistema con capacidades de ciberseguridad tan avanzadas que representa un riesgo real para la infraestructura digital global. La razón del veto al público general es contundente: el modelo no solo detecta vulnerabilidades críticas en sistemas que llevan décadas siendo auditadas por expertos humanos y herramientas automatizadas, sino que también las explota activamente, construyendo cadenas de ataque complejas que encadenan múltiples fallos para escalar privilegios y obtener acceso root sin autenticación.
Según el propio equipo de seguridad de Anthropic, Mythos podría comprometer los sistemas que sustentan la mayor parte de la computación contemporánea. Una afirmación que no es menor. El Secretario del Tesoro de Estados Unidos, Scott Bessent, llegó a reunir a líderes de Wall Street para advertirles sobre el potencial del modelo de inaugurar una nueva era de ciberataques lanzados de forma autónoma. No es para menos.
Por eso, Anthropic tomó la decisión de desplegar Claude Mythos Preview únicamente a un selecto grupo de socios estratégicos: Amazon, Apple, Google, Microsoft, Nvidia, CrowdStrike, JPMorgan Chase, Cisco, Broadcom, Palo Alto Networks y la Linux Foundation. El objetivo es que estas organizaciones usen el modelo para identificar y parchear vulnerabilidades antes de que actores maliciosos puedan explotarlas.
Cómo lograron acceder sin permiso
Aquí es donde el asunto se pone interesante, y bastante preocupante. Según reveló Bloomberg, un pequeño grupo de usuarios en un foro privado de Discord dedicado a rastrear modelos de IA inéditos logró infiltrarse en el sistema de Claude Mythos Preview. Para respaldar sus afirmaciones, los involucrados compartieron capturas de pantalla y un video mostrando supuestamente cómo lo hicieron.
El método que usaron no fue un hackeo sofisticado desde afuera. Los usuarios aprovecharon los permisos que uno de los participantes tenía como empleado de una empresa contratista de Anthropic, según reportó Bloomberg citando documentación interna y una fuente familiarizada con el asunto. Dicho de otra forma: alguien con acceso legítimo al entorno de proveedores externos de la compañía lo usó para que personas no autorizadas pudieran interactuar con el modelo.
“Estamos investigando una denuncia que alega un acceso no autorizado a Claude Mythos Preview a través de uno de los entornos de nuestros proveedores externos”, anunció la compañía en un comunicado.
La empresa aclaró que no tiene evidencias de que sus sistemas principales se hayan visto comprometidos y que la actividad no se extendió más allá del entorno de ese proveedor.
Los propios implicados minimizaron sus intenciones. Según declaró una fuente a Bloomberg, “su intención es experimentar con él, no causar daños”. Sin embargo, más allá de las intenciones, el simple hecho de que personas no autorizadas hayan podido acceder a uno de los modelos de IA más sensibles del mundo es una señal de alarma enorme.
Por qué este incidente importa más allá de Anthropic
Este caso no es solo un problema interno de Anthropic. Es un reflejo de uno de los retos más complejos del sector de la IA en este momento: cómo controlar el acceso a modelos que son demasiado peligrosos para el público general pero que igualmente necesitan ser probados y evaluados por terceros.
La ironía es brutal. Anthropic creó a Mythos precisamente para encontrar y cerrar brechas de seguridad en infraestructura crítica. Y el primer incidente de seguridad significativo relacionado con el modelo vino por una falla humana en el manejo de permisos de acceso. No fue un exploit técnico sofisticado ni un ataque de estado-nación. Fue, básicamente, alguien usando credenciales a las que tenía acceso legítimo para un propósito no autorizado.
El incidente también pone en evidencia los riesgos de trabajar con redes de contratistas y proveedores externos cuando se manejan activos digitales de alto valor. Anthropic admite que trabaja con un número reducido de proveedores que ayudan en el desarrollo del modelo. Cada eslabón en esa cadena es un vector de riesgo potencial.
Desde el punto de vista regulatorio, la situación complica aún más el panorama. Se sabe que incluso la Agencia de Ciberseguridad e Infraestructura de EE.UU. (CISA) no tiene acceso a Claude Mythos, lo que subraya lo restringido que se supone debería ser. Mientras tanto, bancos alemanes y reguladores financieros ya iniciaron evaluaciones formales del riesgo que representa el modelo.
Sigue leyendo:
• Anthropic presenta Mythos, un modelo de IA “demasiado peligroso para el público”
• Las Skills de Claude: la función que cambia completamente cómo usas la IA
• OpenAI lanza GPT-5.4-Cyber para reforzar la ciberdefensa y retar a Claude Mythos