El hacker enviado por Anthropic para calmar los nervios del Gobierno sobre la seguridad de la IA

Funcionarios de la administraci�n Trump han pasado los �ltimos d�as inquietos por el potencial del software de IA de pr�xima generaci�n de Anthropic para causar estragos en la ciberseguridad global. Para un grupo de 700 investigadores de ciberseguridad, ese sorprendente descubrimiento lleg� en marzo.Fue entonces cuando el investigador de Anthropic Nicholas Carlini demostr� lo f�cil que se hab�a vuelto utilizar los nuevos modelos para irrumpir en sistemas. Este larguirucho hombre de 35 a�os es un hacker muy respetado, considerado el "esc�ptico profesional" del sector respecto a las afirmaciones sobre ciberseguridad de la IA. Pero �ltimamente hab�a cambiado de opini�n.A inicios de ese mes, apenas unas semanas despu�s de tener en sus manos Mythos, Carlini lanz� una dura advertencia a un auditorio abarrotado de expertos en ciberseguridad, en el ornamentado edificio beaux-arts que en su d�a alberg� el Hibernia Bank de San Francisco. Primero les mostr� c�mo hab�a utilizado la IA de Anthropic para encontrar y explotar un fallo cr�tico en un software de publicaci�n web llamado Ghost. Luego demostr� otro en el sistema operativo Linux, una de las piezas de software m�s probadas que hace funcionar miles de millones de dispositivos.Carlini nunca hab�a encontrado un fallo en Linux ni en Ghost y ahora hab�a descubierto muchos. Lo que estaba viendo representaba un nuevo orden mundial para la ciberseguridad. El equilibrio que existi� entre atacantes y defensores durante las �ltimas dos d�cadas "parece que probablemente est� llegando a su fin", afirm�. "Para m� est� bastante claro que estos modelos actuales son mejores investigadores de vulnerabilidades que yo".Dos d�as despu�s de su presentaci�n, envi� una nota a sus colegas de Anthropic: "No creo que debamos lanzar Mythos todav�a", escribi�.As� comenz� el Bugmageddon: la toma de conciencia, entre profesionales de la seguridad y una comunidad de hackers como Carlini, de que encontrar fallos y escribir software para explotarlos se ha vuelto peligrosamente f�cil gracias a la IA.La semana pasada, Anthropic lanz� una actualizaci�n de Mythos, llamada Mythos 5, y un producto llamado Fable 5, una versi�n de Mythos limitada bajo medidas de seguridad. Ahora era el turno de la Casa Blanca de dar la voz de alarma. El viernes, la Administraci�n prohibi� a gobiernos extranjeros, empresas e individuos el uso de Fable 5 y Mythos 5. Anthropic cort� el acceso a todo el mundo para cumplir con la normativa.De repente, Carlini -el esc�ptico convertido en creyente que hab�a hecho saltar las alarmas- se vio trabajando para calmar los nervios del Gobierno. Anthropic lo envi� a la capital del pa�s para explicar las medidas de protecci�n, como parte de un equipo que intentaba convencer a la Casa Blanca de que, aunque no existiera la seguridad garantizada en la IA, era mejor para el mundo publicar Fable que mantenerlo en secreto.Los giros y cambios en la propia vida de Carlini durante los �ltimos meses reflejan el caos y la incertidumbre que la r�pida evoluci�n de la IA ha tra�do al mundo de la ciberseguridad.El episodio tambi�n intensifica una disputa de meses entre el Gobierno y Anthropic. El director ejecutivo, Dario Amodei, y el secretario de Defensa, Pete Hegseth, chocaron a principios de este a�o por los intentos de la empresa de controlar el uso de sus productos por parte del ej�rcito, lo que empuj� al Pent�gono a dejar de usar sus modelos y desencaden� m�ltiples demandas. Ambas partes ya hab�an chocado antes por sus diferentes enfoques sobre la pol�tica de IA, la decisi�n del gobierno de exportar chips de IA a China y los v�nculos de Anthropic con organizaciones sin �nimo de lucro que son grandes donantes de causas progresistas.En los �ltimos d�as, funcionarios del Gobierno y ejecutivos y l�deres t�cnicos de Anthropic, incluido Carlini, han mantenido horas de reuniones y llamadas para discutir una posible soluci�n. Algunos funcionarios de la administraci�n han dicho que una resoluci�n deber�a incluir un reconocimiento por parte de Anthropic de que su despliegue de Fable y su comunicaci�n con la Casa Blanca podr�an haber sido mejores, seg�n personas familiarizadas con las conversaciones. Altos ejecutivos de Anthropic y funcionarios del Gobierno han estado negociando durante meses sobre la ampliaci�n del acceso a Mythos.El gobierno se preocup� al conocer un informe de Amazon que conclu�a que los usuarios pod�an introducir indicaciones para encontrar vulnerabilidades de ciberseguridad que el modelo no deber�a haber revelado. Anthropic afirma que los fallos que Fable encontr� eran menores y que podr�an haberse descubierto usando otros modelos disponibles p�blicamente."Claramente, el Gobierno y Anthropic tienen una incapacidad para comunicarse eficazmente entre s�", afirm� Michael Horowitz, miembro senior de tecnolog�a e innovaci�n en el Consejo de Relaciones Exteriores y exfuncionario del Departamento de Defensa. "M�s intercambios t�cnicos deber�an ser �tiles para socializar estos problemas de una manera que conduzca a mejores decisiones".En medio se encuentran otras empresas y consumidores que intentan descifrar c�mo les afectar� la tecnolog�a. Amplias zonas de la econom�a estadounidense funcionan con productos de software poco conocidos, muchos de los que nunca han sido sometidos a las pruebas y al escrutinio que Mythos y modelos similares permiten realizar con tanta facilidad. A los bancos les preocupa que pueda exponer vulnerabilidades en el software que mantiene operativo el sistema financiero. Las empresas se preguntan c�mo van a probar e instalar la enorme cantidad de parches que se est�n publicando ahora, antes de que los hackers los aprovechen. Mythos ya ha encontrado m�s de 10.000 fallos.Lo que es peor, temen que Mythos sea demasiado bueno creando c�digo de "explotaci�n", el software que aprovecha los fallos para realizar acciones maliciosas. Mythos es "el primer modelo que puede encontrar y explotar vulnerabilidades a gran escala", escribi� Carlini en su memorando de marzo abogando por una ralentizaci�n. Nicholas Carlini.Helynn Ospina para el WSJProfesional esc�pticoLos esfuerzos de la administraci�n por controlar la tecnolog�a de Anthropic se vieron impulsados por un informe de Amazon que conclu�a que Fable pod�a ser inducido a encontrar fallos. Solo unos d�as despu�s de su lanzamiento, el director ejecutivo de Amazon, Andy Jassy, llam� a funcionarios -incluido el secretario del Tesoro, Scott Bessent- para compartir que sus investigadores hab�an encontrado formas de eludir las medidas de seguridad de Fable, seg�n personas familiarizadas con el asunto. Los funcionarios de la administraci�n se alarmaron m�s a medida que se produc�an las conversaciones con expertos en seguridad gubernamentales el viernes.A medida que los investigadores de seguridad independientes analizaron el informe la semana pasada, determinaron que Amazon no hab�a logrado lo que m�s tem�an: hacer un jailbreak completo del modelo y usarlo para escribir el c�digo necesario para un ciberataque.La decisi�n de Anthropic de enviar r�pidamente a Carlini y a otros expertos en seguridad a Washington se produjo tras la frustraci�n inicial del viernes entre algunos funcionarios gubernamentales cuando no pudieron localizar inmediatamente a Amodei por tel�fono, dijeron las fuentes. Desde entonces, el director ejecutivo y otros altos cargos han mantenido horas de conversaciones. Una fuente cercana a Anthropic dijo que la empresa se puso en contacto con la Casa Blanca en 15 minutos y que Amodei estaba al tel�fono una hora despu�s de la llamada del gobierno.La inform�tica le corre por las venas a Carlini. Su padre era programador y su madre tambi�n trabajaba en la industria tecnol�gica. Creci� en Silicon Valley programando ordenadores y estaba obsesionado con la criptograf�a. Un trabajo que escribi� en el instituto se titulaba: "Criptoan�lisis diferencial de redes de sustituci�n simples". En la Universidad de California, Berkeley, public� art�culos junto a un profesor de inform�tica, David Wagner, en los que mostraban diversas formas en que los sistemas de inteligencia artificial pod�an ser mal utilizados. Enga�aron a sistemas de reconocimiento de im�genes para que confundieran fotograf�as de gatos con guacamole, y encontraron nuevas formas de incrustar comandos inaudibles de Alexa en fragmentos de cinco segundos de m�sica cl�sica."Hizo muchos de los primeros trabajos sobre la seguridad del machine learning, demostrando que es muy dif�cil hacer que sea seguro", dijo Wagner. Pero aunque el trabajo de Carlini hab�a desmontado muchas afirmaciones de los desarrolladores de IA, �l se hab�a centrado en la amenaza de que gente malintencionada enga�ara a los sistemas de inteligencia artificial para que cometieran errores, no en que los hackers los aprovecharan como si fueran superpoderes.En 2019, mientras trabajaba en Google, Carlini pens� que OpenAI estaba siendo "irrazonable" cuando sugiri� que la �ltima versi�n de su software, GPT-2, podr�a ser demasiado peligrosa para ser lanzada."�l era el esc�ptico profesional del sector", dijo Dan Guido, director ejecutivo de Trail of Bits, una empresa de ciberseguridad que ayud� a Anthropic a procesar los cientos de fallos que estaba encontrando. Ahora, el Gobierno est� inmerso en su propia evoluci�n sobre el asunto.Cuando Anthropic dio la alarma sobre el poder de Mythos, el asesor de IA de la Casa Blanca y capitalista de riesgo, David Sacks, public� en las redes sociales que era "dif�cil ignorar que Anthropic tiene un historial de t�cticas de miedo". En un principio, la administraci�n Trump adopt� un enfoque permisivo y aceleracionista a la hora de regular los laboratorios de IA de Estados Unidos, en nombre de superar a China.Sin embargo, a medida que el impacto de modelos como Mythos ha ido cobrando protagonismo y la opini�n p�blica se ha vuelto en contra de la IA, el Gobierno ha endurecido su control sobre el sector. A principios de junio, el presidente Trump firm� una orden ejecutiva solicitando a las empresas de IA que den acceso al gobierno a los modelos 30 d�as antes de su lanzamiento p�blico, y otorgando a los funcionarios de seguridad nacional y ciberseguridad un papel m�s relevante en la evaluaci�n de modelos y el intercambio de amenazas con el sector privado. Tras la llamada de Jassy, funcionarios como el Director Cibern�tico Nacional, Sean Cairncross, dieron a Amodei y a otros l�deres de Anthropic un ultim�tum: trabajar con el gobierno y retirar los �ltimos modelos de la compa��a ese mismo d�a o enfrentarse a una prohibici�n para usuarios extranjeros. Dijeron a Anthropic que ten�a 90 minutos para retirar el modelo y no proporcionaron detalles sobre el riesgo de seguridad, seg�n la fuente cercana a la empresa.Una decisi�n precipitada de cerrar el modelo no resultaba atractiva para Amodei, que ha guiado a su empresa de cinco a�os hasta una valoraci�n de casi un bill�n de d�lares y dispon�a de pocos detalles sobre el problema de seguridad. Esa tarde, Trump pidi� al Secretario de Comercio, Howard Lutnick, que ayudara a gestionar la situaci�n y aprob� la prohibici�n de todo uso extranjero de los modelos, dijeron algunas de las personas familiarizadas con el asunto. Lutnick envi� a Amodei una carta notific�ndole que las medidas se hab�an implementado poco despu�s de las 17:00 ET. La norma incluye a personas nacidas en el extranjero que trabajan en los EEUU, lo que afecta a algunos de los propios investigadores de Anthropic.Cuando Lutnick y Amodei hablaron sobre Fable esa noche, el director ejecutivo de Anthropic dijo: "Esto significa que no podemos tener el modelo fuera", seg�n personas conocedoras de la llamada. "Ese es el objetivo", respondi� Lutnick. Anthropic cort� todo el acceso poco despu�s de la llamada. La Casa Blanca se hab�a convertido al Bugmageddon. Dario Amodei, CEO de Anthropic el mes pasado.Jason Henry para el WSJEn la rutaCarlini demostr� lo potente que puede ser Mythos una tarde reciente en la sede de 10 plantas de Anthropic en San Francisco, donde las paredes cubiertas de musgo, las plantas y las obras de arte est�n dise�adas para evocar el Pacific Coast Trail.Llevaba varias semanas charlando con Mythos y el modelo recordaba algunas cosas. Hab�a aprendido que �l era investigador de seguridad, un dato que parec�a hacer que el modelo confiara en �l. Eso hac�a que Mythos fuese menos propenso a poner pegas si le ped�a informaci�n sensible de seguridad o que creara un exploit.Carlini hab�a pedido previamente a Mythos que encontrara fallos en Linux. La IA busc� y rebusc� en el c�digo de Linux varios miles de veces. Ser�a un trabajo tedioso para un humano, pero la IA termin� sin quejarse en unos pocos d�as. Encontr� 479 fallos en Linux.Para ayudar a Mythos a encontrar resultados diferentes en cada una de sus ejecuciones, Carlini utiliz� una serie de comandos que se han dado a conocer como el Bucle de Carlini (Carlini Loop). Estos comandos dan a Mythos las instrucciones justas para asegurar resultados diferentes cada vez que rastrea Linux en busca de fallos. A Carlini le horroriza este t�rmino que lleva su nombre -dice que la t�cnica es intuitiva-, pero ha sido adoptado por investigadores de seguridad que lo conocieron viendo la charla de marzo en la que lo describ�a. Esa charla ha sido vista m�s de 360.000 veces.Carlini tambi�n ha aprendido las idiosincrasias de Mythos, que son comunes a los sistemas de IA. Mythos puede esforzarse demasiado por complacer. Sus conversaciones escritas parecen mensajes de chat entre un becario entusiasta e incre�blemente trabajador y su jefe. Carlini quer�a asegurarse de que hubiera una vulnerabilidad real en los hallazgos de Linux. Pidi� a Mythos que realizara algunas pruebas durante la noche y a la ma�ana siguiente hubo un veredicto, y una explotaci�n. El fallo no era del peor tipo posible, pero pod�a encadenarse con otro hackeo para hacerse con el control de un ordenador.Carlini inform� del fallo al equipo de Linux, que ya lo ha solucionado. "Un investigador de seguridad competente podr�a pasar toda su vida sin encontrar una vulnerabilidad en el n�cleo de Linux", afirm� Carlini."�Son estas cosas f�ciles de encontrar? Obviamente, no del todo", dijo Linus Torvalds, el desarrollador de software que cre� Linux. "Pero al mismo tiempo suelen ser peque�os detalles tontos que se pasan por alto". Los fallos por s� solos no son necesariamente un problema de seguridad. Los m�s benignos simplemente hacen que un programa haga algo inesperado: un error en la pantalla del ordenador o tal vez un bloqueo.Torvalds dijo que la gente le informa de fallos todos los d�as. "La mayor�a de ellos son muy insignificantes y tenemos que declarar -una y otra vez- que no se consideran problemas de seguridad", dijo en un mensaje de correo electr�nico.Cuando Carlini encontr� el fallo en el software de publicaci�n web Ghost en febrero, fue uno de los 500 fallos descubiertos en un periodo de dos semanas. En las manos equivocadas, una explotaci�n dar�a a un hacker la capacidad de editar cualquier sitio web construido con Ghost. Carlini hab�a informado del fallo a los desarrolladores de Ghost, quienes lanzaron un parche el 16 de febrero, semanas antes de la charla de Carlini en San Francisco.Pero no todos los que usaban Ghost actualizaron su software, y los hackers descubrieron r�pidamente c�mo explotar el fallo, probablemente estudiando qu� parte de Ghost solucionaba el parche. Para abril, hab�an comenzado a lanzar ataques generalizados contra sitios web sin la actualizaci�n. En un mes, m�s de 700 fueron hackeados, seg�n la firma de ciberseguridad Xlab.Carlini dijo que el hackeo de Ghost ilustraba la dificultad del problema al que se enfrenta ahora el mundo para validar, probar parches y luego desplegarlos. Ahora, Carlini cree que es solo cuesti�n de meses antes de que otros modelos alcancen a Mythos. Y no est� claro qu� significar� eso.*Contenido con licencia de The Wall Street Journal. Traducido del ingl�s por Daniela Saltos.

El hacker enviado por Anthropic para calmar los nervios del Gobierno sobre la seguridad de la IA

El hacker enviado por Anthropic para calmar los nervios del Gobierno sobre la seguridad de la IA

Other newsrooms on this story

Related reading

La ofensiva de Trump contra Anthropic plantea dudas legales sobre el acceso a…

La decisión de Trump que podría cambiar quién tiene acceso a la inteligencia…

Anthropic lanza una versión “segura” de Mythos, el programa que puso en guardia…

Anthropic lanza una versión “segura” de Mythos, el programa que ha puesto en…

La prohibición de acceso global a la IA de Anthropic alarma a Silicon Valley

Anthropic suspende acceso a sus modelos de IA más avanzados; Amazon influyó en…

Other newsrooms on this story

Related reading

La ofensiva de Trump contra Anthropic plantea dudas legales sobre el acceso a…

La decisión de Trump que podría cambiar quién tiene acceso a la inteligencia…

Anthropic lanza una versión “segura” de Mythos, el programa que puso en guardia…

Anthropic lanza una versión “segura” de Mythos, el programa que ha puesto en…

La prohibición de acceso global a la IA de Anthropic alarma a Silicon Valley

Anthropic suspende acceso a sus modelos de IA más avanzados; Amazon influyó en…