spot_img
11.4 C
London
InicioTecnologíaRevelan lo fácil que es "envenenar" a la IA para que responda...

Revelan lo fácil que es «envenenar» a la IA para que responda lo que quieras

La empresa de investigación y desarrollo de inteligencia artificial, Anthropic, reveló que es posible «envenenar» cualquier modelo de lenguaje IA.

Sobre esto, publicaron un estudio donde se detalla la manera en la que puede vulnerarse una IA para que desarrolle comportamientos no deseados.

Lo fácil que es «envenenar» a la IA

De acuerdo con Anthropic, un total de 250 documentos sería suficiente para crear una vulnerabilidad en modelos de cualquier tamaño, a través de un ataque de data poisoning.

A esta conclusión se llegó tras un estudio, realizado en conjunto por Anthropic, el Instituto de Seguridad de IA del Reino Unido y el Instituto Alan Turing, donde se evaluaron las condiciones necesarias para crear una puerta trasera en un modelo de lenguaje grande.

Los investigadores descubrieron que bastaría con inyectar 250 documentos maliciosos en los datos de preentrenamiento para realizar un ataque de envenenamiento.

Anthropic afirma que esta cifra es constante y aplica a modelos de cualquier tamaño.

De manera que, con este hallazgo, se contradice la creencia común de que se necesita controlar un porcentaje significativo del conjunto de entrenamiento.

«Crear 250 documentos maliciosos es trivial en comparación con crear millones, lo que hace que esta vulnerabilidad sea mucho más accesible para los posibles atacantes«, afirmó el equipo de Anthropic.

¿Cómo envenenar a la inteligencia artificial?

Si bien la seguridad en los modelos de IA se ha intensificado, todavía existe un riesgo latente.

Los ataques de envenenamiento (o data poisoning), consisten en una técnica en la que se insertan datos maliciosos en el conjunto de entrenamiento de un modelo.

Esto se hace con el fin de que la IA aprenda comportamientos no deseados o peligrosos.

Como por ejemplo, usar frases específicas para ignorar filtros y acceder a respuestas ocultas o datos confidenciales.

spot_img

Otras publicaciones