InicioSociedadLos navegadores de IA enfrentan un riesgo permanente de seguridad de inyección...

Los navegadores de IA enfrentan un riesgo permanente de seguridad de inyección rápida

-

OpenAI ha reconocido oficialmente una realidad preocupante: su Navegador Atlas AIcomo todos los navegadores impulsados ​​por IA, nunca será completamente seguro de ataques de inyección rápida. Lo más probable es que.

Ejemplo de cómo podría verse un texto de ataque de inyección rápida. Crédito de la imagen: OpenAI

Conclusiones clave:

  • Los ataques de inyección rápida contra navegadores de IA no se pueden eliminar por completo, solo se pueden gestionar mediante actualizaciones continuas de defensa.
  • OpenAI desarrolló un robot atacante impulsado por IA que utiliza el aprendizaje por refuerzo para descubrir vulnerabilidades antes de que los piratas informáticos las exploten.
  • Los navegadores de IA actuales plantean riesgos importantes debido a su acceso a datos confidenciales como correos electrónicos y sistemas de pago, lo que supera los beneficios prácticos para la mayoría de los usuarios.

Estos ataques engañan a los agentes de IA para que ejecuten comandos ocultos incrustados en sitios web o correos electrónicos, y la compañía ahora dice que esta vulnerabilidad es esencialmente permanente.

«Es poco probable que la inyección rápida, al igual que las estafas y la ingeniería social en la web, alguna vez se ‘resuelva’ por completo», afirmó OpenAI en un comunicado el lunes. publicación de blog. La compañía admitió que el «modo agente» en ChatGPT Atlas «expande la superficie de amenazas a la seguridad».

Atlas se lanzó en octubre y los investigadores de seguridad demostraron inmediatamente sus fallas. En cuestión de horas, demostraron cómo un simple texto oculto en Google Docs podía secuestrar el comportamiento del navegador. El equipo de seguridad de Brave publicó sus hallazgos el mismo día, explicando que la inyección rápida indirecta plantea desafíos sistemáticos para todos los navegadores de IA, incluido Perplexity’s Comet.

El Centro Nacional de Seguridad Cibernética del Reino Unido emitió una advertencia a principios de este mes confirmando que los ataques de inyección rápida contra aplicaciones de IA generativa «quizás nunca se mitiguen por completo». La agencia aconsejó a los profesionales de la ciberseguridad que se centraran en reducir el impacto en lugar de esperar una prevención completa.

Luchando una batalla sin fin

OpenAI describe la inyección rápida como “un desafío de seguridad de la IA a largo plazo” que requiere un fortalecimiento continuo de la defensa. La estrategia de la empresa implica lo que llama un “ciclo proactivo y de respuesta rápida” diseñado para identificar métodos de ataque internamente antes de que los piratas informáticos los descubran.

Este enfoque refleja las tácticas de Anthropic y Google, que enfatizan las defensas en capas y las pruebas de estrés constantes. El trabajo reciente de Google se concentra en controles a nivel arquitectónico y de políticas para sistemas agentes.

La contribución distintiva de OpenAI es su “atacante automatizado basado en LLM”, un robot de IA entrenado mediante aprendizaje por refuerzo para actuar como un hacker que busca formas de inyectar instrucciones maliciosas en agentes de IA.

El robot prueba los ataques en entornos de simulación, observando cómo la IA objetivo procesa y responde a cada intento. Analiza el razonamiento interno de la IA, ajusta el ataque y repite el proceso. Este acceso interno a los patrones de razonamiento brinda al robot de OpenAI ventajas de las que carecen los atacantes externos, lo que en teoría permite un descubrimiento de vulnerabilidades más rápido.

«Nuestro [reinforcement learning]»Un atacante entrenado puede llevar a un agente a ejecutar flujos de trabajo dañinos sofisticados y de largo plazo que se desarrollan en decenas (o incluso cientos) de pasos», escribió OpenAI. «También observamos estrategias de ataque novedosas que no aparecieron en nuestra campaña de equipo rojo humano ni en informes externos».

Ejemplos de explotación del mundo real

OpenAI demostró cómo su atacante automatizado insertó un correo electrónico malicioso en una bandeja de entrada de prueba. Cuando el agente de IA escaneó los correos electrónicos, siguió instrucciones ocultas y envió un mensaje de renuncia en lugar de crear una respuesta de fuera de la oficina. Después de las actualizaciones de seguridad, el «modo agente» detectó con éxito el intento de inyección y alertó al usuario.

La compañía enfatiza que las pruebas a gran escala y los ciclos de parches más rápidos pueden fortalecer los sistemas antes de que ocurran ataques en el mundo real. Sin embargo, un portavoz de OpenAI se negó a compartir si las actualizaciones de seguridad han producido reducciones mensurables en las inyecciones exitosas. El portavoz señaló que OpenAI ha colaborado con terceros para fortalecer Atlas contra la inyección rápida desde antes del lanzamiento.

El cálculo riesgo-beneficio

Rami McCarthy, investigador principal de seguridad de la empresa de ciberseguridad Wiz, describe el aprendizaje por refuerzo como valioso para adaptarse al comportamiento de los atacantes, pero insuficiente por sí solo.

«Una forma útil de razonar sobre el riesgo en los sistemas de IA es la autonomía multiplicada por el acceso», explicó McCarthy.

«Los navegadores agentes tienden a ocupar una parte desafiante de ese espacio: una autonomía moderada combinada con un acceso muy alto», dijo McCarthy. «Muchas recomendaciones actuales reflejan esa compensación. Limitar el acceso con inicio de sesión reduce principalmente la exposición, mientras que exigir la revisión de las solicitudes de confirmación limita la autonomía».

OpenAI recomienda a los usuarios reducir su riesgo limitando el acceso de los agentes de IA y solicitando confirmación antes de acciones como enviar mensajes o realizar pagos. Atlas recibe capacitación para solicitar la aprobación del usuario para estas operaciones sensibles. La compañía también recomienda dar a los agentes instrucciones específicas en lugar de permisos amplios con directivas vagas como «tomar las medidas necesarias».

«La amplia latitud hace que sea más fácil que el contenido oculto o malicioso influya en el agente, incluso cuando existen salvaguardas», señaló OpenAI.

A pesar de que OpenAI prioriza la protección de Atlas contra inyecciones rápidas, McCarthy cuestiona si los beneficios justifican los riesgos.

«Para la mayoría de los casos de uso diario, los navegadores agentes aún no ofrecen suficiente valor para justificar su perfil de riesgo actual», dijo McCarthy. «El riesgo es alto dado su acceso a datos confidenciales como correo electrónico e información de pago, aunque ese acceso también es lo que los hace poderosos. Ese equilibrio evolucionará, pero hoy en día las compensaciones siguen siendo muy reales».


Escrito por Alius Noreika

!function(f,b,e,v,n,t,s){if(f.fbq)return;n=f.fbq=function(){n.callMethod?
n.callMethod.apply(n,arguments):n.queue.push(arguments)};if(!f._fbq)f._fbq=n;
n.push=n;n.loaded=!0;n.version=’2.0′;n.queue=[];t=b.createElement(e);t.async=!0;
t.src=v;s=b.getElementsByTagName(e)[0];s.parentNode.insertBefore(t,s)}(window,
document,’script’,’https://connect.facebook.net/en_US/fbevents.js’);
fbq(‘init’, ‘1254095111342376’);
fbq(‘track’, ‘PageView’);

Publicado anteriormente en The European Times.

- Publicidad -spot_img

Selección