NAiOS IconNAiOS Logo
NAiOS Wiki

Red Teaming

También: Equipo Rojo · Red Team · Pruebas adversariales · Adversarial Testing

Probar una IA intentando romperla para encontrar vulnerabilidades

1 min de lectura

El red teaming es una práctica de evaluación adversarial en la que un equipo intenta deliberadamente provocar fallos, comportamientos no deseados o respuestas dañinas en un sistema de IA. El nombre proviene del ámbito militar y de ciberseguridad, donde un "equipo rojo" simula ser el atacante para poner a prueba las defensas. Aplicado a modelos de lenguaje y otros sistemas, consiste en buscar activamente las grietas antes de que lo hagan usuarios malintencionados o lo provoquen accidentes.

Importa porque las pruebas convencionales rara vez anticipan los usos creativos o malintencionados que aparecen en el mundo real. El red teaming ayuda a descubrir riesgos como:

  • Generación de contenido peligroso o ilegal.
  • Filtración de datos sensibles o de entrenamiento.
  • Sesgos y vulnerabilidades a inyección de prompts o jailbreaks.

En la práctica puede ser manual, con personas expertas diseñando ataques, o automatizado, usando otros modelos para generar miles de entradas adversarias. Sus hallazgos se utilizan para reforzar los filtros de seguridad y mejorar el comportamiento del modelo antes de su despliegue.

¿Quieres profundizar?

Lee nuestros artículos sobre IA aplicada en el blog de NAiOS.

Ir al Blog