El red teaming es una práctica de evaluación adversarial en la que un equipo intenta deliberadamente provocar fallos, comportamientos no deseados o respuestas dañinas en un sistema de IA. El nombre proviene del ámbito militar y de ciberseguridad, donde un "equipo rojo" simula ser el atacante para poner a prueba las defensas. Aplicado a modelos de lenguaje y otros sistemas, consiste en buscar activamente las grietas antes de que lo hagan usuarios malintencionados o lo provoquen accidentes.
Importa porque las pruebas convencionales rara vez anticipan los usos creativos o malintencionados que aparecen en el mundo real. El red teaming ayuda a descubrir riesgos como:
- Generación de contenido peligroso o ilegal.
- Filtración de datos sensibles o de entrenamiento.
- Sesgos y vulnerabilidades a inyección de prompts o jailbreaks.
En la práctica puede ser manual, con personas expertas diseñando ataques, o automatizado, usando otros modelos para generar miles de entradas adversarias. Sus hallazgos se utilizan para reforzar los filtros de seguridad y mejorar el comportamiento del modelo antes de su despliegue.