Red Teaming

También: Equipo Rojo · Red Team · Pruebas adversariales · Adversarial Testing

Probar una IA intentando romperla para encontrar vulnerabilidades

1 min de lectura

El red teaming es una práctica de evaluación adversarial en la que un equipo intenta deliberadamente provocar fallos, comportamientos no deseados o respuestas dañinas en un sistema de IA. El nombre proviene del ámbito militar y de ciberseguridad, donde un "equipo rojo" simula ser el atacante para poner a prueba las defensas. Aplicado a modelos de lenguaje y otros sistemas, consiste en buscar activamente las grietas antes de que lo hagan usuarios malintencionados o lo provoquen accidentes.

Importa porque las pruebas convencionales rara vez anticipan los usos creativos o malintencionados que aparecen en el mundo real. El red teaming ayuda a descubrir riesgos como:

Generación de contenido peligroso o ilegal.
Filtración de datos sensibles o de entrenamiento.
Sesgos y vulnerabilidades a inyección de prompts o jailbreaks.

En la práctica puede ser manual, con personas expertas diseñando ataques, o automatizado, usando otros modelos para generar miles de entradas adversarias. Sus hallazgos se utilizan para reforzar los filtros de seguridad y mejorar el comportamiento del modelo antes de su despliegue.

Red Teaming

Términos relacionados

Frontier Models

AI Alignment

Guardrails

Jailbreaking

Prompt Injection

AI Safety