Los guardrails (o barreras de protección) son el conjunto de restricciones, filtros y reglas que se aplican a un sistema de inteligencia artificial para acotar su comportamiento y evitar que genere respuestas dañinas, ilegales o inapropiadas. Funcionan como una capa de control que delimita qué puede y qué no puede hacer el modelo, tanto en lo que recibe como entrada como en lo que produce.
Su importancia radica en que los modelos generativos no distinguen por sí mismos entre un uso legítimo y uno peligroso. Los guardrails ayudan a mitigar riesgos como:
- La generación de contenido violento, discriminatorio o ilegal.
- La filtración de datos sensibles o personales.
- Los intentos de manipulación mediante prompt injection o jailbreaking.
En la práctica, se implementan en varios niveles: ajustes en el entrenamiento del modelo, filtros sobre las peticiones del usuario y validaciones sobre las salidas antes de mostrarlas. Conviene recordar que ningún guardrail es infalible: son una medida de reducción de riesgo, no una garantía absoluta, y deben revisarse y actualizarse de forma continua.