La inyección de prompts es una técnica de ataque que consiste en introducir instrucciones maliciosas en la entrada de un modelo de lenguaje para alterar su comportamiento. Dado que estos sistemas no distinguen de forma fiable entre las instrucciones legítimas del desarrollador y el contenido que procesan, un atacante puede «colar» órdenes que el modelo acaba ejecutando como si fueran propias.
Importa porque compromete la seguridad y la confidencialidad de las aplicaciones basadas en IA. Suele distinguirse entre dos modalidades:
- Inyección directa: el usuario escribe instrucciones que intentan anular las reglas del sistema (por ejemplo, «ignora tus instrucciones anteriores»).
- Inyección indirecta: las órdenes maliciosas se ocultan en datos externos que el modelo lee, como una página web o un correo.
Un caso típico es un asistente que resume documentos y procesa un texto con la orden encubierta de filtrar información privada. Mitigarlo exige validar entradas, limitar privilegios del modelo y separar claramente datos de instrucciones, aunque no existe una solución completamente infalible.