Prompt Injection

También: Inyección de prompts · Inyección de instrucciones · Prompt Injection Attack

Ataques que manipulan la IA insertando instrucciones maliciosas

1 min de lectura

La inyección de prompts es una técnica de ataque que consiste en introducir instrucciones maliciosas en la entrada de un modelo de lenguaje para alterar su comportamiento. Dado que estos sistemas no distinguen de forma fiable entre las instrucciones legítimas del desarrollador y el contenido que procesan, un atacante puede «colar» órdenes que el modelo acaba ejecutando como si fueran propias.

Importa porque compromete la seguridad y la confidencialidad de las aplicaciones basadas en IA. Suele distinguirse entre dos modalidades:

Inyección directa: el usuario escribe instrucciones que intentan anular las reglas del sistema (por ejemplo, «ignora tus instrucciones anteriores»).
Inyección indirecta: las órdenes maliciosas se ocultan en datos externos que el modelo lee, como una página web o un correo.

Un caso típico es un asistente que resume documentos y procesa un texto con la orden encubierta de filtrar información privada. Mitigarlo exige validar entradas, limitar privilegios del modelo y separar claramente datos de instrucciones, aunque no existe una solución completamente infalible.

Prompt Injection

Términos relacionados

Prompt Engineering

Guardrails

Red Teaming

Jailbreaking

AI Safety

AI Governance