El jailbreaking engloba el conjunto de técnicas mediante las cuales un usuario intenta sortear las salvaguardas y políticas de uso de un modelo de lenguaje para obtener respuestas que normalmente estarían bloqueadas, como instrucciones peligrosas, contenido prohibido o información que el sistema ha sido diseñado para no proporcionar. A diferencia de un simple mal uso, busca explotar deliberadamente las limitaciones del alineamiento del modelo.
Las estrategias más habituales incluyen:
- Juegos de rol, en los que se pide al modelo que actúe como un personaje sin restricciones.
- Inyección de instrucciones que contradicen o anulan las directrices del sistema.
- Ofuscación, codificando la petición en otro idioma, en clave o de forma fragmentada.
Comprender estas técnicas es clave en seguridad, porque revela las debilidades del filtrado y motiva defensas más robustas (entrenamiento adversarial, filtros de salida, supervisión humana). Conviene distinguirlo del prompt injection, centrado en manipular aplicaciones que integran un modelo. En la práctica, ningún sistema es totalmente inmune, por lo que el jailbreaking se considera un riesgo permanente que exige vigilancia y actualización continuas.