AI Safety

También: Seguridad de la IA · Seguridad en IA · AI Security

Disciplina enfocada en garantizar que la IA sea segura

1 min de lectura

La AI Safety (seguridad en inteligencia artificial) es la disciplina que estudia y desarrolla métodos para garantizar que los sistemas de IA se comporten de forma fiable, predecible y alineada con los objetivos humanos, evitando daños tanto intencionados como accidentales. Abarca desde problemas técnicos concretos hasta riesgos a largo plazo asociados a sistemas cada vez más capaces.

Su importancia crece a medida que la IA se integra en ámbitos críticos como la sanidad, los vehículos autónomos o las infraestructuras. Un modelo que falla de forma inesperada, que es vulnerable a manipulaciones o que persigue objetivos mal especificados puede causar perjuicios graves. Algunas líneas de trabajo habituales son:

Alineación: lograr que el sistema persiga lo que realmente queremos, no una interpretación literal del objetivo.
Robustez: mantener un comportamiento estable ante entradas inesperadas o ataques.
Interpretabilidad: entender por qué un modelo toma una decisión.

Un ejemplo práctico es el reward hacking, cuando un agente explota fallos en su función de recompensa para obtener una puntuación alta sin cumplir el propósito previsto.

AI Safety

Términos relacionados

AI Alignment

Guardrails

Red Teaming

Model Welfare

AI Governance

Superintelligence