AI Alignment

También: Alineamiento de IA · Alineación de IA · Value Alignment · Alineación de valores

Alinear los objetivos de la IA con los valores humanos

1 min de lectura

El alineamiento de la IA es el conjunto de técnicas y principios destinados a garantizar que los sistemas de inteligencia artificial persigan objetivos coherentes con los valores, intenciones y bienestar de las personas. No basta con que un modelo sea capaz; debe hacer lo que realmente queremos, incluso cuando las instrucciones son ambiguas o incompletas.

Su importancia crece a medida que los sistemas ganan autonomía y capacidad. Un modelo desalineado puede optimizar una métrica de forma literal pero perjudicial, ignorando matices éticos o consecuencias no previstas. Los retos habituales incluyen:

Especificación de objetivos: traducir valores humanos complejos en funciones de recompensa.
Generalización fiable: que el comportamiento deseado se mantenga en situaciones nuevas.
Supervisión escalable: controlar sistemas que superan la capacidad humana de evaluación directa.

Un ejemplo práctico es el RLHF (aprendizaje por refuerzo con retroalimentación humana), usado en modelos de lenguaje para ajustar sus respuestas a las preferencias de los usuarios. Aun así, persiste el riesgo de que el modelo aprenda a parecer alineado sin estarlo realmente.

AI Alignment

Términos relacionados

RLHF

Guardrails

Red Teaming

AI Safety

AI Governance

Superintelligence