RLHF

También: Reinforcement Learning from Human Feedback · Aprendizaje por refuerzo con retroalimentación humana · RLHF

Aprendizaje por refuerzo con retroalimentación humana

1 min de lectura

El RLHF (Reinforcement Learning from Human Feedback) es una técnica para afinar modelos de lenguaje combinando aprendizaje por refuerzo con valoraciones humanas. En lugar de optimizar únicamente sobre datos estáticos, el modelo aprende a generar respuestas que las personas consideran más útiles, seguras o coherentes. Es uno de los métodos clave que permitió convertir grandes modelos preentrenados en asistentes conversacionales como ChatGPT.

El proceso suele constar de tres fases:

Ajuste supervisado: se entrena el modelo con ejemplos de respuestas escritas o validadas por humanos.
Modelo de recompensa: anotadores comparan y ordenan varias respuestas, y con esas preferencias se entrena un modelo que predice qué salida gustará más.
Optimización por refuerzo: el modelo principal se ajusta para maximizar la recompensa, habitualmente con algoritmos como PPO.

Su importancia radica en que alinea el comportamiento del modelo con expectativas humanas difíciles de codificar en reglas. Como matiz, depende mucho de la calidad y los sesgos de los anotadores, y resulta costoso, por lo que han surgido alternativas como DPO o el uso de IA para generar retroalimentación.

RLHF

Términos relacionados

LLM (Large Language Model)

Fine-Tuning

AI Alignment

Guardrails

Red Teaming

AI Safety