La destilación de modelos es una técnica de entrenamiento que transfiere el conocimiento de un modelo grande y costoso (el profesor) a uno más pequeño y eficiente (el estudiante). En lugar de entrenar al modelo pequeño únicamente con las etiquetas originales, este aprende a imitar las salidas del profesor, incluyendo sus distribuciones de probabilidad (las llamadas soft labels), que contienen información más rica sobre la relación entre clases.
Esta técnica importa porque permite desplegar modelos en entornos con recursos limitados —móviles, navegadores o dispositivos edge— sin sacrificar demasiada calidad. Sus principales ventajas son:
- Menor coste de inferencia y consumo energético.
- Mayor velocidad de respuesta.
- Modelos más ligeros y fáciles de distribuir.
Un ejemplo práctico es DistilBERT, una versión reducida de BERT que mantiene en torno al 97 % de su rendimiento con aproximadamente un 40 % menos de parámetros. Conviene matizar que la destilación rara vez conserva el 100 % de la calidad: hay un compromiso entre tamaño y precisión que debe ajustarse según el caso de uso.