LoRA (Low-Rank Adaptation) es una técnica de ajuste fino eficiente que evita modificar todos los parámetros de un modelo. En lugar de reentrenar los miles de millones de pesos originales, congela el modelo base y añade pequeñas matrices de bajo rango que se entrenan por separado. El resultado es un fichero de adaptación ligero (a menudo de unos pocos megabytes) que se aplica sobre el modelo sin alterarlo.
QLoRA lleva esta idea más lejos combinándola con la cuantización: el modelo base se carga en una precisión reducida (habitualmente 4 bits), lo que disminuye drásticamente el consumo de memoria. Esto permite ajustar modelos grandes en una sola GPU de consumo.
Su importancia es práctica y económica:
- Reducen el coste de hardware y el tiempo de entrenamiento.
- Permiten mantener varios adaptadores especializados para un mismo modelo base.
- Facilitan compartir y distribuir adaptaciones sin mover el modelo completo.
Un matiz: estas técnicas son ideales para especializar un modelo en tareas o estilos concretos, pero no suelen sustituir a un entrenamiento completo cuando se busca incorporar conocimiento profundamente nuevo.