La contaminación de datos (o data contamination) se produce cuando ejemplos de los conjuntos de evaluación acaban presentes, total o parcialmente, en los datos de entrenamiento de un modelo. Esto rompe la separación que debería existir entre lo que el modelo aprende y aquello con lo que se mide su rendimiento. Como consecuencia, el modelo no demuestra capacidad real de generalización, sino que ha "memorizado" las respuestas correctas.
Su relevancia es crítica porque invalida los resultados de los benchmarks: las cifras de precisión quedan infladas y dejan de reflejar el comportamiento del modelo ante datos nuevos. Esto dificulta comparar sistemas de forma justa y puede llevar a decisiones equivocadas en investigación o producción.
Es un problema especialmente común en los grandes modelos de lenguaje, entrenados con enormes volúmenes de texto extraído de internet, donde pueden colarse:
- Preguntas y soluciones de tests académicos publicados.
- Conjuntos de evaluación abiertos como MMLU o GSM8K.
- Repositorios con ejercicios y sus respuestas.
Para mitigarlo se aplican técnicas de descontaminación, que detectan y eliminan solapamientos antes de entrenar o evaluar.