Los datos sintéticos son ejemplos generados de forma artificial, normalmente mediante algoritmos o modelos de IA, en lugar de recogerse del mundo real. Pueden imitar las propiedades estadísticas de un conjunto de datos auténtico o crearse desde cero para cubrir situaciones concretas, y se emplean para entrenar, validar o ampliar modelos de aprendizaje automático.
Su importancia ha crecido por varias razones prácticas:
- Privacidad: permiten trabajar sin exponer datos personales reales, útil en sanidad o finanzas.
- Escasez: cubren casos raros o difíciles de obtener, como fallos poco frecuentes o situaciones peligrosas.
- Coste: resultan más baratos que recopilar y etiquetar grandes volúmenes de información real.
Un ejemplo habitual es el uso de simuladores para entrenar coches autónomos con millones de kilómetros virtuales. Conviene tener un matiz presente: si los datos sintéticos no reflejan bien la realidad, el modelo aprenderá patrones engañosos. Por eso suelen combinarse con datos reales y validarse cuidadosamente para evitar sesgos o un rendimiento que solo funcione "sobre el papel".