Synthetic Data

También: datos sintéticos · datos artificiales · synthetic dataset · datos generados

Datos generados artificialmente para entrenar modelos

1 min de lectura

Los datos sintéticos son ejemplos generados de forma artificial, normalmente mediante algoritmos o modelos de IA, en lugar de recogerse del mundo real. Pueden imitar las propiedades estadísticas de un conjunto de datos auténtico o crearse desde cero para cubrir situaciones concretas, y se emplean para entrenar, validar o ampliar modelos de aprendizaje automático.

Su importancia ha crecido por varias razones prácticas:

Privacidad: permiten trabajar sin exponer datos personales reales, útil en sanidad o finanzas.
Escasez: cubren casos raros o difíciles de obtener, como fallos poco frecuentes o situaciones peligrosas.
Coste: resultan más baratos que recopilar y etiquetar grandes volúmenes de información real.

Un ejemplo habitual es el uso de simuladores para entrenar coches autónomos con millones de kilómetros virtuales. Conviene tener un matiz presente: si los datos sintéticos no reflejan bien la realidad, el modelo aprenderá patrones engañosos. Por eso suelen combinarse con datos reales y validarse cuidadosamente para evitar sesgos o un rendimiento que solo funcione "sobre el papel".

Synthetic Data

Términos relacionados

Fine-Tuning

Model Distillation

Data Contamination

Data Moat

Generative AI

Algorithmic Bias