NAiOS IconNAiOS Logo
NAiOS Wiki

Synthetic Data

También: datos sintéticos · datos artificiales · synthetic dataset · datos generados

Datos generados artificialmente para entrenar modelos

1 min de lectura

Los datos sintéticos son ejemplos generados de forma artificial, normalmente mediante algoritmos o modelos de IA, en lugar de recogerse del mundo real. Pueden imitar las propiedades estadísticas de un conjunto de datos auténtico o crearse desde cero para cubrir situaciones concretas, y se emplean para entrenar, validar o ampliar modelos de aprendizaje automático.

Su importancia ha crecido por varias razones prácticas:

  • Privacidad: permiten trabajar sin exponer datos personales reales, útil en sanidad o finanzas.
  • Escasez: cubren casos raros o difíciles de obtener, como fallos poco frecuentes o situaciones peligrosas.
  • Coste: resultan más baratos que recopilar y etiquetar grandes volúmenes de información real.

Un ejemplo habitual es el uso de simuladores para entrenar coches autónomos con millones de kilómetros virtuales. Conviene tener un matiz presente: si los datos sintéticos no reflejan bien la realidad, el modelo aprenderá patrones engañosos. Por eso suelen combinarse con datos reales y validarse cuidadosamente para evitar sesgos o un rendimiento que solo funcione "sobre el papel".

¿Quieres profundizar?

Lee nuestros artículos sobre IA aplicada en el blog de NAiOS.

Ir al Blog