La generación text-to-video consiste en producir secuencias de vídeo a partir de una descripción textual, conocida como prompt. El sistema interpreta el texto y sintetiza fotogramas coherentes entre sí, generando movimiento, transiciones y consistencia temporal sin necesidad de filmar ni animar manualmente. Se apoya en modelos generativos avanzados, habitualmente de difusión combinados con arquitecturas de tipo transformer, entrenados con grandes volúmenes de vídeo y sus descripciones asociadas.
Su importancia radica en que reduce drásticamente el coste y el tiempo de producción audiovisual, abriendo la creación de vídeo a personas sin conocimientos técnicos de edición o animación. Resulta útil para prototipado de ideas, contenido publicitario, prototipos de animación, material educativo y efectos visuales.
Conviene tener presentes algunas limitaciones prácticas:
- Duración: muchos modelos generan clips cortos, de pocos segundos.
- Coherencia: pueden aparecer artefactos o inconsistencias entre fotogramas.
- Control: ajustar detalles concretos del movimiento o la escena sigue siendo difícil.
Ejemplos destacados son Sora de OpenAI, Veo de Google y Runway Gen-3.