Text-to-Video

También: Texto a video · T2V · generación de video · text2video

Generar video a partir de una descripción de texto

1 min de lectura

La generación text-to-video consiste en producir secuencias de vídeo a partir de una descripción textual, conocida como prompt. El sistema interpreta el texto y sintetiza fotogramas coherentes entre sí, generando movimiento, transiciones y consistencia temporal sin necesidad de filmar ni animar manualmente. Se apoya en modelos generativos avanzados, habitualmente de difusión combinados con arquitecturas de tipo transformer, entrenados con grandes volúmenes de vídeo y sus descripciones asociadas.

Su importancia radica en que reduce drásticamente el coste y el tiempo de producción audiovisual, abriendo la creación de vídeo a personas sin conocimientos técnicos de edición o animación. Resulta útil para prototipado de ideas, contenido publicitario, prototipos de animación, material educativo y efectos visuales.

Conviene tener presentes algunas limitaciones prácticas:

Duración: muchos modelos generan clips cortos, de pocos segundos.
Coherencia: pueden aparecer artefactos o inconsistencias entre fotogramas.
Control: ajustar detalles concretos del movimiento o la escena sigue siendo difícil.

Ejemplos destacados son Sora de OpenAI, Veo de Google y Runway Gen-3.

Text-to-Video

Términos relacionados

Prompt Engineering

World Models

Multimodal

Generative AI

Deepfake

Synthetic Media