NAiOS IconNAiOS Logo
NAiOS Wiki

Text-to-Video

También: Texto a video · T2V · generación de video · text2video

Generar video a partir de una descripción de texto

1 min de lectura

La generación text-to-video consiste en producir secuencias de vídeo a partir de una descripción textual, conocida como prompt. El sistema interpreta el texto y sintetiza fotogramas coherentes entre sí, generando movimiento, transiciones y consistencia temporal sin necesidad de filmar ni animar manualmente. Se apoya en modelos generativos avanzados, habitualmente de difusión combinados con arquitecturas de tipo transformer, entrenados con grandes volúmenes de vídeo y sus descripciones asociadas.

Su importancia radica en que reduce drásticamente el coste y el tiempo de producción audiovisual, abriendo la creación de vídeo a personas sin conocimientos técnicos de edición o animación. Resulta útil para prototipado de ideas, contenido publicitario, prototipos de animación, material educativo y efectos visuales.

Conviene tener presentes algunas limitaciones prácticas:

  • Duración: muchos modelos generan clips cortos, de pocos segundos.
  • Coherencia: pueden aparecer artefactos o inconsistencias entre fotogramas.
  • Control: ajustar detalles concretos del movimiento o la escena sigue siendo difícil.

Ejemplos destacados son Sora de OpenAI, Veo de Google y Runway Gen-3.

¿Quieres profundizar?

Lee nuestros artículos sobre IA aplicada en el blog de NAiOS.

Ir al Blog