Un sistema multimodal es aquel capaz de procesar y combinar información procedente de distintos tipos de datos —o modalidades— como texto, imágenes, audio o vídeo. A diferencia de los modelos tradicionales, que se limitaban a una sola entrada (por ejemplo, solo texto), estos modelos integran varias fuentes en una representación común, lo que les permite razonar sobre ellas de forma conjunta.
Su importancia radica en que el mundo real no es unimodal: entendemos una escena combinando lo que vemos, oímos y leemos. Esta capacidad acerca la IA a una comprensión más rica y contextual, y habilita tareas que antes requerían varios sistemas separados. Algunos ejemplos prácticos:
- Describir el contenido de una fotografía con texto.
- Responder preguntas sobre un gráfico o un documento escaneado.
- Generar imágenes a partir de una descripción escrita.
Un matiz relevante es que «multimodal» no implica dominar todas las modalidades por igual. Muchos modelos destacan en la combinación texto-imagen, mientras que el audio o el vídeo siguen siendo más limitados o se incorporan de forma parcial.