Los embeddings son representaciones numéricas que capturan el significado de un dato (una palabra, una frase, un documento o una imagen) en forma de un vector de cientos o miles de dimensiones. La clave es que estos vectores se construyen de modo que elementos con significados parecidos quedan cercanos en el espacio vectorial, mientras que los muy distintos quedan alejados. Así, el modelo no trabaja con texto en bruto, sino con coordenadas que codifican relaciones semánticas.
Su importancia radica en que permiten que los ordenadores comparen significados de forma matemática, midiendo, por ejemplo, la distancia o el coseno entre dos vectores. Esto habilita tareas como:
- Búsqueda semántica: encontrar resultados por sentido, no por palabras exactas.
- Sistemas de recomendación y agrupación (clustering) de contenidos similares.
- RAG, donde se recuperan fragmentos relevantes para alimentar a un modelo de lenguaje.
Un matiz práctico: un mismo término puede tener embeddings distintos según el modelo que los genere, por lo que conviene usar siempre el mismo modelo para indexar y consultar, garantizando que los vectores sean comparables entre sí.