Embeddings

También: embeddings vectoriales · vectores de palabras · incrustaciones · representaciones vectoriales

Representación numérica del significado de textos o imágenes

1 min de lectura

Los embeddings son representaciones numéricas que capturan el significado de un dato (una palabra, una frase, un documento o una imagen) en forma de un vector de cientos o miles de dimensiones. La clave es que estos vectores se construyen de modo que elementos con significados parecidos quedan cercanos en el espacio vectorial, mientras que los muy distintos quedan alejados. Así, el modelo no trabaja con texto en bruto, sino con coordenadas que codifican relaciones semánticas.

Su importancia radica en que permiten que los ordenadores comparen significados de forma matemática, midiendo, por ejemplo, la distancia o el coseno entre dos vectores. Esto habilita tareas como:

Búsqueda semántica: encontrar resultados por sentido, no por palabras exactas.
Sistemas de recomendación y agrupación (clustering) de contenidos similares.
RAG, donde se recuperan fragmentos relevantes para alimentar a un modelo de lenguaje.

Un matiz práctico: un mismo término puede tener embeddings distintos según el modelo que los genere, por lo que conviene usar siempre el mismo modelo para indexar y consultar, garantizando que los vectores sean comparables entre sí.

Embeddings

Términos relacionados

Transformer

Multimodal

LLM (Large Language Model)

Tokenization

RAG (Retrieval Augmented Generation)

Grounding