Tokenization

También: Tokenización · Tokenizer · Tokenización de texto · Segmentación en tokens

Proceso de dividir texto en unidades (tokens) que el modelo puede procesar

1 min de lectura

La tokenización es el paso previo al procesamiento de texto en un modelo de lenguaje: consiste en dividir una secuencia de caracteres en unidades discretas llamadas tokens, que el modelo convierte después en valores numéricos. Un token no equivale necesariamente a una palabra; puede ser una palabra completa, un fragmento de palabra (subpalabra), un signo de puntuación o incluso un solo carácter, según el algoritmo empleado.

Importa porque condiciona tanto el rendimiento como el coste. Los modelos tienen un límite de ventana de contexto medido en tokens, y muchos servicios facturan por esta unidad. Además, una buena estrategia de tokenización permite manejar palabras desconocidas sin descartarlas. Los métodos más habituales son:

BPE (Byte Pair Encoding), usado en la familia GPT.
WordPiece, empleado por BERT.
SentencePiece, frecuente en modelos multilingües.

Un matiz práctico: en español, palabras largas o poco comunes pueden fragmentarse en varios tokens, por lo que un mismo texto suele consumir más tokens que su equivalente en inglés, afectando al coste y al espacio disponible en el contexto.

Tokenization

Términos relacionados

Prompt Engineering

Tokenmaxxing

Context Window

Transformer

LLM (Large Language Model)

Embeddings