La tokenización es el paso previo al procesamiento de texto en un modelo de lenguaje: consiste en dividir una secuencia de caracteres en unidades discretas llamadas tokens, que el modelo convierte después en valores numéricos. Un token no equivale necesariamente a una palabra; puede ser una palabra completa, un fragmento de palabra (subpalabra), un signo de puntuación o incluso un solo carácter, según el algoritmo empleado.
Importa porque condiciona tanto el rendimiento como el coste. Los modelos tienen un límite de ventana de contexto medido en tokens, y muchos servicios facturan por esta unidad. Además, una buena estrategia de tokenización permite manejar palabras desconocidas sin descartarlas. Los métodos más habituales son:
- BPE (Byte Pair Encoding), usado en la familia GPT.
- WordPiece, empleado por BERT.
- SentencePiece, frecuente en modelos multilingües.
Un matiz práctico: en español, palabras largas o poco comunes pueden fragmentarse en varios tokens, por lo que un mismo texto suele consumir más tokens que su equivalente en inglés, afectando al coste y al espacio disponible en el contexto.