La ventana de contexto es la cantidad máxima de información que un modelo de lenguaje puede procesar de forma simultánea, incluyendo tanto la entrada del usuario como la respuesta que genera. Se mide en tokens, las unidades mínimas en que el modelo descompone el texto (un token equivale aproximadamente a tres cuartos de una palabra en español). Por ejemplo, una ventana de 128.000 tokens permite manejar el equivalente a un libro corto en una sola interacción.
Su tamaño importa porque determina cuánto «recuerda» el modelo dentro de una conversación o documento. Si el intercambio supera el límite, el contenido más antiguo se descarta o se trunca, lo que puede provocar que el modelo «olvide» instrucciones o detalles dados al principio.
En la práctica conviene tener en cuenta que:
- Una ventana grande no garantiza que el modelo use bien toda la información; suele prestar más atención al inicio y al final.
- Procesar más tokens incrementa el coste y la latencia de cada consulta.
Por ello, es recomendable resumir o estructurar el contexto en lugar de saturarlo.