El tokenmaxxing consiste en aprovechar al máximo la ventana de contexto de un modelo de lenguaje, es decir, el número total de tokens que puede procesar en una sola interacción. La idea es introducir tanta información relevante como sea posible —documentos, ejemplos, instrucciones detalladas o historiales completos— para que el modelo disponga de todo el material necesario antes de generar su respuesta.
Esta práctica importa porque la calidad de las respuestas suele depender más del contexto disponible que de la astucia del prompt. Cargar el contexto con datos pertinentes reduce las alucinaciones y evita tener que dividir tareas complejas en múltiples llamadas. Resulta especialmente útil en:
- Análisis de documentos largos o bases de código enteras.
- Prompts con muchos ejemplos (few-shot extenso).
- Conversaciones que requieren mantener un historial amplio.
Conviene un matiz: más tokens no siempre equivale a mejores resultados. Los modelos sufren el fenómeno lost in the middle, prestando menos atención a la información situada en el centro del contexto. Por eso el tokenmaxxing eficaz combina cantidad con una estructura clara que priorice los datos críticos al principio o al final.