Razonamiento y Técnicas de PromptingInformal · jerga

Tokenmaxxing

También: token maxxing · maximización de tokens · optimización de contexto

Exprimir al máximo la ventana de contexto de un modelo. Coloquialmente, también: usar muchos tokens como métrica (discutible) de productividad.

1 min de lectura

El tokenmaxxing consiste en aprovechar al máximo la ventana de contexto de un modelo de lenguaje, es decir, el número total de tokens que puede procesar en una sola interacción. La idea es introducir tanta información relevante como sea posible —documentos, ejemplos, instrucciones detalladas o historiales completos— para que el modelo disponga de todo el material necesario antes de generar su respuesta.

Esta práctica importa porque la calidad de las respuestas suele depender más del contexto disponible que de la astucia del prompt. Cargar el contexto con datos pertinentes reduce las alucinaciones y evita tener que dividir tareas complejas en múltiples llamadas. Resulta especialmente útil en:

Análisis de documentos largos o bases de código enteras.
Prompts con muchos ejemplos (few-shot extenso).
Conversaciones que requieren mantener un historial amplio.

Conviene un matiz: más tokens no siempre equivale a mejores resultados. Los modelos sufren el fenómeno lost in the middle, prestando menos atención a la información situada en el centro del contexto. Por eso el tokenmaxxing eficaz combina cantidad con una estructura clara que priorice los datos críticos al principio o al final.

Tokenmaxxing

Términos relacionados

Inference Time Compute

Prompt Engineering

Context Window

LLM (Large Language Model)

Tokenization

RAG (Retrieval Augmented Generation)