Inference Time Compute

También: cómputo en inferencia · test-time compute · cómputo en tiempo de inferencia · escalado en inferencia

Dedicar más capacidad de cómputo durante la respuesta, no el entrenamiento

1 min de lectura

El inference time compute (o cómputo en tiempo de inferencia) hace referencia a la estrategia de asignar más recursos de cálculo en el momento en que el modelo genera la respuesta, en lugar de invertirlos únicamente en la fase de entrenamiento. La idea de fondo es que un modelo puede "pensar más" ante una consulta concreta, dedicando ciclos adicionales a explorar, verificar o refinar su salida antes de entregarla.

Este enfoque importa porque permite mejorar la calidad de las respuestas sin necesidad de reentrenar el modelo ni aumentar su tamaño. En tareas de razonamiento complejo —matemáticas, lógica o programación— suele compensar más dejar que el modelo razone durante más tiempo que escalar sus parámetros. Algunas técnicas habituales son:

Generar varias soluciones y elegir la mejor por votación (self-consistency).
Desplegar cadenas de razonamiento extensas paso a paso.
Usar bucles de verificación y autocorrección.

El matiz práctico es que este cómputo extra tiene un coste real: más latencia y mayor gasto por consulta, por lo que conviene reservarlo para problemas que realmente lo justifiquen.

Inference Time Compute

Términos relacionados

Chain of Thought (CoT)

Reasoning Models

Tokenmaxxing

Frontier Models

LLM (Large Language Model)

Model Distillation