Harness

También: arnés de evaluación · marco de evaluación · evaluation harness · test harness

Marco que permite probar y evaluar el rendimiento de agentes

1 min de lectura

En el contexto de los agentes de IA, un harness es la infraestructura de software que rodea a un modelo de lenguaje y le permite actuar como un agente funcional. No se trata del modelo en sí, sino del conjunto de componentes que gestionan el flujo de trabajo: la construcción de los prompts, el acceso a herramientas externas, la memoria, el control de los pasos de ejecución y la captura de los resultados.

Su importancia radica en que el rendimiento de un agente depende tanto del modelo subyacente como del harness que lo orquesta. Un mismo modelo puede ofrecer resultados muy distintos según cómo se le proporcione el contexto o se gestionen sus llamadas a herramientas. Por eso, al comparar agentes en benchmarks como SWE-bench, es esencial especificar qué harness se ha usado.

Un harness típico se encarga de:

Iterar sobre las acciones del agente hasta alcanzar el objetivo.
Conectar el modelo con herramientas (terminal, navegador, APIs).
Registrar trazas para evaluar y depurar el comportamiento.

Harness

Términos relacionados

Agentic AI

AI Agents

Multi-Agent Orchestration

Agentic Workflows

Scaffold

Red Teaming