Local Inference

También: Inferencia Local · Inferencia en local · On-premise AI · Ejecución local de modelos

Ejecutar modelos de IA en tu propio hardware

1 min de lectura

La inferencia local consiste en ejecutar un modelo de IA directamente en tu propio hardware —ordenador, servidor o dispositivo móvil— en lugar de enviar las peticiones a la nube de un proveedor externo. Toda la fase de cálculo, desde que introduces una entrada hasta que obtienes una respuesta, ocurre en tu equipo sin que los datos salgan de él.

Esto importa por tres motivos principales:

Privacidad: la información sensible nunca abandona tu máquina, algo crítico en sectores como la sanidad o el ámbito legal.
Coste: evitas pagar por uso de API, lo que resulta rentable en volúmenes altos.
Disponibilidad: funciona sin conexión a internet y no dependes de la latencia o las caídas de un servicio remoto.

En la práctica, herramientas como Ollama o LM Studio permiten ejecutar modelos abiertos (por ejemplo, Llama o Mistral) en un portátil. El matiz es el hardware: los modelos grandes exigen mucha memoria RAM o VRAM, por lo que en local se suele recurrir a versiones más pequeñas o cuantizadas.

Local Inference

Términos relacionados

Small Language Models (SLM)

LLM (Large Language Model)

Sovereign AI

Shadow AI

ModelOps

Edge AI