Mixture of Experts (MoE)

También: MoE · Mezcla de Expertos · modelo de expertos · arquitectura MoE

Arquitectura que activa solo partes del modelo según la tarea

1 min de lectura

La Mixture of Experts (MoE) es una arquitectura de redes neuronales que divide el modelo en múltiples subredes especializadas, llamadas expertos. Un componente denominado router (o gating network) decide, para cada entrada, qué expertos activar. En lugar de hacer pasar cada token por todos los parámetros del modelo, solo se emplea un subconjunto, lo que se conoce como activación dispersa (sparse activation).

Su importancia radica en la eficiencia: permite escalar el número total de parámetros sin disparar proporcionalmente el coste de cómputo en inferencia. Un modelo MoE puede tener cientos de miles de millones de parámetros pero activar solo una fracción por token, ofreciendo gran capacidad a un coste razonable.

Algunos matices prácticos a tener en cuenta:

El equilibrio de carga entre expertos es crítico; si el router favorece siempre a los mismos, otros quedan infrautilizados.
Requiere más memoria, ya que todos los expertos deben estar cargados aunque no se usen.

Modelos como Mixtral 8x7B o varias versiones de GPT emplean este enfoque para combinar potencia y eficiencia.

Mixture of Experts (MoE)

Términos relacionados

Inference Time Compute

Transformer

Frontier Models

Small Language Models (SLM)

LLM (Large Language Model)

Model Distillation