La Mixture of Experts (MoE) es una arquitectura de redes neuronales que divide el modelo en múltiples subredes especializadas, llamadas expertos. Un componente denominado router (o gating network) decide, para cada entrada, qué expertos activar. En lugar de hacer pasar cada token por todos los parámetros del modelo, solo se emplea un subconjunto, lo que se conoce como activación dispersa (sparse activation).
Su importancia radica en la eficiencia: permite escalar el número total de parámetros sin disparar proporcionalmente el coste de cómputo en inferencia. Un modelo MoE puede tener cientos de miles de millones de parámetros pero activar solo una fracción por token, ofreciendo gran capacidad a un coste razonable.
Algunos matices prácticos a tener en cuenta:
- El equilibrio de carga entre expertos es crítico; si el router favorece siempre a los mismos, otros quedan infrautilizados.
- Requiere más memoria, ya que todos los expertos deben estar cargados aunque no se usen.
Modelos como Mixtral 8x7B o varias versiones de GPT emplean este enfoque para combinar potencia y eficiencia.