Mixture of Experts – Arquitectura de red neuronal en la que el modelo divide sus parámetros en «expertos» especializados y activa solo un subconjunto para cada token generado. Permite modelos con muchos parámetros totales pero con un coste de inferencia menor que un modelo denso equivalente. Ejemplo: Gemma 4 26B-A4B activa 4.000 millones de parámetros por token pese a tener 26.000 millones en total.



