Técnica de compresión de modelos de lenguaje que reduce la precisión numérica de los pesos del modelo (de 16 o 32 bits a 4, 6 u 8 bits) para disminuir el tamaño del fichero y los requisitos de memoria, a cambio de una pequeña pérdida de calidad en las respuestas. Los sufijos Q4_K_M, Q6_K o Q8_0 en los ficheros GGUF indican el nivel de cuantización aplicado.



