Technique Updated 2026-04

Quantization

Definition

La quantization réduit la précision des nombres dans un modèle IA pour le rendre plus petit et plus rapide, avec une perte de qualité minimale.

Frequently Asked Questions

Quantization en 4-bit, 8-bit, qu'est-ce que ca change ?
Le modèle original utilise des nombres en 16 ou 32-bit. La quantization 8-bit divise la taille par 2, le 4-bit par 4. Un LLM de 70B en 4-bit tient dans 32GB de RAM.
La qualité baisse-t-elle beaucoup ?
En 8-bit, presque imperceptible. En 4-bit, légère baisse sur les tâches complexes mais acceptable pour la plupart des usages. En 2-bit, perte notable.