Technique Updated 2026-04
Quantization
Definition
La quantization réduit la précision des nombres dans un modèle IA pour le rendre plus petit et plus rapide, avec une perte de qualité minimale.
See also in the glossary
L
LLM (Large Language Model)
Un LLM est un modèle d'IA entraîné sur des milliards de textes, capable de comprendre et générer du langage humain.
I
Inférence IA
L'inférence est le processus d'utilisation d'un modèle IA entraîné pour générer des prédictions ou des réponses à partir de nouvelles données.
S
SLM (Small Language Model)
Un SLM est un modèle de langage compact, optimisé pour tourner sur des appareils locaux avec des performances ciblées sur des tâches spécifiques.
G
GPU Cloud
Le GPU Cloud fournit des processeurs graphiques à la demande pour entraîner et faire tourner des modèles d'IA sans investir dans du matériel.
Tools that use quantization
Frequently Asked Questions
Quantization en 4-bit, 8-bit, qu'est-ce que ca change ?
Le modèle original utilise des nombres en 16 ou 32-bit. La quantization 8-bit divise la taille par 2, le 4-bit par 4. Un LLM de 70B en 4-bit tient dans 32GB de RAM.
La qualité baisse-t-elle beaucoup ?
En 8-bit, presque imperceptible. En 4-bit, légère baisse sur les tâches complexes mais acceptable pour la plupart des usages. En 2-bit, perte notable.