Technique Aktualisiert 2026-04

Quantisierung

Quantization
Definition

Quantisierung reduziert die Präzision der Zahlenwerte in einem KI-Modell, um es kleiner und schneller zu machen – bei minimalem Qualitätsverlust.

Häufig gestellte Fragen

Was ist der Unterschied zwischen 4-Bit- und 8-Bit-Quantisierung?
Ursprüngliche Modelle verwenden 16- oder 32-Bit-Zahlen. 8-Bit-Quantisierung halbiert die Größe, 4-Bit reduziert sie auf ein Viertel. Ein 70B-LLM in 4-Bit passt in 32 GB RAM.
Leidet die Qualität merklich darunter?
Bei 8-Bit kaum spürbar. Bei 4-Bit gibt es einen leichten Qualitätsverlust bei komplexen Aufgaben, der aber für die meisten Anwendungsfälle akzeptabel ist. Bei 2-Bit fällt der Verlust deutlich ins Gewicht.