Technique Aktualisiert 2026-04
Quantisierung
Quantization
Definition
Quantisierung reduziert die Präzision der Zahlenwerte in einem KI-Modell, um es kleiner und schneller zu machen – bei minimalem Qualitätsverlust.
Siehe auch im Glossar
L
LLM (Large Language Model)
Ein LLM ist ein KI-Modell, das auf Milliarden von Texten trainiert wurde und in der Lage ist, menschliche Sprache zu verstehen und zu generieren.
K
KI-Inferenz
Inferenz ist der Prozess, bei dem ein trainiertes KI-Modell verwendet wird, um aus neuen Daten Vorhersagen oder Antworten zu generieren.
S
SLM (Small Language Model)
Ein SLM ist ein kompaktes Sprachmodell, das für den Betrieb auf lokalen Geräten optimiert ist und gezielte Leistung bei spezifischen Aufgaben bietet.
G
GPU Cloud
GPU Cloud stellt On-Demand-Grafikprozessoren zum Trainieren und Betreiben von KI-Modellen bereit – ganz ohne eigene Hardware-Investitionen.
Tools, die quantisierung verwenden
D
DeepSeek
Das chinesische Open-Source-Modell auf GPT-4-Niveau
4.7/5
S
Stable Diffusion
Die Open-Source-Referenz für KI-Bildgenerierung
4.4/5
O
OpenClaw
Der Open-Source-KI-Agent, der Ihre LLMs in autonome Arbeiter verwandelt
4.5/5
R
Replit
Cloud-IDE mit integrierter KI für das Programmieren von überall
4.5/5
Häufig gestellte Fragen
Was ist der Unterschied zwischen 4-Bit- und 8-Bit-Quantisierung?
Ursprüngliche Modelle verwenden 16- oder 32-Bit-Zahlen. 8-Bit-Quantisierung halbiert die Größe, 4-Bit reduziert sie auf ein Viertel. Ein 70B-LLM in 4-Bit passt in 32 GB RAM.
Leidet die Qualität merklich darunter?
Bei 8-Bit kaum spürbar. Bei 4-Bit gibt es einen leichten Qualitätsverlust bei komplexen Aufgaben, der aber für die meisten Anwendungsfälle akzeptabel ist. Bei 2-Bit fällt der Verlust deutlich ins Gewicht.