Technique Aktualisiert 2026-04

Quantisierung

Quantization

Definition

Quantisierung reduziert die Präzision der Zahlenwerte in einem KI-Modell, um es kleiner und schneller zu machen – bei minimalem Qualitätsverlust.

Siehe auch im Glossar

LLM (Large Language Model)

Ein LLM ist ein KI-Modell, das auf Milliarden von Texten trainiert wurde und in der Lage ist, menschliche Sprache zu verstehen und zu generieren.

KI-Inferenz

Inferenz ist der Prozess, bei dem ein trainiertes KI-Modell verwendet wird, um aus neuen Daten Vorhersagen oder Antworten zu generieren.

SLM (Small Language Model)

Ein SLM ist ein kompaktes Sprachmodell, das für den Betrieb auf lokalen Geräten optimiert ist und gezielte Leistung bei spezifischen Aufgaben bietet.

GPU Cloud

GPU Cloud stellt On-Demand-Grafikprozessoren zum Trainieren und Betreiben von KI-Modellen bereit – ganz ohne eigene Hardware-Investitionen.

Tools, die quantisierung verwenden

DeepSeek

Das chinesische Open-Source-Modell auf GPT-4-Niveau

4.7/5

Stable Diffusion

Die Open-Source-Referenz für KI-Bildgenerierung

4.4/5

OpenClaw

Der Open-Source-KI-Agent, der Ihre LLMs in autonome Arbeiter verwandelt

4.5/5

Replit

Cloud-IDE mit integrierter KI für das Programmieren von überall

4.5/5

Häufig gestellte Fragen

Was ist der Unterschied zwischen 4-Bit- und 8-Bit-Quantisierung?

Ursprüngliche Modelle verwenden 16- oder 32-Bit-Zahlen. 8-Bit-Quantisierung halbiert die Größe, 4-Bit reduziert sie auf ein Viertel. Ein 70B-LLM in 4-Bit passt in 32 GB RAM.

Leidet die Qualität merklich darunter?

Bei 8-Bit kaum spürbar. Bei 4-Bit gibt es einen leichten Qualitätsverlust bei komplexen Aufgaben, der aber für die meisten Anwendungsfälle akzeptabel ist. Bei 2-Bit fällt der Verlust deutlich ins Gewicht.