Évaluation Aktualisiert 2026-04
KI-Benchmark
AI Benchmark
Definition
Ein KI-Benchmark ist ein standardisierter Test, der die Leistung von KI-Modellen bei bestimmten Aufgaben misst und vergleicht.
Siehe auch im Glossar
L
LLM (Large Language Model)
Ein LLM ist ein KI-Modell, das auf Milliarden von Texten trainiert wurde und in der Lage ist, menschliche Sprache zu verstehen und zu generieren.
F
Foundation Model
Ein Foundation Model ist ein großes KI-Modell, das auf umfangreichen Daten vortrainiert wurde und für verschiedene Aufgaben anpassbar ist.
K
KI-Halluzination
Eine KI-Halluzination ist eine Antwort, die von einem KI-Modell generiert wird und plausibel erscheint, aber faktisch falsch oder erfunden ist.
K
KI-Reasoning
KI-Reasoning bezeichnet die Fähigkeit eines Modells, ein Problem in logische Schritte zu zerlegen, um zu einer Schlussfolgerung zu gelangen – anstatt instinktiv zu antworten.
Tools, die ki-benchmark verwenden
Häufig gestellte Fragen
Was sind die bekanntesten KI-Benchmarks?
MMLU (Allgemeinwissen), HumanEval (Code), MATH (Mathematik), HellaSwag (Reasoning) und LMSYS Arena ELO (Ranking per Nutzervoting).
Sind Benchmarks verlässlich?
Nur bedingt. Modelle können gezielt auf Benchmarks optimiert werden, ohne in der Praxis besser zu sein. Das Arena-ELO-Ranking gilt als das aussagekräftigste.