Évaluation Aktualisiert 2026-04

KI-Benchmark

AI Benchmark
Definition

Ein KI-Benchmark ist ein standardisierter Test, der die Leistung von KI-Modellen bei bestimmten Aufgaben misst und vergleicht.

Häufig gestellte Fragen

Was sind die bekanntesten KI-Benchmarks?
MMLU (Allgemeinwissen), HumanEval (Code), MATH (Mathematik), HellaSwag (Reasoning) und LMSYS Arena ELO (Ranking per Nutzervoting).
Sind Benchmarks verlässlich?
Nur bedingt. Modelle können gezielt auf Benchmarks optimiert werden, ohne in der Praxis besser zu sein. Das Arena-ELO-Ranking gilt als das aussagekräftigste.