Évaluation Updated 2026-04

Benchmark IA

AI Benchmark
Definition

Un benchmark IA est un test standardisé qui mesure et compare les performances des modèles d'intelligence artificielle sur des tâches précises.

Frequently Asked Questions

Quels sont les benchmarks IA les plus connus ?
MMLU (connaissances générales), HumanEval (code), MATH (mathématiques), HellaSwag (raisonnement), et Arena ELO de LMSYS (classement par votes humains).
Les benchmarks sont-ils fiables ?
Partiellement. Les modèles peuvent être optimisés pour performer sur les benchmarks sans être meilleurs en pratique. Le classement Arena ELO est considéré comme le plus représentatif.