Évaluation Updated 2026-04
Benchmark IA
AI Benchmark
Definition
Un benchmark IA est un test standardisé qui mesure et compare les performances des modèles d'intelligence artificielle sur des tâches précises.
See also in the glossary
L
LLM (Large Language Model)
Un LLM est un modèle d'IA entraîné sur des milliards de textes, capable de comprendre et générer du langage humain.
M
Modèle de fondation
Un modèle de fondation est un grand modèle IA pré-entraîné sur des données massives, adaptable à de multiples tâches.
H
Hallucination IA
Une hallucination IA est une réponse générée par un modèle d'IA qui semble plausible mais qui est factuellement incorrecte ou inventée.
R
Raisonnement IA
Le raisonnement IA désigne la capacité d'un modèle à décomposer un problème en étapes logiques pour arriver à une conclusion, plutôt que de répondre instinctivement.
Tools that use benchmark ia
Frequently Asked Questions
Quels sont les benchmarks IA les plus connus ?
MMLU (connaissances générales), HumanEval (code), MATH (mathématiques), HellaSwag (raisonnement), et Arena ELO de LMSYS (classement par votes humains).
Les benchmarks sont-ils fiables ?
Partiellement. Les modèles peuvent être optimisés pour performer sur les benchmarks sans être meilleurs en pratique. Le classement Arena ELO est considéré comme le plus représentatif.