Technique Updated 2026-04
RLHF (Reinforcement Learning from Human Feedback)
Reinforcement Learning from Human Feedback
Definition
Le RLHF est une technique d'entraînement qui utilise les retours humains pour aligner le comportement d'un LLM avec les attentes des utilisateurs.
See also in the glossary
L
LLM (Large Language Model)
Un LLM est un modèle d'IA entraîné sur des milliards de textes, capable de comprendre et générer du langage humain.
F
Fine-tuning
Le fine-tuning consiste à ré-entraîner un modèle IA pré-existant sur un jeu de données spécifique pour l'adapter à un domaine ou une tâche précise.
A
Alignment IA
L'alignment IA vise à s'assurer qu'un système d'intelligence artificielle agit conformément aux valeurs et intentions humaines.
M
Machine Learning
Le Machine Learning est une branche de l'IA où les systèmes apprennent à partir de données pour améliorer leurs performances sans être explicitement programmés pour chaque tâche.
Tools that use rlhf
Frequently Asked Questions
Pourquoi le RLHF est-il nécessaire ?
Sans RLHF, un LLM est capable mais peu utile : il peut être toxique, hors sujet ou trop verbeux. Le RLHF le rend helpful, harmless et honest.
Comment fonctionne le RLHF ?
Des humains notent plusieurs réponses du modèle. Un modèle de récompense apprend ces préférences, puis le LLM est ré-entraîné pour maximiser cette récompense.