Technique Updated 2026-04

RLHF (Reinforcement Learning from Human Feedback)

Reinforcement Learning from Human Feedback
Definition

Le RLHF est une technique d'entraînement qui utilise les retours humains pour aligner le comportement d'un LLM avec les attentes des utilisateurs.

Frequently Asked Questions

Pourquoi le RLHF est-il nécessaire ?
Sans RLHF, un LLM est capable mais peu utile : il peut être toxique, hors sujet ou trop verbeux. Le RLHF le rend helpful, harmless et honest.
Comment fonctionne le RLHF ?
Des humains notent plusieurs réponses du modèle. Un modèle de récompense apprend ces préférences, puis le LLM est ré-entraîné pour maximiser cette récompense.