Technique Updated 2026-04

RLHF (Reinforcement Learning from Human Feedback)

Reinforcement Learning from Human Feedback

Definition

Le RLHF est une technique d'entraînement qui utilise les retours humains pour aligner le comportement d'un LLM avec les attentes des utilisateurs.

Tools that use rlhf

ChatGPT

The world's most used conversational AI assistant

4.6/5

Claude

The AI that understands nuance, by Anthropic

4.7/5

Gemini

Google's AI assistant with 1M token context

4.5/5

DeepSeek

The open source Chinese model rivaling GPT-4

4.7/5

Frequently Asked Questions

Pourquoi le RLHF est-il nécessaire ?

Sans RLHF, un LLM est capable mais peu utile : il peut être toxique, hors sujet ou trop verbeux. Le RLHF le rend helpful, harmless et honest.

Comment fonctionne le RLHF ?

Des humains notent plusieurs réponses du modèle. Un modèle de récompense apprend ces préférences, puis le LLM est ré-entraîné pour maximiser cette récompense.

See also in the glossary

Tools that use rlhf

Frequently Asked Questions