Technique Aktualisiert 2026-04

RLHF (Reinforcement Learning from Human Feedback)

Reinforcement Learning from Human Feedback
Definition

RLHF ist eine Trainingstechnik, die menschliches Feedback nutzt, um das Verhalten eines LLMs an den Erwartungen der Nutzer auszurichten.

Häufig gestellte Fragen

Warum ist RLHF notwendig?
Ohne RLHF ist ein LLM zwar leistungsfähig, aber kaum praxistauglich: Es kann toxische, themenfremde oder übermäßig ausschweifende Antworten produzieren. RLHF macht es hilfreich, harmlos und ehrlich.
Wie funktioniert RLHF?
Menschen bewerten mehrere Modellantworten. Ein Reward-Modell lernt aus diesen Präferenzen, anschließend wird das LLM so neu trainiert, dass es diesen Reward maximiert.