Technique Aktualisiert 2026-04
RLHF (Reinforcement Learning from Human Feedback)
Reinforcement Learning from Human Feedback
Definition
RLHF ist eine Trainingstechnik, die menschliches Feedback nutzt, um das Verhalten eines LLMs an den Erwartungen der Nutzer auszurichten.
Siehe auch im Glossar
L
LLM (Large Language Model)
Ein LLM ist ein KI-Modell, das auf Milliarden von Texten trainiert wurde und in der Lage ist, menschliche Sprache zu verstehen und zu generieren.
F
Fine-tuning
Fine-tuning bezeichnet den Prozess, ein bestehendes KI-Modell auf einem spezifischen Datensatz weiterzutrainieren, um es an eine bestimmte Domäne oder Aufgabe anzupassen.
K
KI-Alignment
KI-Alignment zielt darauf ab sicherzustellen, dass ein künstliches Intelligenzsystem im Einklang mit menschlichen Werten und Absichten handelt.
M
Machine Learning
Machine Learning ist ein Teilgebiet der KI, bei dem Systeme aus Daten lernen, um ihre Leistung zu verbessern – ohne für jede Aufgabe explizit programmiert zu werden.
Tools, die rlhf verwenden
Häufig gestellte Fragen
Warum ist RLHF notwendig?
Ohne RLHF ist ein LLM zwar leistungsfähig, aber kaum praxistauglich: Es kann toxische, themenfremde oder übermäßig ausschweifende Antworten produzieren. RLHF macht es hilfreich, harmlos und ehrlich.
Wie funktioniert RLHF?
Menschen bewerten mehrere Modellantworten. Ein Reward-Modell lernt aus diesen Präferenzen, anschließend wird das LLM so neu trainiert, dass es diesen Reward maximiert.