Technique Aktualisiert 2026-04

RLHF (Reinforcement Learning from Human Feedback)

Reinforcement Learning from Human Feedback

Definition

RLHF ist eine Trainingstechnik, die menschliches Feedback nutzt, um das Verhalten eines LLMs an den Erwartungen der Nutzer auszurichten.

Siehe auch im Glossar

LLM (Large Language Model)

Ein LLM ist ein KI-Modell, das auf Milliarden von Texten trainiert wurde und in der Lage ist, menschliche Sprache zu verstehen und zu generieren.

Fine-tuning

Fine-tuning bezeichnet den Prozess, ein bestehendes KI-Modell auf einem spezifischen Datensatz weiterzutrainieren, um es an eine bestimmte Domäne oder Aufgabe anzupassen.

KI-Alignment

KI-Alignment zielt darauf ab sicherzustellen, dass ein künstliches Intelligenzsystem im Einklang mit menschlichen Werten und Absichten handelt.

Machine Learning

Machine Learning ist ein Teilgebiet der KI, bei dem Systeme aus Daten lernen, um ihre Leistung zu verbessern – ohne für jede Aufgabe explizit programmiert zu werden.

Tools, die rlhf verwenden

ChatGPT

Der weltweit meistgenutzte KI-Konversationsassistent

4.6/5

Claude

Die KI, die Nuancen versteht – von Anthropic

4.7/5

Gemini

Googles KI-Assistent mit 1-Million-Token-Kontext

4.5/5

DeepSeek

Das chinesische Open-Source-Modell auf GPT-4-Niveau

4.7/5

Häufig gestellte Fragen

Warum ist RLHF notwendig?

Ohne RLHF ist ein LLM zwar leistungsfähig, aber kaum praxistauglich: Es kann toxische, themenfremde oder übermäßig ausschweifende Antworten produzieren. RLHF macht es hilfreich, harmlos und ehrlich.

Wie funktioniert RLHF?

Menschen bewerten mehrere Modellantworten. Ein Reward-Modell lernt aus diesen Präferenzen, anschließend wird das LLM so neu trainiert, dass es diesen Reward maximiert.