Technique Aktualisiert 2026-04
Synthetische Daten
Synthetic Data
Definition
Synthetische Daten sind Daten, die künstlich durch Algorithmen oder KI-Modelle generiert werden und darauf ausgelegt sind, die statistischen Eigenschaften realer Daten zu reproduzieren, ohne personenbezogene Informationen zu enthalten.
Siehe auch im Glossar
G
Generative KI
Generative KI bezeichnet KI-Systeme, die in der Lage sind, originale Inhalte zu erstellen: Texte, Bilder, Videos, Audio und Code.
F
Fine-tuning
Fine-tuning bezeichnet den Prozess, ein bestehendes KI-Modell auf einem spezifischen Datensatz weiterzutrainieren, um es an eine bestimmte Domäne oder Aufgabe anzupassen.
M
Machine Learning
Machine Learning ist ein Teilgebiet der KI, bei dem Systeme aus Daten lernen, um ihre Leistung zu verbessern – ohne für jede Aufgabe explizit programmiert zu werden.
D
Deep Learning
Deep Learning ist ein Teilbereich des Machine Learning, der mehrschichtige neuronale Netze verwendet, um komplexe Muster direkt aus Rohdaten zu erlernen.
L
LLM (Large Language Model)
Ein LLM ist ein KI-Modell, das auf Milliarden von Texten trainiert wurde und in der Lage ist, menschliche Sprache zu verstehen und zu generieren.
R
RLHF (Reinforcement Learning from Human Feedback)
RLHF ist eine Trainingstechnik, die menschliches Feedback nutzt, um das Verhalten eines LLMs an den Erwartungen der Nutzer auszurichten.
Tools, die synthetische daten verwenden
Häufig gestellte Fragen
Kann synthetische Daten echte Daten ersetzen?
Nicht vollständig. Synthetische Daten sind eine leistungsstarke Ergänzung zu echten Daten: Sie schließen Lücken, erhöhen die Diversität und wahren die Privatsphäre. Ein Modell, das ausschließlich auf synthetischen Daten trainiert wird, riskiert jedoch einen Model Collapse – eine Verankerung in der Realität ist stets notwendig.
Wie werden synthetische Daten erzeugt?
Es gibt verschiedene Methoden: LLMs wie ChatGPT oder Claude für strukturierten Text, GANs für Bilder, Diffusionsmodelle, Physik-Simulatoren sowie klassische statistische Verfahren wie SMOTE für tabellarische Daten.