Technique Updated 2026-04

Données synthétiques (Synthetic Data)

Synthetic Data
Definition

Les données synthétiques sont des données générées artificiellement par des algorithmes ou des modèles d'IA, conçues pour reproduire les propriétés statistiques de données réelles sans contenir d'informations personnelles.

Frequently Asked Questions

Les données synthétiques peuvent-elles remplacer les données réelles ?
Pas entièrement. Les données synthétiques sont un complément puissant aux données réelles : elles comblent les manques, augmentent la diversité et respectent la vie privée. Mais un modèle entraîné uniquement sur des données synthétiques risque le model collapse — il faut toujours un ancrage dans la réalité.
Comment génère-t-on des données synthétiques ?
Plusieurs méthodes existent : les LLM comme ChatGPT ou Claude pour générer du texte structuré, les GANs pour les images, les modèles de diffusion, les simulateurs physiques, et les techniques statistiques classiques comme le SMOTE pour les données tabulaires.