Modèle Updated 2026-04
Multimodal
Definition
Un modèle multimodal traite et génère plusieurs types de données : texte, images, audio et vidéo.
See also in the glossary
L
LLM (Large Language Model)
Un LLM est un modèle d'IA entraîné sur des milliards de textes, capable de comprendre et générer du langage humain.
I
IA Générative
L'IA générative désigne les systèmes d'intelligence artificielle capables de créer du contenu original : texte, images, vidéo, audio, code.
T
Text-to-Image
Le Text-to-Image désigne la génération d'images à partir de descriptions textuelles grâce à des modèles d'IA générative.
T
Text-to-Speech
Le Text-to-Speech transforme du texte écrit en voix parlée grâce à l'IA, avec des résultats de plus en plus réalistes.
Tools that use multimodal
Frequently Asked Questions
Quels LLM sont multimodaux ?
GPT-4o, Gemini 2.0, Claude Opus. La plupart des LLM majeurs sont multimodaux en 2026.
Multimodal signifie-t-il que le modèle fait tout ?
Non. Un modèle multimodal traite plusieurs types d'entrées mais n'excelle pas forcément dans chaque modalité.