Modèle Updated 2026-04

Multimodal

Definition

Un modèle multimodal traite et génère plusieurs types de données : texte, images, audio et vidéo.

See also in the glossary

LLM (Large Language Model)

Un LLM est un modèle d'IA entraîné sur des milliards de textes, capable de comprendre et générer du langage humain.

IA Générative

L'IA générative désigne les systèmes d'intelligence artificielle capables de créer du contenu original : texte, images, vidéo, audio, code.

Le Text-to-Image désigne la génération d'images à partir de descriptions textuelles grâce à des modèles d'IA générative.

Le Text-to-Speech transforme du texte écrit en voix parlée grâce à l'IA, avec des résultats de plus en plus réalistes.

Tools that use multimodal

The world's most used conversational AI assistant

Google's AI assistant with 1M token context

The AI that understands nuance, by Anthropic

The rebellious AI from xAI, connected to X in real time

Frequently Asked Questions

Quels LLM sont multimodaux ?

GPT-4o, Gemini 2.0, Claude Opus. La plupart des LLM majeurs sont multimodaux en 2026.

Multimodal signifie-t-il que le modèle fait tout ?

Non. Un modèle multimodal traite plusieurs types d'entrées mais n'excelle pas forcément dans chaque modalité.