Modèle Aktualisiert 2026-04
Multimodal
Definition
Ein multimodales Modell verarbeitet und generiert mehrere Datentypen: Text, Bilder, Audio und Video.
Siehe auch im Glossar
L
LLM (Large Language Model)
Ein LLM ist ein KI-Modell, das auf Milliarden von Texten trainiert wurde und in der Lage ist, menschliche Sprache zu verstehen und zu generieren.
G
Generative KI
Generative KI bezeichnet KI-Systeme, die in der Lage sind, originale Inhalte zu erstellen: Texte, Bilder, Videos, Audio und Code.
T
Text-to-Image
Text-to-Image bezeichnet die Erzeugung von Bildern aus Textbeschreibungen mithilfe generativer KI-Modelle.
T
Text-to-Speech
Text-to-Speech wandelt geschriebenen Text mithilfe von KI in gesprochene Sprache um – mit zunehmend realistischen Ergebnissen.
Tools, die multimodal verwenden
Häufig gestellte Fragen
Welche LLMs sind multimodal?
GPT-4o, Gemini 2.0, Claude Opus. Die meisten führenden LLMs sind im Jahr 2026 multimodal.
Bedeutet multimodal, dass das Modell alles kann?
Nein. Ein multimodales Modell verarbeitet mehrere Eingabetypen, ist aber nicht zwangsläufig in jedem davon gleich leistungsstark.