Modèle Aktualisiert 2026-04

Multimodal

Definition

Ein multimodales Modell verarbeitet und generiert mehrere Datentypen: Text, Bilder, Audio und Video.

Siehe auch im Glossar

LLM (Large Language Model)

Ein LLM ist ein KI-Modell, das auf Milliarden von Texten trainiert wurde und in der Lage ist, menschliche Sprache zu verstehen und zu generieren.

Generative KI bezeichnet KI-Systeme, die in der Lage sind, originale Inhalte zu erstellen: Texte, Bilder, Videos, Audio und Code.

Text-to-Image bezeichnet die Erzeugung von Bildern aus Textbeschreibungen mithilfe generativer KI-Modelle.

Text-to-Speech wandelt geschriebenen Text mithilfe von KI in gesprochene Sprache um – mit zunehmend realistischen Ergebnissen.

Tools, die multimodal verwenden

Der weltweit meistgenutzte KI-Konversationsassistent

Googles KI-Assistent mit 1-Million-Token-Kontext

Die KI, die Nuancen versteht – von Anthropic

Die rebellische KI von xAI, in Echtzeit mit X verbunden

Häufig gestellte Fragen

Welche LLMs sind multimodal?

GPT-4o, Gemini 2.0, Claude Opus. Die meisten führenden LLMs sind im Jahr 2026 multimodal.

Bedeutet multimodal, dass das Modell alles kann?

Nein. Ein multimodales Modell verarbeitet mehrere Eingabetypen, ist aber nicht zwangsläufig in jedem davon gleich leistungsstark.