Application Aktualisiert 2026-04
Text-to-Speech
Definition
Text-to-Speech wandelt geschriebenen Text mithilfe von KI in gesprochene Sprache um – mit zunehmend realistischen Ergebnissen.
Siehe auch im Glossar
G
Generative KI
Generative KI bezeichnet KI-Systeme, die in der Lage sind, originale Inhalte zu erstellen: Texte, Bilder, Videos, Audio und Code.
M
Multimodal
Ein multimodales Modell verarbeitet und generiert mehrere Datentypen: Text, Bilder, Audio und Video.
N
NLP (Natural Language Processing)
NLP ist das KI-Fachgebiet, das Maschinen in die Lage versetzt, menschliche Sprache zu verstehen, zu interpretieren und zu generieren.
S
Speech-to-Text
Speech-to-Text wandelt gesprochene Sprache in geschriebenen Text um und ermöglicht die automatische Transkription von Meetings, Podcasts und Anrufen.
Tools, die text-to-speech verwenden
Häufig gestellte Fragen
Was ist das beste Text-to-Speech-Tool?
ElevenLabs für Stimmqualität, Murf AI für professionelle Stimmen in 120+ Sprachen, Descript für vollständiges Audio-Editing.
Kann man seine eigene Stimme klonen?
Ja. ElevenLabs klont Ihre Stimme mit wenigen Sekunden Audiomaterial. Descript bietet ebenfalls Voice-Cloning an, um einzelne Passagen nachträglich zu korrigieren.