Application Aktualisiert 2026-04

Text-to-Speech

Definition

Text-to-Speech wandelt geschriebenen Text mithilfe von KI in gesprochene Sprache um – mit zunehmend realistischen Ergebnissen.

Siehe auch im Glossar

Generative KI

Generative KI bezeichnet KI-Systeme, die in der Lage sind, originale Inhalte zu erstellen: Texte, Bilder, Videos, Audio und Code.

Multimodal

Ein multimodales Modell verarbeitet und generiert mehrere Datentypen: Text, Bilder, Audio und Video.

NLP (Natural Language Processing)

NLP ist das KI-Fachgebiet, das Maschinen in die Lage versetzt, menschliche Sprache zu verstehen, zu interpretieren und zu generieren.

Speech-to-Text

Speech-to-Text wandelt gesprochene Sprache in geschriebenen Text um und ermöglicht die automatische Transkription von Meetings, Podcasts und Anrufen.

Tools, die text-to-speech verwenden

ElevenLabs

Die fortschrittlichste KI-Audioplattform

4.5/5

Murf AI

Cloud-basierte realistische Text-to-Speech-Plattform

4.7/5

Descript

Bearbeiten Sie Videos und Podcasts wie ein Textdokument

4.6/5

Wispr Flow

Diktieren Sie 3x schneller als Sie tippen – überall auf Ihrem Mac

4.7/5

Häufig gestellte Fragen

Was ist das beste Text-to-Speech-Tool?

ElevenLabs für Stimmqualität, Murf AI für professionelle Stimmen in 120+ Sprachen, Descript für vollständiges Audio-Editing.

Kann man seine eigene Stimme klonen?

Ja. ElevenLabs klont Ihre Stimme mit wenigen Sekunden Audiomaterial. Descript bietet ebenfalls Voice-Cloning an, um einzelne Passagen nachträglich zu korrigieren.