Technique Aktualisiert 2026-04

Tokenizer

Definition

Ein Tokenizer ist der Algorithmus, der Text in Tokens (elementare Einheiten) aufteilt, bevor er von einem LLM verarbeitet wird.

Häufig gestellte Fragen

Warum ist der Tokenizer wichtig?
Er bestimmt, wie viele Tokens ein Text verbraucht – und damit die Kosten und ob der Text in das Kontextfenster passt. Ein schlechter Tokenizer verschwendet Tokens.
Verwenden alle LLMs denselben Tokenizer?
Nein. OpenAI verwendet tiktoken, Anthropic und Google haben jeweils eigene Tokenizer. Derselbe Text kann bei GPT-4 100 Tokens umfassen und bei Claude 120.