Technique Aktualisiert 2026-04
Tokenizer
Definition
Ein Tokenizer ist der Algorithmus, der Text in Tokens (elementare Einheiten) aufteilt, bevor er von einem LLM verarbeitet wird.
Siehe auch im Glossar
T
Token
Ein Token ist die grundlegende Einheit, die ein LLM verarbeitet. Es handelt sich um ein Wortteil, ein Satzzeichen oder ein Zeichen, das das Modell nutzt, um Text zu verstehen und zu generieren.
L
LLM (Large Language Model)
Ein LLM ist ein KI-Modell, das auf Milliarden von Texten trainiert wurde und in der Lage ist, menschliche Sprache zu verstehen und zu generieren.
E
Embedding
Ein Embedding ist eine numerische Darstellung (Vektor) von Text oder Daten, die deren semantische Bedeutung erfasst.
C
Context Window
Das Context Window ist die maximale Textmenge, die ein LLM in einer einzigen Anfrage verarbeiten kann.
Tools, die tokenizer verwenden
Häufig gestellte Fragen
Warum ist der Tokenizer wichtig?
Er bestimmt, wie viele Tokens ein Text verbraucht – und damit die Kosten und ob der Text in das Kontextfenster passt. Ein schlechter Tokenizer verschwendet Tokens.
Verwenden alle LLMs denselben Tokenizer?
Nein. OpenAI verwendet tiktoken, Anthropic und Google haben jeweils eigene Tokenizer. Derselbe Text kann bei GPT-4 100 Tokens umfassen und bei Claude 120.