Technique Aktualisiert 2026-04

Tokenizer

Definition

Ein Tokenizer ist der Algorithmus, der Text in Tokens (elementare Einheiten) aufteilt, bevor er von einem LLM verarbeitet wird.

Siehe auch im Glossar

Token

Ein Token ist die grundlegende Einheit, die ein LLM verarbeitet. Es handelt sich um ein Wortteil, ein Satzzeichen oder ein Zeichen, das das Modell nutzt, um Text zu verstehen und zu generieren.

LLM (Large Language Model)

Ein LLM ist ein KI-Modell, das auf Milliarden von Texten trainiert wurde und in der Lage ist, menschliche Sprache zu verstehen und zu generieren.

Embedding

Ein Embedding ist eine numerische Darstellung (Vektor) von Text oder Daten, die deren semantische Bedeutung erfasst.

Context Window

Das Context Window ist die maximale Textmenge, die ein LLM in einer einzigen Anfrage verarbeiten kann.

Tools, die tokenizer verwenden

ChatGPT

Der weltweit meistgenutzte KI-Konversationsassistent

4.6/5

Claude

Die KI, die Nuancen versteht – von Anthropic

4.7/5

DeepSeek

Das chinesische Open-Source-Modell auf GPT-4-Niveau

4.7/5

Mistral Le Chat

Die souveräne europäische KI – DSGVO-konform

4.5/5

Häufig gestellte Fragen

Warum ist der Tokenizer wichtig?

Er bestimmt, wie viele Tokens ein Text verbraucht – und damit die Kosten und ob der Text in das Kontextfenster passt. Ein schlechter Tokenizer verschwendet Tokens.

Verwenden alle LLMs denselben Tokenizer?

Nein. OpenAI verwendet tiktoken, Anthropic und Google haben jeweils eigene Tokenizer. Derselbe Text kann bei GPT-4 100 Tokens umfassen und bei Claude 120.