Technique Updated 2026-04

Tokenizer

Definition

Un tokenizer est l'algorithme qui découpe le texte en tokens (unités élémentaires) avant qu'il soit traité par un LLM.

Tools that use tokenizer

ChatGPT

The world's most used conversational AI assistant

4.6/5

Claude

The AI that understands nuance, by Anthropic

4.7/5

DeepSeek

The open source Chinese model rivaling GPT-4

4.7/5

Mistral Le Chat

The sovereign European AI, GDPR-compliant

4.5/5

Frequently Asked Questions

Pourquoi le tokenizer est-il important ?

Il détermine combien de tokens un texte consomme, donc le coût et si le texte tient dans la fenêtre de contexte. Un mauvais tokenizer gaspille des tokens.

Tous les LLM utilisent-ils le même tokenizer ?

Non. OpenAI utilise tiktoken, Anthropic et Google ont les leurs. Un même texte peut faire 100 tokens sur GPT-4 et 120 sur Claude.

See also in the glossary

Tools that use tokenizer

Frequently Asked Questions