Technique Updated 2026-04

Tokenizer

Definition

Un tokenizer est l'algorithme qui découpe le texte en tokens (unités élémentaires) avant qu'il soit traité par un LLM.

Frequently Asked Questions

Pourquoi le tokenizer est-il important ?
Il détermine combien de tokens un texte consomme, donc le coût et si le texte tient dans la fenêtre de contexte. Un mauvais tokenizer gaspille des tokens.
Tous les LLM utilisent-ils le même tokenizer ?
Non. OpenAI utilise tiktoken, Anthropic et Google ont les leurs. Un même texte peut faire 100 tokens sur GPT-4 et 120 sur Claude.