Technique Updated 2026-04
Tokenizer
Definition
Un tokenizer est l'algorithme qui découpe le texte en tokens (unités élémentaires) avant qu'il soit traité par un LLM.
See also in the glossary
T
Token
Un token est l'unité de base traitée par un LLM. C'est un morceau de mot, de ponctuation ou de caractère que le modèle utilise pour comprendre et générer du texte.
L
LLM (Large Language Model)
Un LLM est un modèle d'IA entraîné sur des milliards de textes, capable de comprendre et générer du langage humain.
E
Embedding
Un embedding est une représentation numérique (vecteur) d'un texte ou d'une donnée, capturant son sens sémantique.
F
Fenêtre de contexte
La fenêtre de contexte est la quantité maximale de texte qu'un LLM peut traiter en une seule requête.
Tools that use tokenizer
Frequently Asked Questions
Pourquoi le tokenizer est-il important ?
Il détermine combien de tokens un texte consomme, donc le coût et si le texte tient dans la fenêtre de contexte. Un mauvais tokenizer gaspille des tokens.
Tous les LLM utilisent-ils le même tokenizer ?
Non. OpenAI utilise tiktoken, Anthropic et Google ont les leurs. Un même texte peut faire 100 tokens sur GPT-4 et 120 sur Claude.