Ce que vous devez savoir avant
Vous commencez
Débute 4 June 2026 07:56
Se termine 4 June 2026
00
Jours
00
Heures
00
Minutes
00
Secondes
1 hour
Amélioration optionnelle disponible
Intermédiaire
Progressez à votre rythme
Free Certificate
Amélioration optionnelle disponible
Aperçu
This course covers tokenization techniques used in modern AI models, including rule-based methods, subword tokenization (BPE, WordPiece, SentencePiece), and vocabulary optimizations. Learners will implement these methods and understand their impact on NLP model performance.
Programme
- Unité 1 : Introduction à la tokenisation (Tokenisation basée sur des règles)
- Unité 2 : Codage par paire de bytes (BPE) – Tokenisation de sous-mots
- Unité 3 : Comparaison de BPE, WordPiece, et SentencePiece en TAL
- Unité 4 : Tokenisation et gestion du vocabulaire hors-contexte (OOV) en TAL
Tokeniser du texte avec NLTK
Tokenisation de phrases avec NLTK
Extraire des valeurs monétaires avec Regex
Confrontation de tokenisation avec NLTK et spaCy
Explorer les tokeniseurs pré-entrainés avec GPT-2
Utiliser des tokeniseurs pré-entrainés avec RoBERTa
Comparer la tokenisation avec GPT-2 et RoBERTa
Défi de tokenisation WordPiece
Les techniques de tokenisation en action
Les techniques de tokenisation en action
Les techniques de tokenisation pour des textes spéciaux
Confrontation de tokenisation BERT vs GPT2
Défi de tokenisation multilingue
Tokenisation multilingue et réduction de l’OOV
Matières
Computer Science