Ce que vous devez savoir avant
Vous commencez

Débute 4 June 2026 07:56

Se termine 4 June 2026

00 Jours
00 Heures
00 Minutes
00 Secondes
course image

Techniques modernes de tokenisation pour l'IA et les LLMs

Maîtrisez les méthodes de tokenisation modernes, y compris BPE, WordPiece et SentencePiece, pour optimiser les performances des modèles d'IA et gérer efficacement les défis liés au vocabulaire hors-dictionnaire.
via CodeSignal

177 Cours


1 hour

Amélioration optionnelle disponible

Intermédiaire

Progressez à votre rythme

Free Certificate

Amélioration optionnelle disponible

Aperçu

This course covers tokenization techniques used in modern AI models, including rule-based methods, subword tokenization (BPE, WordPiece, SentencePiece), and vocabulary optimizations. Learners will implement these methods and understand their impact on NLP model performance.

Programme

  • Unité 1 : Introduction à la tokenisation (Tokenisation basée sur des règles)
  • Tokeniser du texte avec NLTK
    Tokenisation de phrases avec NLTK
    Extraire des valeurs monétaires avec Regex
    Confrontation de tokenisation avec NLTK et spaCy
  • Unité 2 : Codage par paire de bytes (BPE) – Tokenisation de sous-mots
  • Explorer les tokeniseurs pré-entrainés avec GPT-2
    Utiliser des tokeniseurs pré-entrainés avec RoBERTa
    Comparer la tokenisation avec GPT-2 et RoBERTa
  • Unité 3 : Comparaison de BPE, WordPiece, et SentencePiece en TAL
  • Défi de tokenisation WordPiece
    Les techniques de tokenisation en action
    Les techniques de tokenisation en action
    Les techniques de tokenisation pour des textes spéciaux
  • Unité 4 : Tokenisation et gestion du vocabulaire hors-contexte (OOV) en TAL
  • Confrontation de tokenisation BERT vs GPT2
    Défi de tokenisation multilingue
    Tokenisation multilingue et réduction de l’OOV

Matières

Computer Science